【據(jù)美國(guó)能源部勞倫斯伯克利國(guó)家實(shí)驗(yàn)室網(wǎng)站2019年7月3日?qǐng)?bào)道】眾所周知,機(jī)器學(xué)習(xí)算法訓(xùn)練的電腦可以進(jìn)行大師級(jí)的國(guó)際象棋對(duì)弈,但它是否可以拿來做科學(xué)發(fā)現(xiàn)嗎?美國(guó)能源部勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的研究人員通過驗(yàn)證證實(shí),沒有經(jīng)過材料科研訓(xùn)練的算法可以僅通過瀏覽數(shù)百萬篇論文的文字即可發(fā)現(xiàn)材料學(xué)中的新知識(shí)。
由勞倫斯伯克利實(shí)驗(yàn)室能源存儲(chǔ)及分布式資源研究部的科學(xué)家Anubhav Jain領(lǐng)導(dǎo)的團(tuán)隊(duì)收集了330萬份已發(fā)表的材料科學(xué)專業(yè)論文的摘要,并將其輸入一個(gè)名為Word2vec的算法中。通過分析單詞之間的關(guān)系,該算法能夠提前若干年預(yù)測(cè)發(fā)現(xiàn)新的熱電材料,并能夠提出建議將尚未被人們熟知的材料作為熱電材料的候選。
Jain表示,在沒有告知任何有關(guān)材料科學(xué)專業(yè)知識(shí)的前提下,該算法就學(xué)會(huì)了元素周期表和金屬晶體結(jié)構(gòu)等相關(guān)概念。這顯示出了該技術(shù)擁有的潛力。研究人員認(rèn)為,這項(xiàng)技術(shù)所帶來的最有前景的應(yīng)用是,人們可以使用這種算法在材料研究中嘗試填補(bǔ)尚未解決的缺陷或空白,這是科研工作理應(yīng)做到但到目前為止尚未開展研究的東西。”
這項(xiàng)研究成果發(fā)表在7月3日刊發(fā)的《自然》雜志上,論文題目為《無指導(dǎo)詞匯捕獲算法嵌入材料科學(xué)文獻(xiàn)中獲取未知知識(shí)》,該研究的主要作者為勞倫斯伯克利實(shí)驗(yàn)室博士后研究員Vahe Tshitoyan,現(xiàn)為谷歌公司工作。伯克利實(shí)驗(yàn)室的科學(xué)家Anubhav Jain,Kristin Persson和Gerbrand Ceder也共同領(lǐng)導(dǎo)參與了這項(xiàng)研究。
聯(lián)合作者之一、加州大學(xué)伯克利分校材料科學(xué)與工程系教授Ceder表示,這項(xiàng)研究表明,通過對(duì)科學(xué)文獻(xiàn)的文本挖掘可以發(fā)現(xiàn)隱藏的新知識(shí),純文本學(xué)習(xí)和提取可以建立基本的科學(xué)知識(shí)。
勞倫斯伯克利實(shí)驗(yàn)室的研究人員發(fā)現(xiàn),通過挖掘材料科學(xué)文獻(xiàn)的摘要,可能會(huì)發(fā)現(xiàn)新型熱電材料。
此項(xiàng)研究的主要作者Tshitoyan表示,開展這項(xiàng)研究的主要?jiǎng)訖C(jī)是因?yàn)槟壳暗目蒲泄ぷ髡唠y以有效率的、大面積的閱讀和理解如此數(shù)量龐大的文獻(xiàn)資料。幾乎每個(gè)研究領(lǐng)域都有超過百年研究歷史的文獻(xiàn)資料,同時(shí)每周又會(huì)產(chǎn)生數(shù)十項(xiàng)新的研究成果,但大部分研究人員只會(huì)閱讀和獲取其中的一小部分。機(jī)器學(xué)習(xí)是否可以做一些事情,在不需要科研人員輔助指導(dǎo)的情況下,匯集這些信息并挖掘其中有用的知識(shí)。
“王-女王+男人=?”
為了完成這項(xiàng)研究,該團(tuán)隊(duì)檢索了1922年至2018年間在1000多種專業(yè)期刊上發(fā)表的相關(guān)論文,并收集了約330萬篇摘要。Word2vec算法在這些摘要中共采集了約50萬個(gè)不同的單詞,并將每個(gè)單詞轉(zhuǎn)換為200維向量,或200個(gè)數(shù)字陣列。
Jain表示,這項(xiàng)工作中最重要不是每個(gè)數(shù)字,而是通過數(shù)字發(fā)掘單詞之間的相互關(guān)聯(lián)性。他領(lǐng)導(dǎo)一個(gè)小組,致力于利用混合理論、計(jì)算和數(shù)據(jù)挖掘等方式,發(fā)現(xiàn)和設(shè)計(jì)能源應(yīng)用方面的新材料。“例如,可以使用數(shù)學(xué)中標(biāo)準(zhǔn)向量的計(jì)算規(guī)則進(jìn)行向量減法運(yùn)算。很多研究工作已經(jīng)證明,如果利用非科學(xué)文獻(xiàn)資源訓(xùn)練一種算法,并以“王減女王”這種關(guān)系產(chǎn)生向量,你會(huì)得到一類與“男人減去女人”相同的運(yùn)算結(jié)果。算法會(huì)在你沒有告訴任何事情的情況下自動(dòng)找出這種關(guān)系。”
與之類似,當(dāng)你利用材料科學(xué)文獻(xiàn)訓(xùn)練算法時(shí),它能夠理解一些專業(yè)術(shù)語和概念,比如簡(jiǎn)單的根據(jù)單詞在摘要中的位置理解什么是金屬晶體結(jié)構(gòu)以及與之相關(guān)的知識(shí)。舉個(gè)例子,就像算法可以解決“王-女王+男人”這種向量運(yùn)算一樣,它也可以解決“鐵磁體-NiFe+IrMn”的問題,其答案將會(huì)是“反鐵磁體”。
當(dāng)每個(gè)化學(xué)元素代表的向量以二維坐標(biāo)的形式在二維坐標(biāo)圖中標(biāo)出時(shí),Word2vec甚至能夠?qū)W習(xí)元素周期表中各元素之間的關(guān)系。
算法研究成功可能讓科研成果提前幾年被預(yù)測(cè)發(fā)現(xiàn)
因此,如果Word2vec算法如此智能,它能預(yù)測(cè)出新型熱電材料嗎?良好的熱電材料可以有效地將熱量轉(zhuǎn)換為電能,并且可以由安全、豐富且易于生產(chǎn)的材料制成。
該算法根據(jù)科技文獻(xiàn)中單詞向量與“熱電”一詞的相似性和相關(guān)聯(lián)性,針對(duì)每種不同化合物進(jìn)行了排序。隨后,勞倫斯伯克利實(shí)驗(yàn)室研究人員利用了該算法建議的首選熱電候補(bǔ)化合物,進(jìn)行計(jì)算來驗(yàn)證算法的預(yù)測(cè)。
在算法給出的排名前10位的預(yù)測(cè)中,研究人員發(fā)現(xiàn)這10種材料計(jì)算得出的功率因數(shù)均略高于目前已知熱電材料的平均值;其中排名前三位候選材料功率因數(shù)比已知的熱電材料高95%。
接下來,他們測(cè)試了算法是否可以根據(jù)過去的文獻(xiàn)結(jié)果預(yù)測(cè)得到目前發(fā)現(xiàn)的熱電材料,研究人員只給算法學(xué)習(xí)了2000年文獻(xiàn)的摘要。同樣,在排位最高的預(yù)測(cè)中,目前已知的研究數(shù)據(jù)和結(jié)果大量的出現(xiàn)——比此前剛剛隨機(jī)選中的材料數(shù)量的四倍。在使用截至2008年之前的文獻(xiàn)資料數(shù)據(jù)訓(xùn)練算法得到排名前五的預(yù)測(cè)中,目前由3種材料已經(jīng)被發(fā)現(xiàn),其余的2種材料則包含稀有或有毒元素。
這一測(cè)試結(jié)果時(shí)令人驚訝。Jain表示,研究團(tuán)隊(duì)并沒有想到這種算法能夠如此預(yù)測(cè)未來。“我原本以為這個(gè)算法可能描述了人們以前做過的事情,但無法提出與之不同的聯(lián)系。但當(dāng)我不僅看到預(yù)測(cè)而且看到預(yù)測(cè)背后的推理時(shí),我感到非常驚訝,例如半赫斯勒結(jié)構(gòu),這是一種非常有前景的電熱晶體結(jié)構(gòu)。”
他補(bǔ)充說:“這項(xiàng)研究表明,如果我們能更早的使用這種算法,可以想象,一些新材料可以提前多年被人們發(fā)現(xiàn)。”隨著研究的深入,研究人員正在整理并發(fā)布利用該算法預(yù)測(cè)的排名前50的熱電材料。如果科研人員想要探索更好的拓?fù)浣^緣體材料,研究團(tuán)隊(duì)還將后續(xù)發(fā)布用戶針對(duì)自己的研究領(lǐng)域所需的嵌入單詞模型。
接下來,Jain表示,該團(tuán)隊(duì)正在開發(fā)一個(gè)更智能、更強(qiáng)大的搜索引擎,允許研究人員以更效的方式檢索文獻(xiàn)摘要。
這項(xiàng)研究工作由豐田研究所資助。其他從事本項(xiàng)研究的合著者分別是伯克利實(shí)驗(yàn)室研究人員John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大學(xué)伯克利分校研究員Olga Kononova。