2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
當(dāng)然,計(jì)算機(jī)可以用來(lái)玩大師級(jí)國(guó)際象棋(國(guó)際象棋計(jì)算機(jī)),但他們可以做出科學(xué)發(fā)現(xiàn)嗎?能源部勞倫斯伯克利實(shí)驗(yàn)室(伯克利實(shí)驗(yàn)室)的研究人員表明,沒(méi)有材料科學(xué)培訓(xùn)的算法可以掃描數(shù)百萬(wàn)篇論文的文本并發(fā)現(xiàn)新的科學(xué)知識(shí)。
由伯克利實(shí)驗(yàn)室能源存儲(chǔ)和分布式資源部門(mén)的科學(xué)家Anubhav Jain領(lǐng)導(dǎo)的團(tuán)隊(duì)收集了330萬(wàn)份已發(fā)表的材料科學(xué)論文摘要,并將其輸入一個(gè)名為Word2vec 的算法中。通過(guò)分析單詞之間的關(guān)系,該算法能夠提前幾年預(yù)測(cè)新熱電材料的發(fā)現(xiàn),并建議尚未知的材料作為熱電材料的候選材料。
“沒(méi)有告訴任何有關(guān)材料科學(xué)的知識(shí),它就學(xué)會(huì)了周期表和金屬晶體結(jié)構(gòu)等概念,”Jain說(shuō)。“這暗示了該技術(shù)的潛力。但可能是我們發(fā)現(xiàn)的最有趣的事情,你可以使用這種算法來(lái)解決材料研究中的差距,這是人們應(yīng)該研究但到目前為止還沒(méi)有研究過(guò)的東西。”
該研究結(jié)果發(fā)表在7月3日的“ 自然 ”雜志上。該研究的主要作者,“無(wú)監(jiān)督的詞匯嵌入材料科學(xué)文獻(xiàn)中捕獲潛在知識(shí)”,現(xiàn)為伯克利實(shí)驗(yàn)室博士后研究員Vahe Tshitoyan,現(xiàn)在在谷歌工作。與Jain一起,伯克利實(shí)驗(yàn)室的科學(xué)家Kristin Persson和Gerbrand Ceder幫助領(lǐng)導(dǎo)了這項(xiàng)研究。
“該文件確定科學(xué)文獻(xiàn)的文本挖掘可以發(fā)現(xiàn)隱藏的知識(shí),純文本提取可以建立基本的科學(xué)知識(shí),”Ceder說(shuō),他還在加州大學(xué)伯克利分校的材料科學(xué)與工程系任命。
Tshitoyan表示,該項(xiàng)目的動(dòng)機(jī)是難以理解大量已發(fā)表的研究。“在每個(gè)研究領(lǐng)域都有100年的研究文獻(xiàn),每周都有數(shù)十項(xiàng)研究出現(xiàn),”他說(shuō)。“研究人員只能訪問(wèn)其中的一小部分。我們認(rèn)為,機(jī)器學(xué)習(xí)能否以無(wú)人監(jiān)督的方式利用所有這些集體知識(shí),而無(wú)需人類(lèi)研究人員的指導(dǎo)?”
該團(tuán)隊(duì)從1922年至2018年間在1000多種期刊上發(fā)表的論文中收集了330萬(wàn)篇摘要.Word2vec在這些摘要中采用了大約500,000個(gè)不同的單詞,并將每個(gè)單詞轉(zhuǎn)換為200維向量,或200個(gè)數(shù)字的數(shù)組。
“重要的不是每個(gè)數(shù)字,而是用數(shù)字來(lái)看看單詞是如何相互關(guān)聯(lián)的,”Jain說(shuō)道,他領(lǐng)導(dǎo)一個(gè)小組,致力于發(fā)現(xiàn)和設(shè)計(jì)能源應(yīng)用的新材料,使用理論,計(jì)算和數(shù)據(jù)挖掘。“例如,您可以使用標(biāo)準(zhǔn)向量數(shù)學(xué)來(lái)減去向量。其他研究人員已經(jīng)證明,如果您在非科學(xué)文本源上訓(xùn)練算法并采用”王減去女王“的結(jié)果,那么您得到的結(jié)果與”男人減去女人“相同。 “ 它沒(méi)有你告訴任何事情就找出了關(guān)系。“
類(lèi)似地,當(dāng)在材料科學(xué)文本上進(jìn)行訓(xùn)練時(shí),該算法能夠簡(jiǎn)單地基于摘要中的單詞的位置以及它們與其他單詞的共現(xiàn)來(lái)學(xué)習(xí)科學(xué)術(shù)語(yǔ)和概念的含義,例如金屬的晶體結(jié)構(gòu)。例如,正如它可以解決方程“王者 - 女王+人”,它可以發(fā)現(xiàn),對(duì)于“鐵磁性NiFe + IrMn”等式,答案將是“反鐵磁性”。
門(mén)捷列夫的周期表位于右側(cè)。Word2vec的元素表示,投影到兩個(gè)維度,位于左側(cè)。圖片來(lái)源:伯克利實(shí)驗(yàn)室
當(dāng)每個(gè)化學(xué)元素的向量投影到兩個(gè)維度時(shí),Word2vec甚至能夠?qū)W習(xí)元素周期表中元素之間的關(guān)系。
提前幾年預(yù)測(cè)發(fā)現(xiàn)
因此,如果Word2vec如此智能,它能預(yù)測(cè)新型熱電材料嗎?良好的熱電材料可以有效地將熱量轉(zhuǎn)換為電能,并且由安全,豐富且易于生產(chǎn)的材料制成。
伯克利實(shí)驗(yàn)室團(tuán)隊(duì)采用了算法建議的頂級(jí)熱電候選者,該算法根據(jù)單詞矢量與“熱電”一詞的相似性對(duì)每個(gè)化合物進(jìn)行排序。然后他們運(yùn)行計(jì)算來(lái)驗(yàn)證算法的預(yù)測(cè)。
在前10個(gè)預(yù)測(cè)中,他們發(fā)現(xiàn)所有計(jì)算的功率因數(shù)略高于已知熱電的平均值; 前三位候選者的功率因數(shù)高于已知熱電材料的第95百分位數(shù)。
接下來(lái),他們測(cè)試了算法是否可以“過(guò)去”進(jìn)行實(shí)驗(yàn),只給出2000年的摘要。同樣,在最高預(yù)測(cè)中,后來(lái)的研究中出現(xiàn)了大量的數(shù)據(jù) - 比材料多四倍剛剛被隨機(jī)選中。例如,使用截至2008年的數(shù)據(jù)訓(xùn)練的前五個(gè)預(yù)測(cè)中的三個(gè)已被發(fā)現(xiàn),其余兩個(gè)包含稀有或有毒元素。
結(jié)果令人驚訝。“老實(shí)說(shuō),我沒(méi)想到算法能夠如此預(yù)測(cè)未來(lái)的結(jié)果,”Jain說(shuō)。“我曾經(jīng)想過(guò),也許這個(gè)算法可以描述人們之前做過(guò)的事情,但卻沒(méi)有提出這些不同的聯(lián)系。當(dāng)我不僅看到預(yù)測(cè)而且還看到預(yù)測(cè)背后的推理時(shí),我感到非常驚訝,例如半赫斯勒結(jié)構(gòu),這是一種非常熱的電熱晶體結(jié)構(gòu)。“
他補(bǔ)充說(shuō):“這項(xiàng)研究表明,如果這個(gè)算法早些時(shí)候到位,可以想象一些材料可以提前幾年被發(fā)現(xiàn)。” 隨著研究,研究人員正在發(fā)布該算法預(yù)測(cè)的前50種熱電材料。如果他們想要搜索更好的拓?fù)浣^緣體材料,他們還將發(fā)布人們制作自己應(yīng)用所需的嵌入詞。
接下來(lái),Jain表示,該團(tuán)隊(duì)正在開(kāi)發(fā)一個(gè)更智能,更強(qiáng)大的搜索引擎,允許研究人員以更有用的方式搜索摘要。
該研究由豐田研究所資助。其他研究合著者是伯克利實(shí)驗(yàn)室研究人員John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大學(xué)伯克利分校研究員Olga Kononova。
2011年廣東高考數(shù)學(xué)(關(guān)于2011年廣東高考數(shù)學(xué)的簡(jiǎn)介)
俠盜飛車(chē)作弊器1 0(關(guān)于俠盜飛車(chē)作弊器1 0的簡(jiǎn)介)
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。