您的位置: 首頁 >科技 >

機(jī)器學(xué)習(xí)系統(tǒng)在材料的配方中找到模式 即使缺乏訓(xùn)練數(shù)據(jù)

2019-06-21 16:48:47 編輯: 來源:
導(dǎo)讀 上個(gè)月,麻省理工學(xué)院的三位材料科學(xué)家及其同事發(fā)表了一篇論文,描述了一種新的人工智能系統(tǒng),該系統(tǒng)可以通過科學(xué)論文并提取配方來生產(chǎn)特定

上個(gè)月,麻省理工學(xué)院的三位材料科學(xué)家及其同事發(fā)表了一篇論文,描述了一種新的人工智能系統(tǒng),該系統(tǒng)可以通過科學(xué)論文并提取“配方”來生產(chǎn)特定類型的材料。

這項(xiàng)工作被設(shè)想為朝向系統(tǒng)的第一步,該系統(tǒng)可以產(chǎn)生僅在理論上描述的材料的配方?,F(xiàn)在,在npj計(jì)算材料雜志的一篇論文中,同樣的三位材料科學(xué)家和麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系(EECS)的同事,朝著這個(gè)方向邁出了一步,采用了一種新的人工智能系統(tǒng)??梢宰R別在配方中一致的更高級別的模式。

例如,新系統(tǒng)能夠識別材料配方中使用的“前體”化學(xué)品與所得產(chǎn)品的晶體結(jié)構(gòu)之間的相關(guān)性。事實(shí)證明,相同的相關(guān)性已在文獻(xiàn)中記錄。

該系統(tǒng)還依賴于統(tǒng)計(jì)方法,這些方法提供了生成原始配方的自然機(jī)制。在論文中,研究人員使用這種機(jī)制為已知材料建議替代配方,這些建議符合實(shí)際配方。

新論文的第一作者是Edward Kim,他是材料科學(xué)與工程專業(yè)的研究生。資深作者是他的顧問,Elsa Olivetti,大西洋里奇菲爾德材料科學(xué)與工程系(DMSE)能源研究助理教授。他們加入了DMSE的博士后Kevin Huang和EECS的X-Window聯(lián)盟職業(yè)發(fā)展助理教授Stefanie Jegelka。

稀疏而稀缺

像許多過去10年中表現(xiàn)最佳的人工智能系統(tǒng)一樣,麻省理工學(xué)院研究人員的新系統(tǒng)是一個(gè)所謂的神經(jīng)網(wǎng)絡(luò),它通過分析大量的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)執(zhí)行計(jì)算任務(wù)。傳統(tǒng)上,嘗試使用神經(jīng)網(wǎng)絡(luò)生成材料配方已經(jīng)遇到了兩個(gè)問題,研究人員將其描述為稀疏性和稀缺性。

材料的任何配方都可以表示為矢量,它本質(zhì)上是一長串?dāng)?shù)字。每個(gè)數(shù)字代表配方的一個(gè)特征,例如特定化學(xué)品的濃度,溶解它的溶劑或發(fā)生反應(yīng)的溫度。

由于任何給定的配方僅使用文獻(xiàn)中描述的許多化學(xué)品和溶劑中的一些,因此大多數(shù)這些數(shù)字將為零。這就是研究人員所說的“稀疏”。

類似地,為了了解如何修改反應(yīng)參數(shù)(例如化學(xué)濃度和溫度)可以影響最終產(chǎn)品,理想情況下,系統(tǒng)將在大量這些參數(shù)變化的實(shí)例上進(jìn)行訓(xùn)練。但對于某些材料 - 特別是較新的材料 - 文獻(xiàn)可能只包含一些食譜。那是稀缺的。

“人們認(rèn)為,通過機(jī)器學(xué)習(xí),你需要大量數(shù)據(jù),如果數(shù)據(jù)稀少,你需要更多數(shù)據(jù),”Kim說。“當(dāng)你試圖專注于一個(gè)非常特殊的系統(tǒng),你被迫使用高維數(shù)據(jù),但你沒有很多,你還能使用這些神經(jīng)機(jī)器學(xué)習(xí)技術(shù)嗎?”

神經(jīng)網(wǎng)絡(luò)通常被布置成層,每個(gè)層由數(shù)千個(gè)簡單處理單元或節(jié)點(diǎn)組成。每個(gè)節(jié)點(diǎn)都連接到上下層中的多個(gè)節(jié)點(diǎn)。數(shù)據(jù)被輸入底層,底層操縱它并將其傳遞給下一層,下一層操縱它并將其傳遞給下一層,依此類推。在訓(xùn)練期間,不斷地重新調(diào)整節(jié)點(diǎn)之間的連接,直到最終層的輸出始終接近某些計(jì)算的結(jié)果。

稀疏高維數(shù)據(jù)的問題在于,對于任何給定的訓(xùn)練示例,底層中的大多數(shù)節(jié)點(diǎn)都不接收數(shù)據(jù)。需要一個(gè)非常大的訓(xùn)練集來確保整個(gè)網(wǎng)絡(luò)能夠看到足夠的數(shù)據(jù)來學(xué)習(xí)可靠的概括。

人為瓶頸

麻省理工學(xué)院研究人員網(wǎng)絡(luò)的目的是將輸入向量提取到更小的向量中,所有向量都對每個(gè)輸入都有意義。為此,在一些實(shí)驗(yàn)中,網(wǎng)絡(luò)中間只有幾個(gè)節(jié)點(diǎn),只有兩個(gè)節(jié)點(diǎn)。

培訓(xùn)的目標(biāo)只是配置網(wǎng)絡(luò),使其輸出盡可能接近其輸入。如果訓(xùn)練成功,那么中間層中的少數(shù)節(jié)點(diǎn)必須以某種方式表示輸入向量中包含的大部分信息,但是以更加壓縮的形式。輸出嘗試匹配輸入的這種系統(tǒng)稱為“自動(dòng)編碼器”。

自動(dòng)編碼補(bǔ)償了稀疏性,但為了處理稀缺性,研究人員不僅訓(xùn)練他們的網(wǎng)絡(luò)生產(chǎn)特定材料的配方,而且還生產(chǎn)用于生產(chǎn)非常相似材料的配方。他們使用了三種相似度量,其中一種旨在盡量減少材料之間的差異數(shù)量 - 例如,只用一個(gè)原子代替另一個(gè)原子 - 同時(shí)保留晶體結(jié)構(gòu)。

在訓(xùn)練期間,網(wǎng)絡(luò)給出示例配方的權(quán)重根據(jù)其相似性得分而變化。

發(fā)揮賠率

事實(shí)上,研究人員的網(wǎng)絡(luò)不僅僅是一個(gè)自動(dòng)編碼器,而是一個(gè)所謂的變分自動(dòng)編碼器。這意味著在訓(xùn)練期間,網(wǎng)絡(luò)不僅要評估其輸出與輸入的匹配程度,還要評估中間層采用的值與某些統(tǒng)計(jì)模型(如熟悉的鐘形曲線或正態(tài)分布)的一致程度。 。也就是說,在整個(gè)訓(xùn)練集中,中間層采用的值應(yīng)該圍繞中心值聚集,然后在所有方向上以常規(guī)速率逐漸減小。

在針對二氧化錳和相關(guān)化合物的配方訓(xùn)練了具有雙節(jié)點(diǎn)中間層的變分自動(dòng)編碼器之后,研究人員構(gòu)建了一個(gè)二維圖,描繪了兩個(gè)中間節(jié)點(diǎn)在訓(xùn)練集中的每個(gè)示例所采用的值。

值得注意的是,使用相同前體化學(xué)物質(zhì)的訓(xùn)練樣例粘貼在地圖的相同區(qū)域,區(qū)域之間有明顯的邊界。對于產(chǎn)生四種二氧化錳常見“多晶型物”或晶體結(jié)構(gòu)的培養(yǎng)實(shí)例也是如此。并且將這兩個(gè)映射結(jié)合起來表明了特定前體和特定晶體結(jié)構(gòu)之間的相關(guān)性。

“我們認(rèn)為這些地區(qū)是連續(xù)的很酷,”奧利維蒂說,“因?yàn)闆]有理由認(rèn)為這一定是真的。”

變分自動(dòng)編碼也是研究人員系統(tǒng)生成新配方的原因。由于中間層采用的值遵循概率分布,因此隨機(jī)選擇該分布的值可能會(huì)產(chǎn)生合理的配方。

“這實(shí)際上觸及了目前對機(jī)器學(xué)習(xí)非常感興趣的各種主題,”Jegelka說。“通過結(jié)構(gòu)化對象學(xué)習(xí),允許通過專家進(jìn)行解釋和與專家交互,以及生成結(jié)構(gòu)化復(fù)雜數(shù)據(jù) - 我們整合了所有這些。”

“'可合成性'是一個(gè)概念的例子,它是材料科學(xué)的核心,但缺乏良好的基于??物理的描述,”Citrine Informatics的創(chuàng)始人兼首席科學(xué)家Bryce Meredig說道,該公司提供大數(shù)據(jù)和人工智能技術(shù)承擔(dān)材料科學(xué)研究。“因此,新材料的計(jì)算屏幕多年來因預(yù)測材料的合成難以接近而受到限制.Olivetti及其同事采用了一種新穎的,數(shù)據(jù)驅(qū)動(dòng)的方法來繪制材料合成圖,并為使我們能夠進(jìn)行計(jì)算做出了重要貢獻(xiàn)。識別不僅具有令人興奮的特性而且實(shí)際上可以在實(shí)驗(yàn)室中制造的材料。“


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。