2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
A.BartonHepburn化學(xué)教授AbigailDoyle帶領(lǐng)來自普林斯頓大學(xué)和默克公司的一組研究人員開發(fā)了最先進的軟件來預(yù)測最多四種組分變化時的反應(yīng)產(chǎn)量。他們的軟件旨在處理任何底物上的任何反應(yīng),使其成為加速新藥合成的強大工具。
為了制造藥物,化學(xué)家必須找到正確的化學(xué)物質(zhì)組合來制造必要的化學(xué)結(jié)構(gòu)。這比聽起來更復(fù)雜,因為典型的化學(xué)反應(yīng)使用幾種不同的成分,并且涉及的每種化學(xué)物質(zhì)都為計算增加了另一個維度。
德里克·阿內(nèi)曼
DerekAhneman,2017年博士研究生,提議使用機器學(xué)習(xí)來模擬反應(yīng)產(chǎn)率,同時修改四種不同的反應(yīng)成分,這是一項比一次修改一個變量困難得多的努力。“一開始,我們就知道要克服許多挑戰(zhàn),”他說。“我們甚至不確定這是否可能。”
在理想情況下,化學(xué)家希望預(yù)測哪種化學(xué)品組合能夠提供最高產(chǎn)率的產(chǎn)品并避免意外副產(chǎn)品或其他損失,但事實證明,預(yù)測這些多維反應(yīng)的結(jié)果具有挑戰(zhàn)性。
耶穌埃斯特拉達
Doyle實驗室的研究生JesúsEstrada完成了使用“隨機森林”機器學(xué)習(xí)方法預(yù)測化學(xué)產(chǎn)量的軟件開發(fā)。
由普林斯頓大學(xué)A.BartonHepburn化學(xué)教授AbigailDoyle和默克研究實驗室的SpencerDreher領(lǐng)導(dǎo)的一組研究人員找到了一種方法,可以通過應(yīng)用人工智能稱為機器學(xué)習(xí)。他們已將他們的方法轉(zhuǎn)化為軟件,供其他化學(xué)家使用。他們于2月15日在《科學(xué)》雜志上發(fā)表了他們的研究。
“我們開發(fā)的軟件旨在適應(yīng)任何反應(yīng)或底物類型,”Doyle說。“這個想法是讓某人應(yīng)用這個工具,并希望在它的基礎(chǔ)上進行其他反應(yīng)。”
她說,大量的資源和時間被花費在制造合成分子上,而且通常是以一種臨時的方式。使用這種新軟件,化學(xué)家可以更便宜、更高效地識別化學(xué)品和底物的高產(chǎn)組合。
“我們希望這將成為加速新藥合成的寶貴工具,”完成化學(xué)博士學(xué)位的DerekAhneman說。2017年在Doyle的實驗室工作,并在IBM工作。
“其中許多機器學(xué)習(xí)算法已經(jīng)存在了很長一段時間,”Doyle實驗室的研究生JesúsEstrada說,他為這項研究和論文做出了貢獻。“然而,在合成有機化學(xué)界,我們確實還沒有利用機器學(xué)習(xí)提供的令人興奮的機會。”
“作為化學(xué)家,我們傳統(tǒng)上偏離了多維分析,”Doyle說。“我們一次只看一個變量,或者一系列底物的一組條件。”
當Ahneman告訴Doyle他想使用機器學(xué)習(xí)來解決多維問題時,她鼓勵了他。“我總是——尤其是對我最有才華的學(xué)生——試著讓他們在博士的最后一年自由發(fā)揮,”她說。“這是他向我提出的項目。”
Doyle和Ahneman著手在修改四種反應(yīng)成分的同時模擬反應(yīng)產(chǎn)率,這比一次修改一個變量要困難得多。
“一開始,我們就知道需要克服許多挑戰(zhàn),”Ahneman說。“我們甚至不確定這是否可能。”
他說,從歷史上看,開發(fā)多維模型的一個障礙是收集足夠的反應(yīng)產(chǎn)率數(shù)據(jù)以建立有效的“訓(xùn)練集”。但最近,默克公司發(fā)明了機器人系統(tǒng),可以在幾天內(nèi)運行數(shù)千次反應(yīng)。
“我很高興我們一起生成的數(shù)據(jù)質(zhì)量非常高,而且他們能夠創(chuàng)建有效的模型,”默克化學(xué)能力和篩選部門的首席科學(xué)家Dreher說。“希望我們可以繼續(xù)開發(fā)這種方法,并減少我們對篩選的依賴,從而更快地制造出我們需要的設(shè)計分子。”
另一個挑戰(zhàn)是計算每種化學(xué)物質(zhì)的定量描述符以用作模型的輸入。這些描述符通常是一個一個地計算出來的,這對于他們想要使用的大量化學(xué)組合來說是不切實際的。
他們通過編寫使用現(xiàn)有程序Spartan的代碼來計算并提取模型中使用的每種化學(xué)物質(zhì)的描述符,從而克服了這一限制。
一旦他們有了定量描述符,他們就嘗試了幾種統(tǒng)計方法。首先,他們使用行業(yè)標準線性回歸,但發(fā)現(xiàn)它無法準確預(yù)測反應(yīng)產(chǎn)率。然后,他們探索了多種常見的機器學(xué)習(xí)模型,發(fā)現(xiàn)一種稱為“隨機森林”的模型提供了驚人準確的產(chǎn)量預(yù)測。
隨機森林模型的工作原理是從訓(xùn)練數(shù)據(jù)集中隨機選擇小樣本,并使用該樣本構(gòu)建決策樹。然后,每個單獨的決策樹預(yù)測給定反應(yīng)的產(chǎn)率,然后將結(jié)果在樹中取平均值以生成總體產(chǎn)率預(yù)測。
當研究人員發(fā)現(xiàn)使用隨機森林時,另一個突破出現(xiàn)了,“可以使用'僅'數(shù)百個反應(yīng)(而不是數(shù)千個)的結(jié)果準確預(yù)測反應(yīng)產(chǎn)率,這是一個沒有機器人的化學(xué)家可以自己完成的數(shù)字,”Ahneman說。
“Doyle教授和她的合作者以巧妙的方式應(yīng)用人工智能來解決簡單線性模型無法很好處理的問題,”威斯康星大學(xué)麥迪遜分校數(shù)學(xué)和生物化學(xué)教授JulieMitchell說,她并未參與該項目。這個調(diào)查。“在化學(xué)空間中,微小的變化會產(chǎn)生戲劇性的結(jié)果,而這種現(xiàn)象可以更好地被他們的隨機森林模型捕捉到。”
Doyle的團隊還發(fā)現(xiàn),隨機森林模型可以預(yù)測未包含在訓(xùn)練集中的化合物的產(chǎn)量。
“所使用的技術(shù)完全是最先進的,”巴黎科學(xué)與文學(xué)大學(xué)計算生物學(xué)中心的機器學(xué)習(xí)研究員Chloé-AgatheAzencott說,他沒有參與這項研究。“論文中的相關(guān)圖非常好,我認為我們可以設(shè)想在未來依賴這些預(yù)測,這將限制對昂貴的實驗室實驗的需求。”
“這些結(jié)果令人興奮,因為它們表明這種方法可用于預(yù)測從未制造過起始材料的反應(yīng)的產(chǎn)率,這將有助于最大程度地減少制造費時的化學(xué)品的消耗,”Ahneman說。“總的來說,這種方法有望(1)使用尚未制成的起始材料預(yù)測反應(yīng)的產(chǎn)率,以及(2)預(yù)測與已知起始材料和產(chǎn)物反應(yīng)的最佳條件。”
Ahneman完成學(xué)位后,Estrada繼續(xù)研究。Doyle說,我們的目標是創(chuàng)建不僅像Ahneman和Estrada這樣的計算機專家而且更廣泛的合成化學(xué)社區(qū)都可以訪問的軟件。
她解釋了該軟件的工作原理:“你畫出結(jié)構(gòu)——起始材料、催化劑、堿——軟件將找出所有這些結(jié)構(gòu)之間的共享描述符。那是你的輸入。結(jié)果是反應(yīng)的產(chǎn)率。機器學(xué)習(xí)將所有這些描述符與產(chǎn)量相匹配,目標是你可以放入任何結(jié)構(gòu),它會告訴你反應(yīng)的結(jié)果。
“我們的想法是幫助人們在無法憑直覺判斷結(jié)果的多維空間中導(dǎo)航,”Doyle說。
DerekAhneman、JesúsEstrada、ShishiLin、SpencerDreher和AbigailDoyle的論文“使用機器學(xué)習(xí)預(yù)測C-N交叉偶聯(lián)的反應(yīng)性能”于2月15日發(fā)表在《科學(xué)》雜志上。普林斯頓大學(xué)、安進青年研究者獎和Camille-Dreyfus教師學(xué)者獎提供了財政支持。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)