您的位置: 首頁 >互聯網 >

安全地發(fā)現潛在藥物的神經網絡可以鼓勵大規(guī)模匯集敏感數據

2019-06-10 11:01:26 編輯: 來源:
導讀 麻省理工學院的研究人員開發(fā)了一種加密系統(tǒng),可以幫助神經網絡在大量藥理數據集中識別有希望的候選藥物,同時保持數據的私密性。如此大規(guī)模

麻省理工學院的研究人員開發(fā)了一種加密系統(tǒng),可以幫助神經網絡在大量藥理數據集中識別有希望的候選藥物,同時保持數據的私密性。如此大規(guī)模的安全計算可以為預測藥物發(fā)現提供廣泛的敏感藥理學數據匯集。

藥物 - 靶標相互作用(DTI)數據集顯示候選化合物是否作用于靶蛋白,對于幫助研究人員開發(fā)新藥物至關重要??梢杂柧毮P蛠硖幚硪阎狣TI的數據集,然后使用該信息找到新的候選藥物。

近年來,制藥公司,大學和其他實體已經開放將藥理學數據匯集到更大的數據庫中,這可以大大改善這些模型的培訓。然而,由于知識產權問題和其他隱私問題,這些數據集的范圍仍然有限。用于保護數據的密碼學方法是如此計算密集的,它們不能很好地擴展到超過例如成千上萬的DTI的數據集,這些數據集相對較小。

麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員在“ 科學”雜志上發(fā)表的一篇論文中描述了一個神經網絡,該神經網絡在超過一百萬個DTI的數據集上進行了安全訓練和測試。該網絡利用現代加密工具和優(yōu)化技術將輸入數據保密,同時大規(guī)??焖儆行У剡\行。

該團隊的實驗表明,網絡比現有方法更快,更準確; 它可以在幾天內處理大量數據集,而其他加密框架則需要數月。此外,該網絡確定了幾種新的相互作用,包括白血病藥物伊馬替尼和一種與癌癥相關的酶ErbB4突變之間的相互作用 - 這可能具有臨床意義。

“人們意識到他們需要匯集他們的數據,以大大加快藥物發(fā)現過程,并使我們共同在解決重要的人類疾病,如癌癥或糖尿病方面取得科學進步。但他們沒有好的方法, “相應的作者Bonnie Berger,西蒙斯數學教授和CSAIL的首席研究員說。“通過這項工作,我們?yōu)檫@些實體提供了一種方法,可以有效地集中和分析他們的數據。”

加入Berger的是共同作者Brian Hie和Hyunghoon Cho,他們都是電氣工程和計算機科學的研究生以及CSAIL計算和生物學研究組的研究人員。

“秘密共享”數據

這篇新論文建立在研究人員以前在基因組研究中保護患者機密性的工作的基礎上,這些研究發(fā)現了特定遺傳變異與疾病發(fā)病率之間的聯系?;蚪M數據可能會泄露個人信息,因此患者可能不愿意參加研究。在那項工作中,Berger,Cho和前斯坦福大學博士。學生開發(fā)了一種基于密碼學框架的協(xié)議,稱為“秘密共享”,可以安全有效地分析一百萬個基因組的數據集。相比之下,現有的提案只能處理幾千個基因組。

秘密共享用于多方計算,其中敏感數據被劃分為多個服務器之間的單獨“共享”。在整個計算過程中,每一方總是只擁有其數據的份額,這看起來是完全隨機的。但是,總的來說,服務器仍然可以在底層私有數據上進行通信和執(zhí)行有用的操作。在計算結束時,當需要結果時,各方合并其份額以揭示結果。

“我們以前的工作為基礎,將秘密共享應用于藥理學合作的問題,但它并不是現成的,”Berger說。

一項關鍵創(chuàng)新是減少培訓和測試所需的計算量?,F有的預測藥物發(fā)現模型將DTI的化學和蛋白質結構表示為圖形或矩陣。然而,這些方法與數據集中的DTI數量成二次方或平方?;旧?,隨著數據集的大小增加,處理這些表示變得極其計算密集。“雖然這對于處理原始數據可能沒什么問題,但如果你在安全計算中嘗試這樣做,那就不可行,”Hie說。

研究人員培訓了一種依賴于線性計算的神經網絡,該計算可以更有效地擴展數據。“我們絕對需要可擴展性,因為我們正試圖提供一種將數據匯集到更大的數據集中的方法,”Cho說。

研究人員在STITCH數據集上訓練了一個神經網絡,該數據集擁有150萬個DTI,使其成為同類中最大的公開數據集。在訓練中,網絡將每種藥物化合物和蛋白質結構編碼為簡單的載體表示。這基本上將復雜的結構濃縮為計算機可以容易地處理的1和0。從這些向量,網絡然后學習交互和非交互的模式。通過聯合新的化合物和蛋白質結構,網絡然后預測它們是否會相互作用。

該網絡還具有針對效率和安全性進行了優(yōu)化的架構。神經網絡的每一層都需要一些激活函數來確定如何將信息發(fā)送到下一層。在他們的網絡中,研究人員使用了一種稱為整流線性單元(ReLU)的高效激活功能。此功能僅需要交互的單個安全數值比較,以確定是否將數據發(fā)送(1)或不發(fā)送(0)到下一層,同時也從不透露任何有關實際數據的信息。與更復雜的功能相比,此操作在安全計算中更有效,因此在確保數據隱私的同時減少了計算負擔。

“重要的原因是我們希望在秘密共享框架內做到這一點......而且我們不想增加計算開銷,”Berger說。最后,“沒有顯示模型的參數,所有輸入數據 - 藥物,目標和交互 - 都保密。”

尋找互動

研究人員將他們的網絡與來自DrugBank的一部分已知DTI的幾個最先進的明文(未加密)模型進行了對比,這是一個包含大約2,000個DTI的流行數據集。除了保持數據私密性外,研究人員的網絡在預測準確性方面優(yōu)于所有模型。只有兩個基線模型可以合理地擴展到STITCH數據集,研究人員的模型實現了幾乎兩倍的模型精度。

研究人員還在STITCH中測試了沒有列出相互作用的藥物 - 靶標對,并發(fā)現了一些臨床確定的藥物相互作用,這些相互作用沒有在數據庫中列出但應該是。在該論文中,研究人員列出了最強烈的預測,包括:屈洛昔芬和雌激素受體,它們作為乳腺癌的治療方法達到了III期臨床試驗; 和西奧骨化醇和維生素D受體治療其他癌癥。Cho和Hie通過合同研究組織獨立驗證了得分最高的小說互動。

接下來,研究人員正在與合作伙伴一起在現實環(huán)境中建立他們的協(xié)作管道。“我們有興趣將安全計算環(huán)境整合在一起,因此我們可以使用真實數據運行我們的安全協(xié)議,”Cho說。


免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ   備案號:

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)