2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
通過一種稱為細胞繪畫的技術,Recursion Pharmaceuticals正在創(chuàng)造一個真實的身體細胞形態(tài)圖。但那只是一個開始; 真正困難的部分是知道如何通過機器學習提問圖像的問題,以及如何管理數(shù)PB的數(shù)據(jù)。當機器學習應用于特定的工業(yè)領域時,定義目標是最突出的問題之一。你想知道什么?在生物科學領域,這可能是一個非常棘手的問題,因為六年前的創(chuàng)業(yè)公司Recursion Pharmaceuticals從經驗中學到了很多東西。數(shù)據(jù)量迅速擴大,并且知道如何構建一個能夠從數(shù)據(jù)中獲得洞察力的目標是一件藝術。
“它仍然是一個大數(shù)據(jù)問題,”Recursion的首席技術專家Mason Victors表示,該公司位于猶他州鹽湖城。他在接受ZDNet采訪時說:“我們已經選擇了大量的生物學技術來開發(fā)我們的平臺多年。” 這帶來了挑戰(zhàn)。
該公司每周收集65TB的數(shù)據(jù),并存儲在谷歌的云計算設施中。遞歸在四年多一點的時間內積累了大約2.5 PB的信息。
遞歸試圖做兩件互補但又雄心勃勃的事情。名義上,Recursion的使命是找到治療疾病的方法,以減少昂貴的開發(fā)渠道。
細胞繪畫圖像遞歸-2019.png
用多種熒光染料染色的人腎細胞的圖像。在Recursion采用的細胞繪制方法中,目標是識別機器學習程序隨后可以分析的少數(shù)幾個或幾千個細胞特征。
遞歸藥物
作為聯(lián)合創(chuàng)始人兼首席執(zhí)行官克里斯吉布森在接受ZDNet采訪時解釋說,該公司的“二十年”愿景是能夠“預測任何大小分子對任何的影響”。細胞。這是他和勝利者所稱的所有人類細胞生物學的地圖,盡可能多的細節(jié)關于細胞的“形態(tài)”,它們的形狀和結構。
遞歸已經為這個非常大的數(shù)據(jù)科學項目獲得了大量資金。它最近在由英國投資基金B(yǎng)aillie Gifford領導的C輪融資中獲得了1.21億美元的風險資金,迄今為止總投資額達2億美元。
在管理創(chuàng)建所有人體細胞圖的雄心勃勃的項目的同時尋找治療方法是一種平衡行為,其中目標函數(shù)可以很簡單,但數(shù)據(jù)管理可能非常復雜。
另外:人工智能先驅Sejnowski說這完全是關于漸變的
大數(shù)據(jù)
數(shù)據(jù)和人工智能市場格局2019:下一波混合出現(xiàn)
數(shù)字化轉型:一家如何使用人工智能,大數(shù)據(jù)和聊天機制來創(chuàng)建新服務
將大數(shù)據(jù)轉化為業(yè)務見解
黑客攻擊:數(shù)十年的數(shù)據(jù)消失,無法實現(xiàn)復蘇(ZDNet YouTube)
FaceApp是一個測試。我們沒通過(CNET)
如何作為數(shù)據(jù)科學家失?。?個常見錯誤(TechRepublic)
它開始于一個稱為“細胞繪畫”的程序,它覆蓋盡可能多的熒光模具中的細胞,以顯示細胞結構的各個方面。細胞繪畫是麻省理工學院麻省理工學院和哈佛大學的安妮卡彭特在馬薩諸塞州劍橋開發(fā)的,他在那里經營著卡彭特實驗室。她創(chuàng)建的軟件“CellProfiler” 可免費下載。
繪制細胞超出了細胞的典型“篩選”,旨在挑選出一些特征。相反,創(chuàng)建細胞“輪廓”的過程量化了數(shù)百或數(shù)千個關于細胞結構的特征,然后可以將其作為輸入引入機器學習模型,進而發(fā)現(xiàn)隨著擾動而變化的感興趣特征。擾動可能包括改變細胞RNA以了解它如何改變細胞結構。
吉布森在猶他大學攻讀博士學位時首次發(fā)現(xiàn)了卡彭特的方法。“這是拍攝細胞照片的一種奇特方式,”吉布森說,但這對他來說也是一種啟示。他回憶起使用蛋白質印跡技術來探索一種稱為“ 腦海綿狀血管畸形 ” 的病癥,即CCM,其中大腦中的血管變形,這可能導致相當于微型中風。蛋白質印跡方法很繁瑣,一次檢測一種蛋白質。
遞歸首席執(zhí)行官克里斯吉布森在攻讀博士學位時遇到了各種各樣的頓悟,并遇到了安妮卡彭特的染色細胞創(chuàng)造大量剖面的技術。他在此基礎上創(chuàng)立了公司,關于細胞形態(tài)學的更多信息可以為疾病提供新的線索。
遞歸藥物
“我們已經熟悉了Carpenter的方法,在那里她能夠將東西送入機器分類器,”他回憶說,并且可以同時自動檢測多種分子。Gibson和他的導師,當時的大學醫(yī)學和生物學教授Dean Li嘗試了這種方法。細胞繪畫能夠在CCM的痕跡中確認Gibson的一些預感,但是,“它看到了我沒有看到的東西,”他在將機器學習應用于信息豐富的圖像時說。Gibson與Li一起創(chuàng)建了Recursion,其前提是細胞豐富的圖片可以產生原始的洞察力,而定期篩查不能。第三位聯(lián)合創(chuàng)始人,生物信息學家Blake Borgeson加入了他們的行列。
Carpenter是該公司的科學和技術顧問。其他顧問包括著名的深度學習研究員Yoshua Bengio,蒙特利爾著名的MILA機器學習機構負責人,以及今年ACM圖靈終身計算機科學成就獎的三位獲獎者之一,以及Facebook的Yann LeCun和大學的Geoffrey Hinton多倫多
從細胞繪畫中,應用機器學習來梳理一些可能很重要的基本關系。“重要的是你訓練網絡的任務是什么,你如何找到你關心的事情,”CTO Victors說道,他擁有楊百翰大學的數(shù)學碩士學位,曾擔任過數(shù)據(jù)科學家。初創(chuàng)公司。
另外: Instagram預測流感。誰知道?我知道,那是誰
一個直截了當?shù)膯栴}是,這些細胞看起來一樣嗎?“你向網絡提供三胞胎的細胞,其中兩個應該是相似的,第三個應該是不同的,”他解釋道。三元組是將細胞繪畫的特征編碼為“嵌入”的結果,或者是Victors將它們置于“潛在表示空間”中的結果??梢允褂靡恍┓浅:唵蔚慕y(tǒng)計方法,例如測量不同細胞的特征之間的“角距離”。
他說:“我們在幾何學建模方面發(fā)現(xiàn)了很多牽引力。” “與歐幾里德距離相反,角距離確實是一個有用的指標。??”
但僅僅測量特征是不夠的,這就是為什么公司維持一個“濕實驗室”,在那里可以在體外試驗擾動以觀察給定分子如何響應化合物。Victors表示,從巨大的數(shù)據(jù)中汲取意義的舞蹈是一件大事,它使公司在生物學和醫(yī)學的AI中脫穎而出。
Victors觀察到,“藥物發(fā)現(xiàn)中的其他群體被手銬綁在他們無法控制的現(xiàn)有靜態(tài)數(shù)據(jù)集上”,而遞歸正在不斷產生新的數(shù)據(jù)。因此,他堅持認為,公司不僅可以培訓,還可以更加謹慎地驗證機器學習模型。
“它歸結為能夠以極其巨大的規(guī)模生成數(shù)據(jù),并在緊密的反饋循環(huán)中生成數(shù)據(jù),”他說。“它通常涉及數(shù)據(jù)科學家,機器學習專家和生命科學專家之間的緊密合作,以弄清楚我們如何實際模擬生物學本身,以及這對分析的影響是什么我們采納。“
“從商業(yè)角度來看,它讓我們能夠以一種非常有效的方式迅速追蹤潛在的候選藥物,”Victors說。“我們可以進行實驗來生成數(shù)據(jù),以確定我們是否認為這種化合物具有潛在的有效性,然后如果我們這樣做,可以通過增加劑量和更多重復進行更深入的研究,以驗證其他疾病試劑,看看我們是否在那里看到類似的功效。“
“我們不必外包所有這些,”他指出,體外測試和篩選,“因此我們可以消除更長的等待時間和它帶來的成本。”
遞歸首席技術專家梅森·維克托斯(Mason Victors)不僅要教導每周收集的65TB數(shù)據(jù)的含義,還要管理積累的2.5PB生物數(shù)據(jù)庫存。
遞歸藥物
Victors表示,它不僅僅是一個濕實驗室,還有“必須構建的所有工程基礎設施來處理大量的流數(shù)據(jù)”,換句話說,大數(shù)據(jù)挑戰(zhàn)。“這是關于如何處理數(shù)據(jù),將其傳輸?shù)皆?,將其存儲在那里,它是關于具有可擴展的分布式系統(tǒng),然后以適當?shù)母袷椒祷財?shù)據(jù)以進行一次性或臨時分析 - 所有這些由于我們正在努力實現(xiàn)的目標的總體范圍和雄心,這也是一個巨大的挑戰(zhàn)。“
控制數(shù)據(jù)非常重要,因為公司可以留意數(shù)據(jù)分布隨時間的變化。“當我們改進我們使用的生物工具時,為了更加具體和有選擇性,這可能導致與過去不同的分布,”Victors觀察到。了解數(shù)據(jù)的“復古”,如果您愿意,公司可以調整其分析,以考慮這種偏差可能如何影響機器學習。由于大部分AI都受到數(shù)據(jù)中小的統(tǒng)計變化的影響,因此認識到諸如分布變化之類的事物可能會在模型中獲得有用的分析。
大數(shù)據(jù)工作的一個結果是一個新的公開數(shù)據(jù)集,Recursion 在5月發(fā)布,稱為RxRx1。它包含300千兆字節(jié)的超過100,000張“代表不同生物背景的圖像”。遞歸希望數(shù)據(jù)集能夠刺激研究人員開發(fā)新的機器學習技術。它是在當月的學習代表國際會議上宣布的。
遞歸在今天的機器學習中需要做的大部分,例如三胞胎的角距離,不需要深度學習的AI,相反,它可以用非常基本的工具來完成。“深度學習方法不是我們在這里所做的大部分工作,”Victors說。“我們在那里找到了互補信號,但標準方法可以讓你獲得90%的信號。”
他指出,深度學習存在問題。“變分自動編碼器”是一種流行的無監(jiān)督深度學習形式,可能會產生問題,因為它沒有足夠的選擇性。
“任何時候你生成生物數(shù)據(jù),都會產生批量效應,”Victors指出。“這些只是由于實驗過程本身造成的滋擾因素 - 比如,此時溫度不同,濕度不同,或者細胞處理的時間比之前的時間長。”
變量自動編碼器“也將學習如何在表示中表示那些你不想要的批處理效果,”他指出。
擾動給定分子并觀察發(fā)生的事情的過程聽起來有點像機器學習領域中的“強化學習”。正如Victors所描述的那樣,有一種“狀態(tài) - 行動”模型,與強化學習中的概念相同。“我們使用我們的圖像來表示細胞狀態(tài)的快照,然后我們可以通過引入擾動來對這些細胞狀態(tài)起作用,并學習行動的意義。”
但是,他急忙補充說,它“在很多方面與強化學習完全不同 - 它不僅僅是學習狀態(tài) - 行動關系,我們還必須確保進入這些功能的數(shù)據(jù)配對得恰到好處。”
特色
人工智能與商業(yè)的未來
人工智能與商業(yè)的未來
機器學習,任務自動化和機器人技術已經廣泛應用于商業(yè)領域。這些和其他人工智能技術即將繁衍,我們將研究組織如何最好地利用它們。
閱讀更多
他認為,從長遠來看,在創(chuàng)建統(tǒng)一的細胞生物學圖譜方面有深層學習的作用。
“我們希望深度學習真正有效的一個領域是創(chuàng)建一個通用的潛在表示空間,一個所有數(shù)據(jù)所在的空間,你沒有學過你不想知道的東西,只學習你想要的東西知道,跨越時間和跨越不同條件的實驗,距離和相似性意味著在這個空間中的某些東西 - 這仍然是為此目的進行積極研究的領域。“
首席執(zhí)行官吉布森說,所有這些都可以追溯到發(fā)現(xiàn)的臨床效用。他指出,“試劑并不完美,它們很雜亂,我們必須有一個非常嚴格的門檻”,對計算機發(fā)現(xiàn)的內容具有統(tǒng)計信心。“我擔心這個行業(yè)有很多過度適應的事情,”他談到生物學中的機器學習。“有很多機器學習應用于靜態(tài)的公共數(shù)據(jù)集。” 吉布森表示有信心該公司沒有陷入這個陷阱,部分原因是該公司已經回顧性地將其工具應用于一些已知數(shù)據(jù),并提出了與已知數(shù)據(jù)相匹配的藥物與疾病之間的關系,顯示該過程有效。
正如他所說,真正的考驗在于人,這需要資金和伙伴關系。利用它的資本,Recursion正處于CCM治療的第一階段臨床試驗中,當Gibson有關于細胞繪畫和大數(shù)據(jù)的頓悟時,他正在研究這個問題。該公司還正在準備一項治療神經退行性疾病(II型神經纖維瘤病)的II期臨床試驗。(關于Recursion管道的信息可以在公司網站上找到。)
就試驗成本而言,這類疾病的資源密集程度較低。更大的項目需要更大的口袋,吉布森說,未來兩年公司臨床結果的巨大收益可能來自與腫瘤學領域的大合作伙伴進行的一項研究。“我們認為它有機會超越其他兩個。”
Gibson認為,選擇合作伙伴并單獨進行某些調查是靈活性,反映了平臺的價值。了解數(shù)據(jù)的特性,并知道如何提出數(shù)據(jù)的問題,具有可以通過多種方式開采的價值。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。