您的位置: 首頁 >互聯(lián)網 >

Daniel Rubin博士將開發(fā)新的AI算法

2022-07-17 01:28:40 編輯:封發(fā)育 來源:
導讀 在SIIM20虛擬會議期間的一次網絡研討會上,斯坦福大學生物醫(yī)學數據科學教授兼生物醫(yī)學信息學總監(jiān)Daniel Rubin博士指出,開發(fā)健壯的AI...

在SIIM20虛擬會議期間的一次網絡研討會上,斯坦福大學生物醫(yī)學數據科學教授兼生物醫(yī)學信息學總監(jiān)Daniel Rubin博士指出,開發(fā)健壯的AI算法面臨挑戰(zhàn)。

魯賓解釋說,大多數AI模型僅由一兩個機構的數據構建而成,可能不會推廣到以前從未見過的數據。它可能無法區(qū)分患者人群的差異以及成像設備或參數的差異,并且罕見疾病可能不足。魯賓說:“這些數據可能無法代表現實世界。”

最近的一項研究對來自三個用于檢測的不同機構的近16萬張胸部X射線進行了研究,發(fā)現結果基于用于訓練和測試的數據集而有所不同。

“總的來說,可靠性是一個問題,取決于如何訓練數據,”魯賓說。

解決該問題的一種方法是擴充數據,并在其他圖像上訓練模型。

“最終,這還不夠,”魯賓說。“您確實需要獲取盡可能多的帶注釋的數據。而且,不可能獲得無數的質量注釋數據,因為在完成本研究并試圖說服放射科醫(yī)生注釋病例后,將這些注釋完成是非常昂貴的。您知道他們免費為這些注釋做些什么。”

可以使用尚未注釋的圖像生成所謂的“弱數據”,并為其生成標簽。魯賓引用了最近的一項研究,即針對200,000個帶有弱標簽的案例的算法要比針對20,000個帶有高質量標簽的案例進行訓練的算法更好。

魯賓說:“您擁有的數據越多,性能越好”。

最好從多個站點收集數據,但這具有挑戰(zhàn)性,涉及與存儲和合法性有關的問題。魯賓說,一種解決方案是聯(lián)合學習,即“將模型帶入數據,而不是將數據帶入模型”。但是,集中式數據通常更好,跨站點數據的異質性會降低聯(lián)合學習,跨站點的標簽存在差異,并且并非所有機構都具有足夠的IT硬件。

哈佛大學醫(yī)學院放射學副教授,麻省總醫(yī)院神經科學助理Jayashree Kalpathy-Cramer指出,在算法啟動和運行時進入障礙很低,尤其是在時代。盡管如今創(chuàng)建AI算法非常容易,但是創(chuàng)建寬泛,健壯,公正,公正,自我意識并提供不確定性度量的AI算法卻很困難。

Kalpathy-Cramer說:“大多數出版物對數據集的偏見都非常大,因為與正常病例或相比,它們對COVID病例使用了不同的數據集。”“我們最終看到的是,這些應該以如此高的水平執(zhí)行的算法實際上只是在學習數據集之間的差異。”


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。