您的位置: 首頁 >科技 >

研究人員針對(duì)協(xié)作眾包平臺(tái)openml.org的用戶測(cè)試了該系統(tǒng)

2019-06-21 16:56:26 編輯: 來源:
導(dǎo)讀 數(shù)據(jù)科學(xué)近期的巨大增長(zhǎng) - 無論是作為學(xué)科還是應(yīng)用程序 - 都可以部分歸功于其強(qiáng)大的解決問題能力:它可以預(yù)測(cè)信用卡交易何時(shí)是欺詐性的

數(shù)據(jù)科學(xué)近期的巨大增長(zhǎng) - 無論是作為學(xué)科還是應(yīng)用程序 - 都可以部分歸功于其強(qiáng)大的解決問題能力:它可以預(yù)測(cè)信用卡交易何時(shí)是欺詐性的,幫助企業(yè)主找出何時(shí)發(fā)送優(yōu)惠券通過預(yù)測(cè)學(xué)生何時(shí)輟學(xué),以最大化客戶響應(yīng)或促進(jìn)教育干預(yù)。

然而,要獲得這些數(shù)據(jù)驅(qū)動(dòng)的解決方案,數(shù)據(jù)科學(xué)家必須通過一系列復(fù)雜的步驟來處理原始數(shù)據(jù),每個(gè)步驟都需要許多人為驅(qū)動(dòng)的決策。決定建模技術(shù)的過程的最后一步尤其重要。有數(shù)百種技術(shù)可供選擇 - 從神經(jīng)網(wǎng)絡(luò)到支持向量機(jī) - 并且選擇最好的技術(shù)可能意味著數(shù)百萬美元的額外收入,或者發(fā)現(xiàn)關(guān)鍵醫(yī)療設(shè)備中的缺陷與缺失它之間的差異。

上周在IEEE國(guó)際大數(shù)據(jù)大會(huì)上發(fā)表的一篇名為“ATM:一種用于自動(dòng)機(jī)器學(xué)習(xí)的分布式,協(xié)作,可擴(kuò)展系統(tǒng)”的論文中,來自麻省理工學(xué)院和密歇根州立大學(xué)的研究人員提出了一種自動(dòng)選擇模型的新系統(tǒng)。一步,甚至改善人的表現(xiàn)。該系統(tǒng)稱為自動(dòng)調(diào)諧模型(ATM),利用基于云的計(jì)算對(duì)建模選項(xiàng)執(zhí)行高吞吐量搜索,并針對(duì)特定問題找到最佳可能的建模技術(shù)。它還調(diào)整了模型的超參數(shù) - 一種優(yōu)化算法的方法 - 這可以對(duì)性能產(chǎn)生重大影響。ATM現(xiàn)在可用作企業(yè)作為開源平臺(tái)。

為了將ATM與人類表演者進(jìn)行比較,研究人員針對(duì)協(xié)作眾包平臺(tái)openml.org的用戶測(cè)試了該系統(tǒng)。在這個(gè)平臺(tái)上,數(shù)據(jù)科學(xué)家們共同努力解決問題,通過相互建立工作找到最佳解決方案。ATM從該平臺(tái)分析了47個(gè)數(shù)據(jù)集,并且能夠提供比人類在30%的時(shí)間內(nèi)提出的解決方案更好的解決方案。當(dāng)它無法超越人類時(shí),它就會(huì)非常接近,而且至關(guān)重要的是,它的工作速度比人類快得多。雖然open-ml用戶平均需要100天才能提供接近最優(yōu)的解決方案,但ATM可以在不到一天的時(shí)間內(nèi)得到答案。

賦予數(shù)據(jù)科學(xué)家權(quán)力

這種速度和準(zhǔn)確性為數(shù)據(jù)科學(xué)家提供了急需的安心,他們經(jīng)常受到“假設(shè)”的困擾。“有很多選擇,”密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授,該論文的資深作者Arun Ross說。“如果數(shù)據(jù)科學(xué)家選擇支持向量機(jī)作為建模技術(shù),那么神經(jīng)網(wǎng)絡(luò)或不同模型是否會(huì)帶來更好的準(zhǔn)確性的問題總會(huì)在她腦海中浮現(xiàn)。”

在過去幾年中,模型選擇/調(diào)整的問題已成為機(jī)器學(xué)習(xí)的一個(gè)全新子領(lǐng)域的焦點(diǎn),稱為Auto-ML。Auto-ML解決方案旨在為數(shù)據(jù)科學(xué)家提供針對(duì)給定機(jī)器學(xué)習(xí)任務(wù)的最佳模型。只有一個(gè)問題:競(jìng)爭(zhēng)的Auto-ML方法產(chǎn)生不同的結(jié)果,并且它們的方法通常是不透明的。換句話說,在尋求解決一個(gè)選擇問題時(shí),社區(qū)創(chuàng)造了另一個(gè)更復(fù)雜的問題。麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室(LIDS)的主要研究科學(xué)家,該論文的高級(jí)作者Kalyan Veeramachaneni說:“'假設(shè)'問題仍然存在。” “它只是轉(zhuǎn)移到'如果我們使用不同的Auto-ML方法怎么辦?'”

ATM系統(tǒng)的工作方式不同,使用按需云計(jì)算在一夜之間生成并比較數(shù)百(甚至數(shù)千)個(gè)模型。為了搜索技術(shù),研究人員使用智能選擇機(jī)制。系統(tǒng)并行測(cè)試數(shù)千個(gè)模型,對(duì)每個(gè)模型進(jìn)行評(píng)估,并為那些有希望的技術(shù)分配更多的計(jì)算資源。糟糕的解決方案被淘汰,而最好的選擇上升到頂部。

ATM不是盲目地選擇“最佳”并將其提供給用戶,而是將結(jié)果顯示為分布,允許并排比較不同的方法。通過這種方式,羅斯說,ATM加速了測(cè)試和比較不同建模方法的過程,而沒有自動(dòng)化人類直覺,這仍然是數(shù)據(jù)科學(xué)過程的重要組成部分。

開源,社區(qū)驅(qū)動(dòng)的方法

通過簡(jiǎn)化模型選擇流程,Veeramachaneni和他的團(tuán)隊(duì)旨在讓數(shù)據(jù)科學(xué)家能夠在更具影響力的部分工作。“我們希望我們的系統(tǒng)能夠讓專家們花更多的時(shí)間來理解數(shù)據(jù),問題的制定和特征工程,”Veeramachaneni說。

為此,研究人員正在開源ATM,使其可供想要使用它的企業(yè)使用。它們還包括一些條款,允許研究人員整合新的模型選擇技術(shù),從而不斷改進(jìn)平臺(tái)。ATM可以在單個(gè)機(jī)器,本地計(jì)算集群或云中的按需集群上運(yùn)行,并且可以同時(shí)處理多個(gè)數(shù)據(jù)集和多個(gè)用戶。

“中小型數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以通過幾步建立和開始生產(chǎn)模型,”Veeramachaneni說。其中沒有一個(gè)是“假設(shè)”。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。