研究人員針對(duì)協(xié)作眾包平臺(tái)openml.org的用戶測(cè)試了該系統(tǒng)

2019-06-21 16:56:26 編輯：來(lái)源：

導(dǎo)讀數(shù)據(jù)科學(xué)近期的巨大增長(zhǎng) - 無(wú)論是作為學(xué)科還是應(yīng)用程序 - 都可以部分歸功于其強(qiáng)大的解決問(wèn)題能力：它可以預(yù)測(cè)信用卡交易何時(shí)是欺詐性的

數(shù)據(jù)科學(xué)近期的巨大增長(zhǎng) - 無(wú)論是作為學(xué)科還是應(yīng)用程序 - 都可以部分歸功于其強(qiáng)大的解決問(wèn)題能力：它可以預(yù)測(cè)信用卡交易何時(shí)是欺詐性的，幫助企業(yè)主找出何時(shí)發(fā)送優(yōu)惠券通過(guò)預(yù)測(cè)學(xué)生何時(shí)輟學(xué)，以最大化客戶響應(yīng)或促進(jìn)教育干預(yù)。

然而，要獲得這些數(shù)據(jù)驅(qū)動(dòng)的解決方案，數(shù)據(jù)科學(xué)家必須通過(guò)一系列復(fù)雜的步驟來(lái)處理原始數(shù)據(jù)，每個(gè)步驟都需要許多人為驅(qū)動(dòng)的決策。決定建模技術(shù)的過(guò)程的最后一步尤其重要。有數(shù)百種技術(shù)可供選擇 - 從神經(jīng)網(wǎng)絡(luò)到支持向量機(jī) - 并且選擇最好的技術(shù)可能意味著數(shù)百萬(wàn)美元的額外收入，或者發(fā)現(xiàn)關(guān)鍵醫(yī)療設(shè)備中的缺陷與缺失它之間的差異。

上周在IEEE國(guó)際大數(shù)據(jù)大會(huì)上發(fā)表的一篇名為“ATM：一種用于自動(dòng)機(jī)器學(xué)習(xí)的分布式，協(xié)作，可擴(kuò)展系統(tǒng)”的論文中，來(lái)自麻省理工學(xué)院和密歇根州立大學(xué)的研究人員提出了一種自動(dòng)選擇模型的新系統(tǒng)。一步，甚至改善人的表現(xiàn)。該系統(tǒng)稱為自動(dòng)調(diào)諧模型(ATM)，利用基于云的計(jì)算對(duì)建模選項(xiàng)執(zhí)行高吞吐量搜索，并針對(duì)特定問(wèn)題找到最佳可能的建模技術(shù)。它還調(diào)整了模型的超參數(shù) - 一種優(yōu)化算法的方法 - 這可以對(duì)性能產(chǎn)生重大影響。ATM現(xiàn)在可用作企業(yè)作為開(kāi)源平臺(tái)。

為了將ATM與人類表演者進(jìn)行比較，研究人員針對(duì)協(xié)作眾包平臺(tái)openml.org的用戶測(cè)試了該系統(tǒng)。在這個(gè)平臺(tái)上，數(shù)據(jù)科學(xué)家們共同努力解決問(wèn)題，通過(guò)相互建立工作找到最佳解決方案。ATM從該平臺(tái)分析了47個(gè)數(shù)據(jù)集，并且能夠提供比人類在30%的時(shí)間內(nèi)提出的解決方案更好的解決方案。當(dāng)它無(wú)法超越人類時(shí)，它就會(huì)非常接近，而且至關(guān)重要的是，它的工作速度比人類快得多。雖然open-ml用戶平均需要100天才能提供接近最優(yōu)的解決方案，但ATM可以在不到一天的時(shí)間內(nèi)得到答案。

賦予數(shù)據(jù)科學(xué)家權(quán)力

這種速度和準(zhǔn)確性為數(shù)據(jù)科學(xué)家提供了急需的安心，他們經(jīng)常受到“假設(shè)”的困擾。“有很多選擇，”密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授，該論文的資深作者Arun Ross說(shuō)。“如果數(shù)據(jù)科學(xué)家選擇支持向量機(jī)作為建模技術(shù)，那么神經(jīng)網(wǎng)絡(luò)或不同模型是否會(huì)帶來(lái)更好的準(zhǔn)確性的問(wèn)題總會(huì)在她腦海中浮現(xiàn)。”

在過(guò)去幾年中，模型選擇/調(diào)整的問(wèn)題已成為機(jī)器學(xué)習(xí)的一個(gè)全新子領(lǐng)域的焦點(diǎn)，稱為Auto-ML。Auto-ML解決方案旨在為數(shù)據(jù)科學(xué)家提供針對(duì)給定機(jī)器學(xué)習(xí)任務(wù)的最佳模型。只有一個(gè)問(wèn)題：競(jìng)爭(zhēng)的Auto-ML方法產(chǎn)生不同的結(jié)果，并且它們的方法通常是不透明的。換句話說(shuō)，在尋求解決一個(gè)選擇問(wèn)題時(shí)，社區(qū)創(chuàng)造了另一個(gè)更復(fù)雜的問(wèn)題。麻省理工學(xué)院信息與決策系統(tǒng)實(shí)驗(yàn)室(LIDS)的主要研究科學(xué)家，該論文的高級(jí)作者Kalyan Veeramachaneni說(shuō)：“'假設(shè)'問(wèn)題仍然存在。” “它只是轉(zhuǎn)移到'如果我們使用不同的Auto-ML方法怎么辦?'”

ATM系統(tǒng)的工作方式不同，使用按需云計(jì)算在一夜之間生成并比較數(shù)百(甚至數(shù)千)個(gè)模型。為了搜索技術(shù)，研究人員使用智能選擇機(jī)制。系統(tǒng)并行測(cè)試數(shù)千個(gè)模型，對(duì)每個(gè)模型進(jìn)行評(píng)估，并為那些有希望的技術(shù)分配更多的計(jì)算資源。糟糕的解決方案被淘汰，而最好的選擇上升到頂部。

ATM不是盲目地選擇“最佳”并將其提供給用戶，而是將結(jié)果顯示為分布，允許并排比較不同的方法。通過(guò)這種方式，羅斯說(shuō)，ATM加速了測(cè)試和比較不同建模方法的過(guò)程，而沒(méi)有自動(dòng)化人類直覺(jué)，這仍然是數(shù)據(jù)科學(xué)過(guò)程的重要組成部分。

開(kāi)源，社區(qū)驅(qū)動(dòng)的方法

通過(guò)簡(jiǎn)化模型選擇流程，Veeramachaneni和他的團(tuán)隊(duì)旨在讓數(shù)據(jù)科學(xué)家能夠在更具影響力的部分工作。“我們希望我們的系統(tǒng)能夠讓專家們花更多的時(shí)間來(lái)理解數(shù)據(jù)，問(wèn)題的制定和特征工程，”Veeramachaneni說(shuō)。

為此，研究人員正在開(kāi)源ATM，使其可供想要使用它的企業(yè)使用。它們還包括一些條款，允許研究人員整合新的模型選擇技術(shù)，從而不斷改進(jìn)平臺(tái)。ATM可以在單個(gè)機(jī)器，本地計(jì)算集群或云中的按需集群上運(yùn)行，并且可以同時(shí)處理多個(gè)數(shù)據(jù)集和多個(gè)用戶。

“中小型數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以通過(guò)幾步建立和開(kāi)始生產(chǎn)模型，”Veeramachaneni說(shuō)。其中沒(méi)有一個(gè)是“假設(shè)”。

標(biāo)簽：用戶測(cè)試