2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
由麻省理工學(xué)院研究人員開發(fā)的一種新型系統(tǒng)自動“學(xué)習(xí)”如何在數(shù)千臺服務(wù)器上安排數(shù)據(jù)處理操作 - 這項任務(wù)傳統(tǒng)上保留用于不精確的,人工設(shè)計的算法。這樣做可以幫助當今耗電量大的數(shù)據(jù)中心更有效地運行。
數(shù)據(jù)中心可以包含數(shù)萬臺服務(wù)器,這些服務(wù)器不斷地從開發(fā)人員和用戶運行數(shù)據(jù)處理任務(wù)。群集調(diào)度算法實時地在服務(wù)器之間分配傳入任務(wù),以有效地利用所有可用的計算資源并快速完成工作。
然而,傳統(tǒng)上,人類根據(jù)一些基本指南(“政策”)和各種權(quán)衡來微調(diào)那些調(diào)度算法。例如,他們可以對算法進行編碼以快速完成某些工作,或者在工作之間平均分配資源。但是工作負載 - 意味著組合任務(wù)的組合 - 具有各種規(guī)模。因此,人們幾乎不可能針對特定工作負載優(yōu)化其調(diào)度算法,因此,他們往往無法實現(xiàn)真正??的效率潛力。
麻省理工學(xué)院的研究人員將所有手動編碼卸載到機器上。在SIGCOMM上發(fā)表的一篇論文中,他們描述了一個系統(tǒng),該系統(tǒng)利用“ 強化學(xué)習(xí) ”(RL),一種反復(fù)試驗的機器學(xué)習(xí)技術(shù),來定制特定服務(wù)器集群中特定工作負載的調(diào)度決策。
為此,他們構(gòu)建了可以訓(xùn)練復(fù)雜工作負載的新型RL技術(shù)。在培訓(xùn)中,系統(tǒng)嘗試了許多可能的方式來跨服務(wù)器分配傳入工作負載,最終在利用計算資源和快速處理速度方面找到最佳權(quán)衡。除了簡單的指令,例如“最小化工作完成時間”之外,不需要人為干預(yù)。
與最好的手寫調(diào)度算法相比,研究人員的系統(tǒng)可以在高流量時間內(nèi)快速完成約20%到30%的工作,并且速度提高一倍。然而,大多數(shù)情況下,系統(tǒng)會學(xué)習(xí)如何有效地壓縮工作負載以減少浪費。結(jié)果表明,該系統(tǒng)可以使數(shù)據(jù)中心使用更少的資源以更高的速度處理相同的工作負載。
“如果你有辦法使用機器進行試驗和錯誤,他們可以嘗試不同的方式來安排工作,并自動找出哪種策略比其他策略更好,”博士洪子子博士說。電氣工程與計算機科學(xué)系(EECS)的學(xué)生。“這可以自動提高系統(tǒng)性能。利用率的任何微小改進,甚至1%,都可以為數(shù)據(jù)中心節(jié)省數(shù)百萬美元和大量能源。”
“制定調(diào)度決策并不是萬能的,”EECS教授兼計算機科學(xué)與人工智能實驗室研究員(CSAIL)的合著者Mohammad Alizadeh補充說。“在現(xiàn)有系統(tǒng)中,這些是您必須預(yù)先決定的硬編碼參數(shù)。我們的系統(tǒng)會學(xué)習(xí)根據(jù)數(shù)據(jù)中心和工作負載調(diào)整其調(diào)度策略特性。”
通常,數(shù)據(jù)處理作業(yè)進入數(shù)據(jù)中心,表示為“節(jié)點”和“邊緣”的圖形。每個節(jié)點代表一些需要完成的計算任務(wù),其中節(jié)點越大,所需的計算能力越大。連接節(jié)點的邊緣將連接的任務(wù)鏈接在一起。調(diào)度算法基于各種策略將節(jié)點分配給服務(wù)器。
但傳統(tǒng)的RL系統(tǒng)并不習(xí)慣于處理這種動態(tài)圖形。這些系統(tǒng)使用軟件“代理”來做出決策并接收反饋信號作為獎勵。從本質(zhì)上講,它試圖最大化其對任何給定動作的獎勵,以在特定環(huán)境中學(xué)習(xí)理想行為。例如,他們可以幫助機器人學(xué)習(xí)執(zhí)行任務(wù),例如通過與環(huán)境交互來拾取對象,但這涉及通過更容易設(shè)置的像素網(wǎng)格處理視頻或圖像。
為了構(gòu)建他們的基于RL的調(diào)度程序,稱為Decima,研究人員必須開發(fā)一個模型,可以處理圖形結(jié)構(gòu)的作業(yè),并擴展到大量的作業(yè)和服務(wù)器。他們的系統(tǒng)的“代理”是一種利用圖形神經(jīng)網(wǎng)絡(luò)的調(diào)度算法,通常用于處理圖形結(jié)構(gòu)數(shù)據(jù)。為了提出適合于調(diào)度的圖神經(jīng)網(wǎng)絡(luò),他們實現(xiàn)了一個自定義組件,該組件跨圖中的路徑聚合信息 - 例如快速估計完成圖的給定部分所需的計算量。這對于作業(yè)調(diào)度很重要,因為“子”(較低)節(jié)點在其“父”(上)節(jié)點完成之前無法開始執(zhí)行,
為了訓(xùn)練他們的RL系統(tǒng),研究人員模擬了許多不同的圖形序列,模擬了進入數(shù)據(jù)中心的工作量。然后,代理會決定如何將每個節(jié)點沿圖表分配給每個服務(wù)器。對于每個決策,組件根據(jù)其在特定任務(wù)中的表現(xiàn)來計算獎勵 - 例如最小化處理單個作業(yè)所花費的平均時間。代理人繼續(xù)前進,改進決策,直到獲得最高獎勵。
基線工作量
然而,一個問題是,某些工作負載序列比其他工作負載序列更難處理,因為它們具有更大的任務(wù)或更復(fù)雜的結(jié)構(gòu)。這些將總是需要更長的時間來處理 - 因此,獎勵信號總是低于簡單信號。但這并不一定意味著系統(tǒng)表現(xiàn)不佳:它可以在充滿挑戰(zhàn)的工作負載上度過美好時光,但仍然比更輕松的工作負載慢。難度的變化使得模型難以決定哪些行為是好的。
為了解決這個問題,研究人員采用了一種稱為“基線”的技術(shù)。該技術(shù)采用具有大量變量的場景的平均值,并使用這些平均值作為比較未來結(jié)果的基線。在訓(xùn)練期間,他們計算了每個輸入序列的基線。然后,他們讓調(diào)度程序多次訓(xùn)練每個工作負載序列。接下來,系統(tǒng)采用針對相同輸入工作負載的所有決策的平均性能。該平均值是模型可以比較其未來決策的基線,以確定其決策是好還是壞。他們將這種新技術(shù)稱為“依賴于輸入的基線”。
研究人員表示,這種創(chuàng)新適用于許多不同的計算機系統(tǒng)。“這是在有影響環(huán)境的輸入過程的環(huán)境中進行強化學(xué)習(xí)的一般方法,并且您希望每個培訓(xùn)活動都考慮一個輸入過程的樣本,”他說。“幾乎所有計算機系統(tǒng)都處理不斷變化的環(huán)境。”
威斯康星大學(xué)麥迪遜分校的計算機科學(xué)教授Aditya Akella,他的團隊設(shè)計了幾個高性能的調(diào)度員,發(fā)現(xiàn)MIT系統(tǒng)可以幫助進一步改善他們自己的政策。“Decima可以更進一步,找到[ 調(diào)度 ]優(yōu)化的機會,這些優(yōu)化過于繁重,無法通過手動設(shè)計/調(diào)整過程實現(xiàn),”Akella說。“我們設(shè)計的調(diào)度程序在應(yīng)用程序性能和集群效率方面比生產(chǎn)中使用的技術(shù)有了顯著的改進,但是我們可能實現(xiàn)的理想改進仍然存在差距.Decima表明基于RL的方法可以發(fā)現(xiàn)[策略]這有助于進一步縮小差距。我們的技術(shù)改進了大約30%,
現(xiàn)在,他們的模型經(jīng)過模擬訓(xùn)練,試圖實時重建傳入的在線流量。接下來,研究人員希望在實時流量上訓(xùn)練模型,這可能會使服務(wù)器崩潰。因此,他們目前正在開發(fā)一種“安全網(wǎng)”,當它即將導(dǎo)致系統(tǒng)崩潰時,它將停止系統(tǒng)。“我們認為它是訓(xùn)練輪,”Alizadeh說。“我們希望這個系統(tǒng)能夠不斷訓(xùn)練,但它有一定的訓(xùn)練輪,如果它太過分,我們可以確保它不會倒下。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。