2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。
上周,IBM終于放棄了大數(shù)據(jù)運動中的一項關鍵技術,轉(zhuǎn)而把精力放在了一個新的競爭對手身上。該公司正在將Apache Spark添加到其開源大型數(shù)據(jù)處理軟件組合中,使長期存在的system MapReduce黯然失色。
該公司稱Spark是十年來最重要的開源項目,并承諾將該技術嵌入其分析和商業(yè)平臺,并在自己的公共云基礎設施上提供Spark服務。藍色巨人還將把它的SystemML機器學習技術捐贈給Spark開源運動。為什么?
Spark是一個用于數(shù)據(jù)處理的通用框架,設計用于運行在多個不同計算機集群中同時處理數(shù)據(jù)的應用程序。這解決了兩個與處理大量數(shù)據(jù)相關的常見問題。
首先,非常大的數(shù)據(jù)集可能需要很長時間才能跨越網(wǎng)絡轉(zhuǎn)移到一臺單獨處理它們的計算機上。其次,一些大型數(shù)據(jù)應用程序,如機器學習,要求所有數(shù)據(jù)同時存儲在內(nèi)存中。這對于一臺計算機來說是非常困難的,當你談論tb級的東西時。這就是為什么Spark被描述為機器學習應用程序的有用工具,而機器學習應用程序通常需要大量的經(jīng)驗數(shù)據(jù)。
在歷史上,對于許多人來說,跨計算機集群處理大型數(shù)據(jù)集的首選技術是MapReduce,它是為大型數(shù)據(jù)處理平臺Hadoop分配處理任務的技術。
Hadoop也是Apache基金會的產(chǎn)品,受到包括IBM和HP在內(nèi)的各種供應商的支持。IBM基于Apache開源發(fā)行版發(fā)布的Hadoop稱為IOP。
IBM全球大數(shù)據(jù)分析平臺技術銷售主管Dirk deRoos認為,Spark作為Hadoop的工具,正在超越MapReduce。他說,它為程序員提供了更富表現(xiàn)力的API,使他們能夠用數(shù)據(jù)處理做更廣泛的事情。這意味著它們可以用于不同的工作,他補充說。
“MapReduce非常擅長批量處理符合嚴格的Map和Reduce模型的應用程序,而Sparkis要靈活得多,”他說。
spark可以用于批量應用程序,也可以用于交互式應用程序。當用戶詢問問題時,比如SQL查詢,并希望在幾秒鐘或更少的時間內(nèi)返回結(jié)果,”他繼續(xù)說道。它還可以用于近乎實時的應用程序,比如處理跨neetowrk的數(shù)據(jù)流。
MapReduce的缺點很可能影響了谷歌在一年前有效地放棄這項技術。去年6月,它宣布將取代MapReduce,一個它自己建立的新的云分析系統(tǒng),稱為云數(shù)據(jù)流。
IBM也許會把精力集中在Spark上,但它不會放棄MapReduce。只要Apache開源項目將該技術包含在Hadoop中,它就會繼續(xù)發(fā)布該技術,但IBM現(xiàn)在也將Spark整合到自己的Hadoop發(fā)行版中。Spark既可以用于Hadoop項目,也可以用于其他非Hadoop項目。
與Hadoop一樣,Spark也可以在IBM的完全開源發(fā)行版上使用,即Apache Hadoop的開放平臺。但是,它還將被綁定到IBM生產(chǎn)的其他應用程序框架中。
deRoos將Spark稱為一項服務的云實現(xiàn)正在Bluemix上測試,Bluemix是一個基于開源云計算項目的云環(huán)境。他說,這是為了幫助開發(fā)人員在線混合和匹配不同的應用程序。
deRoos總結(jié)道:“park.com非常適合機器學習應用程序,這使得將機器學習功能集成到處理數(shù)據(jù)的Bluemix應用程序中成為可能?!?/p>
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權歸原作者所有。