您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

網(wǎng)絡(luò)資訊:Hadoop框架是什么

2022-08-08 07:09:20 編輯:路真楓 來(lái)源:
導(dǎo)讀 今天來(lái)說(shuō)一下Hadoop框架是什么這方面的一些訊息,不少朋友對(duì)Hadoop框架是什么這方面的一些訊息頗感興趣的,小編今天就整理了一些信息,希望...

今天來(lái)說(shuō)一下Hadoop框架是什么這方面的一些訊息,不少朋友對(duì)Hadoop框架是什么這方面的一些訊息頗感興趣的,小編今天就整理了一些信息,希望對(duì)有需要的朋友有所幫助。

Hadoop是一個(gè)開(kāi)源軟件框架,用于在商用硬件集群上存儲(chǔ)數(shù)據(jù)和運(yùn)行應(yīng)用程序。它為任何類型的數(shù)據(jù)提供海量存儲(chǔ),巨大的處理能力以及處理幾乎無(wú)限的并發(fā)任務(wù)或作業(yè)的能力。

Hadoop 是一個(gè)開(kāi)源軟件框架,用于在商用硬件集群上存儲(chǔ)數(shù)據(jù)和運(yùn)行應(yīng)用程序。它為任何類型的數(shù)據(jù)提供海量存儲(chǔ),巨大的處理能力以及處理幾乎無(wú)限的并發(fā)任務(wù)或作業(yè)的能力。

隨著萬(wàn)維網(wǎng)在 20 世紀(jì)后期和 21 世紀(jì)初的發(fā)展,創(chuàng)建了搜索引擎和索引,以幫助在基于文本的內(nèi)容中定位相關(guān)信息。在早期,搜索結(jié)果由人類返回。但隨著網(wǎng)絡(luò)從幾十頁(yè)增長(zhǎng)到數(shù)百萬(wàn)頁(yè),需要自動(dòng)化。創(chuàng)建了網(wǎng)絡(luò)爬蟲,其中許多是大學(xué)主導(dǎo)的研究項(xiàng)目,搜索引擎初創(chuàng)公司起飛(雅虎,AltaVista 等)。

其中一個(gè)項(xiàng)目是一個(gè)名為 Nutch 的開(kāi)源網(wǎng)絡(luò)搜索引擎 – Doug Cutting 和 Mike Cafarella 的創(chuàng)意。他們希望通過(guò)在不同計(jì)算機(jī)之間分配數(shù)據(jù)和計(jì)算來(lái)更快地返回 Web 搜索結(jié)果,從而可以同時(shí)完成多個(gè)任務(wù)。在此期間,另一個(gè)名為 Google 的搜索引擎項(xiàng)目正在進(jìn)行中。它基于相同的概念 – 以分布式,自動(dòng)化的方式存儲(chǔ)和處理數(shù)據(jù),以便更快地返回相關(guān)的 Web 搜索結(jié)果。

2006 年,Cutting 加入了雅虎并帶來(lái)了 Nutch 項(xiàng)目以及基于谷歌早期工作的想法,自動(dòng)化分布式數(shù)據(jù)存儲(chǔ)和處理。Nutch 項(xiàng)目被劃分 – 網(wǎng)絡(luò)爬蟲部分仍然是 Nutch,分布式計(jì)算和處理部分變成了 Hadoop(以 Cutting 的兒子的玩具大象命名)。2008 年,雅虎發(fā)布了 Hadoop 作為開(kāi)源項(xiàng)目。今天,Hadoop 的框架和技術(shù)生態(tài)系統(tǒng)由非盈利的 Apache 軟件基金會(huì)(ASF)管理和維護(hù),ASF 是一個(gè)由軟件開(kāi)發(fā)人員和貢獻(xiàn)者組成的全球社區(qū)。

為什么 Hadoop 很重要?

能夠快速存儲(chǔ)和處理大量任何類型的數(shù)據(jù)。隨著數(shù)據(jù)量和品種的不斷增加,特別是來(lái)自社交媒體和物聯(lián)網(wǎng)(IoT),這是一個(gè)關(guān)鍵考慮因素。

計(jì)算能力。Hadoop 的分布式計(jì)算模型可以快速處理大數(shù)據(jù)。您使用的計(jì)算節(jié)點(diǎn)越多,您擁有的處理能力就越強(qiáng)。

容錯(cuò)。數(shù)據(jù)和應(yīng)用程序處理可防止硬件故障。如果節(jié)點(diǎn)發(fā)生故障,作業(yè)將自動(dòng)重定向到其他節(jié)點(diǎn),以確保分布式計(jì)算不會(huì)失敗。自動(dòng)存儲(chǔ)所有數(shù)據(jù)的多個(gè)副本。

靈活性。與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)不同,您不必在存儲(chǔ)數(shù)據(jù)之前對(duì)其進(jìn)行預(yù)處理。您可以根據(jù)需要存儲(chǔ)盡可能多的數(shù)據(jù),并決定以后如何使用它。這包括非結(jié)構(gòu)化數(shù)據(jù),如文本,圖像和視頻。

低成本。開(kāi)源框架是免費(fèi)的,使用商用硬件來(lái)存儲(chǔ)大量數(shù)據(jù)。

可擴(kuò)展性。只需添加節(jié)點(diǎn),您就可以輕松擴(kuò)展系統(tǒng)以處理更多數(shù)據(jù)。需要很少的管理。

Hadoop 有哪些挑戰(zhàn)?

MapReduce 編程并不適合所有問(wèn)題。這對(duì)于簡(jiǎn)單的信息請(qǐng)求和可以分成獨(dú)立單元的問(wèn)題是有益的,但對(duì)迭代和交互式分析任務(wù)來(lái)說(shuō)效率不高。MapReduce 是文件密集型的。由于除了通過(guò)排序和混洗之外,節(jié)點(diǎn)不相互通信,因此迭代算法需要多個(gè) map-shuffle / sort-reduce 階段才能完成。這會(huì)在 MapReduce 階段之間創(chuàng)建多個(gè)文件,對(duì)于高級(jí)分析計(jì)算來(lái)說(shuō)效率很低。

有一個(gè)廣為人知的人才缺口。很難找到具有足夠 Java 技能的入門級(jí)程序員,以便通過(guò) MapReduce 提高工作效率。這就是分銷商正在競(jìng)相將關(guān)系(SQL)技術(shù)置于 Hadoop 之上的原因之一。找到具有 SQL 技能而不是 MapReduce 技能的程序員要容易得多。而且,Hadoop 管理似乎是部分藝術(shù)和部分科學(xué),需要對(duì)操作系統(tǒng),硬件和 Hadoop 內(nèi)核設(shè)置的低級(jí)知識(shí)。

數(shù)據(jù)安全。另一個(gè)挑戰(zhàn)是圍繞分散的數(shù)據(jù)安全問(wèn)題,盡管新的工具和技術(shù)正在浮出水面。Kerberos 身份驗(yàn)證協(xié)議是使 Hadoop 環(huán)境安全的重要一步。

完善的數(shù)據(jù)管理和治理。Hadoop 沒(méi)有易于使用的全功能工具來(lái)進(jìn)行數(shù)據(jù)管理,數(shù)據(jù)清理,治理和元數(shù)據(jù)。特別缺乏的是數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化的工具。

一個(gè)有趣的事實(shí):“Hadoop”是一個(gè)黃色玩具大象的名字,由其一位發(fā)明家的兒子擁有。

以上就是關(guān)于Hadoop框架是什么對(duì)比這方面的一些信息了 小編整理的這些訊息希望對(duì)童鞋們有所幫助。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。