hadoop版本差異詳解_第1頁(yè)
hadoop版本差異詳解_第2頁(yè)
hadoop版本差異詳解_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、而Hadoop則提供了 NFS、QJM和Bookeeper三種可選的共享存儲(chǔ)系統(tǒng),具體可閱讀我的 這篇文章:Hadoop 2.0單點(diǎn)故障問(wèn)題方案總結(jié)。c)HDFS Federation前面提到HDFS的NameNode存在存受限問(wèn)題,該問(wèn)題也在2. 2. 0版本中得到了解決。 這是通過(guò)HDFS Federation實(shí)現(xiàn)的,它允許一個(gè)HDFS集群中存在多個(gè)NameNode,每個(gè) NameNode分管一部分L1錄,而不同NameNode之間彼此獨(dú)立,共孕所有DataNode的存儲(chǔ) 資源,注意,NameNode Federation中的每個(gè)NameNode仍存在單點(diǎn)問(wèn)題,需為每個(gè) NameNode提

2、供一個(gè)backup以解決單點(diǎn)故障問(wèn)題。d)HDFS快照HDFS快照是指HDFS文件系統(tǒng)(或者子系統(tǒng))在某一時(shí)刻的只讀鏡像,它的出現(xiàn)使 得管理員可定時(shí)為重要文件或LI錄做快照,以防止數(shù)據(jù)誤刪、丟失等。具體可閱讀: Snapshots for HDFS (使用說(shuō)明),Support for RW/RO snapshots in HDFSo通過(guò)NFSv3訪問(wèn)HDFSNFS允許用戶(hù)像訪問(wèn)本地文件系統(tǒng)一樣訪問(wèn)遠(yuǎn)程文件系統(tǒng),而將NFS引入HDFS后, 用戶(hù)可像讀寫(xiě)本地文件一樣讀寫(xiě)HDFS上的文件,大大簡(jiǎn)化了 HDFS使用,這是通過(guò)引入 一個(gè)NFS gateway服務(wù)實(shí)現(xiàn)的,該服務(wù)能將FS協(xié)議轉(zhuǎn)換為HDFS

3、訪問(wèn)協(xié)議,具體如下 圖所示。有興趣的讀者可閱讀:Support NFSv3 interface to HDFS,以及相關(guān)設(shè)汁文 檔:HDFS NFS Gate way oe)支持Windows操作系統(tǒng)在2. 2. 0版本之前,Hadoop僅支持Linux操作系統(tǒng),而Windows僅作為實(shí)驗(yàn)平臺(tái)使 用。從2.2.0開(kāi)始,Hadoop 始支持Windows操作系統(tǒng),具體可閱讀我之前寫(xiě)的一篇文 章:Hadoop For Windowsof)兼容1. x上運(yùn)行的MapReduce應(yīng)用程序與Hadoop生態(tài)系統(tǒng)其他系統(tǒng)進(jìn)行了充分 的集成測(cè)試除了 HDFS、MapReduce和YARN這三個(gè)核心系統(tǒng)外,H

4、adoop生態(tài)系統(tǒng)還包括Hbase、 Hive、Pig等系統(tǒng),這些系統(tǒng)底層依賴(lài)于Hadoop核,而相比于Hadoop 1. 0, Hadoop 2. 0 的最大變化出現(xiàn)在核(HDFS、MapReduce和YARN),但與生態(tài)系統(tǒng)中其他系統(tǒng)進(jìn)行集成 測(cè)試是必需的。除了以上特性外,Apache官方還給出了兩個(gè)特殊說(shuō)明:(1)HDFS變化:HDFS的symlinks (類(lèi)似于Linux中的軟連接)被將移到了 2. 3. 0版本中(2) YARN/MapReduce 注意事項(xiàng):管理員在 NodeManager 上設(shè)置 Shuffl eHandl er service 時(shí),要采用 amapreduce_

5、shuffle而非之前的"mapreduce, shuffle"作為屬 性值新版本不僅增強(qiáng)了核心平臺(tái)的大量功能,同時(shí)還修復(fù)了大量bug。新版本對(duì)HDFS 做了兩個(gè)非常重要的增強(qiáng):(1)、支持異構(gòu)的存儲(chǔ)層次;(2)、通過(guò)數(shù)據(jù)節(jié)點(diǎn)為存儲(chǔ)在HDFS 中的數(shù)據(jù)提供了存緩存功能。借助于HDFS對(duì)異構(gòu)存儲(chǔ)層次的支持,我們將能夠在同一個(gè)Hadoop集群上使用不同 的存儲(chǔ)類(lèi)型。此外我們還可以使用不同的存儲(chǔ)媒介一一例如商業(yè)磁盤(pán)、企業(yè)級(jí)磁盤(pán)、SSD 或者存等一一更好地權(quán)衡成本和收益。如果你想更詳細(xì)地了解與該增強(qiáng)相關(guān)的信息,那 么可以訪問(wèn)這里。類(lèi)似地,在新版本中我們還能使用Hadoop集群中的可

6、用存集中地緩 存并管理數(shù)據(jù)節(jié)點(diǎn)存中的數(shù)據(jù)集。MapReduce. Hive、Pig等類(lèi)似的應(yīng)用程序?qū)⒛軌蛏暾?qǐng) 存進(jìn)行緩存,然后直接從數(shù)據(jù)節(jié)點(diǎn)的地址空間中讀取容,通過(guò)完全避免磁盤(pán)操作極提高 掃描效率。Hive現(xiàn)在正在為0RC文件實(shí)現(xiàn)一個(gè)非常有效的零復(fù)制讀取路徑,該功能就使 用了這項(xiàng)新技術(shù)。在YARN方面,令我們非常興奮的事惜是資源管理器自動(dòng)故障轉(zhuǎn)移功能已經(jīng)進(jìn)入尾 聲,雖然在2. 3.0這個(gè)版本中該功能還沒(méi)有被發(fā)布,但是極有可能會(huì)包含在Hadoop-2. 4 中。此外,2. 3.0版本還對(duì)YARN做了一些關(guān)鍵的運(yùn)維方面的增強(qiáng),例如更好的日志、錯(cuò) 誤處理和診斷等。MapReduce的一個(gè)關(guān)鍵增強(qiáng)MA

7、PREDUCE-4421 o借助于該功能我們已經(jīng)不再需要在每 一臺(tái)機(jī)器上安裝MapReduce二進(jìn)制程序,僅僅需要通過(guò)YARN分布式緩存將一個(gè) MapReduce包復(fù)制到HDFS中就可以了。當(dāng)然,新版本還包含大量的bug修復(fù)以及其他方 面的增強(qiáng)。例如:(1) YarnClientlmpl類(lèi)中的異步輪詢(xún)操作引入了超時(shí);(2) 修復(fù)了 RMFatalEventDispatcher沒(méi)有記錄事件原因的問(wèn)題;(3) HA配置不會(huì)影響節(jié)點(diǎn)管理器的RPC地址;(4) RM Web UI 和 REST API 統(tǒng)一使用 YarnApplicationState:(5) 在RpcResponseHeader中包

8、含RPC錯(cuò)誤信息,而不是將其分開(kāi)發(fā)送;(6) 向jetty/httpserver中添加了請(qǐng)求日志;(7) 修復(fù)了將dfs. checksum, type定義為NULL之后寫(xiě)文件和hflush會(huì)拋出 java lang ArraylndexOutOfBoundsException 的i可題。2014年4月,Hadoop 2. 4.0發(fā)布。關(guān)鍵特性包括:(1) HDFS 支持訪問(wèn)控制列表(ACLs, Access Control Lists);(2) 原生支持HDFS滾動(dòng)升級(jí);(3) HDFS FSImage用到了 protocol-buffers,從而可以平滑地升級(jí);(4) HDFS 完全支持

9、HTTPS:(5) YARN ResourceManager 支持自動(dòng)故障轉(zhuǎn)移,解決了 YARN ResourceManager 的單點(diǎn)故障;(6) 對(duì) YARN 的 Application History Server 和 pplication Timeline Server 上的新應(yīng)用加強(qiáng)了支持;(7) 通過(guò)搶占使得YARN Capacity Scheduler支持強(qiáng)SLAs協(xié)議;安全對(duì)于Hadoop來(lái)說(shuō)至關(guān)重要,所以在Hadoop 2. 4. 0版本中對(duì)HDFS的所有訪問(wèn)(包括 WebHDFS, HsFTP 甚至是 web-interfaces)都支持了 HTTPS。在 Hadoop 2

10、.4.0 解 決了 ResourceManager的單點(diǎn)故障。這樣會(huì)在集群中存在兩個(gè)ResourceManager,其中 一個(gè)處J" Active:另一個(gè)處于 standbyo Active的出現(xiàn)故障,這樣Hadoop可以 自動(dòng)平滑地切換到另外一個(gè)ResourceManager,這個(gè)新的ResourceManager將會(huì)自動(dòng)的 重啟那些提交的applicationso在下一階段,Hadoop將會(huì)增加一個(gè)熱standby(add a hot standby),這個(gè)standby可以繼續(xù)從故障點(diǎn)運(yùn)行的應(yīng)用程序,以保存任何已經(jīng)完成的工 作。2014年8月,Hadoop 2. 5.0發(fā)布。關(guān)

11、鍵特性包括:1 Commona) 使用HTTP代理服務(wù)器時(shí)認(rèn)證改進(jìn)。當(dāng)通過(guò)代理服務(wù)器使用WebHDFS時(shí)這是非常 有用的。b) 增加了一個(gè)新的Hadoop指標(biāo)監(jiān)控sink,允許直接寫(xiě)到Graphiteoc) Hadoop文件系統(tǒng)兼容相關(guān)的規(guī)工作。2. HDFSa) 支持P0SIX風(fēng)格的擴(kuò)展文件系統(tǒng)。更多細(xì)節(jié)查看Extended Attributes in HDFS 文檔。b) 支持離線image瀏覽,客戶(hù)端現(xiàn)在可以通過(guò)WebHDFS的API瀏覽一個(gè)fsimage<>c) NFS網(wǎng)關(guān)得到大量可支持性的改進(jìn)和bug修復(fù)。Hadoop portmapper不在需要運(yùn) 行網(wǎng)關(guān),網(wǎng)關(guān)現(xiàn)在可以

12、拒絕沒(méi)有權(quán)限的端口的連接。d) SecondaryNameNode, JournalNode, and DataNode 的 web UI 已經(jīng)使用 HTML5 和JS美化。3. YARNa) YARN的REST API現(xiàn)在支持寫(xiě)/修改操作。用戶(hù)可以用REST API提交和殺死應(yīng)用 程序。b) 時(shí)間線存儲(chǔ)到Y(jié)ARN,用來(lái)存儲(chǔ)一個(gè)應(yīng)用通用的和特殊的信息,支持Kerberos 認(rèn)證。c) 公平調(diào)度器支持動(dòng)態(tài)分層用戶(hù)隊(duì)列,運(yùn)行時(shí),用戶(hù)隊(duì)列在任一指定的父隊(duì)列中 被動(dòng)態(tài)的創(chuàng)建。2014年11月,Hadoop 2. 6.0發(fā)布。關(guān)鍵特性包括:1 CommonHadoop Key Management Se

13、rver (KMS)是一個(gè)基于 HadoopKeyProvider API 編寫(xiě) 的密鑰管理服務(wù)器。他提供了一個(gè)client和一個(gè)server組件,client和server之間 基于HTTP協(xié)議使用REST API通信。Client是一個(gè)KeyProvider的實(shí)現(xiàn),使用KMS HTTP REST API與KMS交互。KMS和它的client有置的安全機(jī)制,支持HTTP SPNEGO Kerberos 認(rèn)證和HTTPS安全傳輸。KMS是一個(gè)Java Web應(yīng)用程序,運(yùn)行在與Hadoop發(fā)行版綁定 在一起的預(yù)先配置好的Tomcat服務(wù)器上。2. TracingHDFS-5274增加了追蹤通過(guò)H

14、DFS的請(qǐng)求的功能,此功能使用了開(kāi)源的庫(kù),HTraceo 大家可以看一下HTrace,功能很強(qiáng)大,Cloudera JF源出來(lái)的。3. HDFSa) Transparent Encryption, HDFS實(shí)現(xiàn)了一個(gè)透明的,端到端的加密方式。一旦 配置了加密,從HDFS讀出數(shù)據(jù)解密和寫(xiě)入數(shù)據(jù)加密的過(guò)程對(duì)用戶(hù)應(yīng)用程序代碼帶來(lái)說(shuō) 都是透明的。加密過(guò)程是端到端的,這意味著數(shù)據(jù)只能在客戶(hù)端被加密解密。HDFS從來(lái) 不存儲(chǔ),也不訪問(wèn)未加密的數(shù)據(jù)和數(shù)據(jù)加密密鑰。這樣滿(mǎn)足了加密過(guò)程的兩個(gè)典型的需 求:at-rest encryption (靜態(tài)加密,也就是說(shuō),數(shù)據(jù)持久化在像硬盤(pán)這樣的媒介上), in-tra

15、nsit encryption (在途加密,例如,當(dāng)數(shù)據(jù)在網(wǎng)絡(luò)中傳輸?shù)臅r(shí)候)。b) Storage SSD&& Memoryo ArchivalStorage (檔案存儲(chǔ)器)是將計(jì)算能力與不斷 增長(zhǎng)的存儲(chǔ)能力分離。擁有高密度低成本的存儲(chǔ)但是計(jì)算能力較低的節(jié)點(diǎn)將變得可用, 可以在集群中做冷存儲(chǔ)。增加更多的節(jié)點(diǎn)作為冷存儲(chǔ)可以提高集群的存儲(chǔ)能力,跟集群 的計(jì)算能力無(wú)關(guān)。4. MapReduce這一部分主要是一些bug的修復(fù)和改進(jìn)。增加了兩個(gè)新的新特,在2.5.2里已經(jīng)有 所描述了。這里在簡(jiǎn)單看一下。a) ResourceManger Restartb) 允許AM發(fā)送歷史事件信息到ti

16、meline server。5. YARNa) NodeManager Restart:這個(gè)特性可以使NodeManager在不丟失運(yùn)行在節(jié)點(diǎn)中的 活動(dòng)的container的情況下重新啟動(dòng)。b) Docker Container Exec utor: DockerCo nt ainer Execu tor (DCE)允許 YARN NodeManager在Docker container中啟動(dòng)YARN container。用戶(hù)可以指定他們想用來(lái) 運(yùn)行YARN container的Docker的鏡像。這些container提供了一個(gè)可以自定義的軟件 環(huán)境,用戶(hù)的代碼可以運(yùn)行在其中,與NodeMa

17、nager運(yùn)行的環(huán)境隔離。這些運(yùn)行用戶(hù)代 碼的container可以包含應(yīng)用程序需要的特定的庫(kù),它們可以擁有與NodeManager不同 版本的Perl, Python其至是Java。事實(shí)上,這些container可以運(yùn)行與NodeManager 所在的OS不同版本的Linuxo盡管YARN container必須定義運(yùn)行Job所需的所有的環(huán) 境和庫(kù),但是NodeManager中的所有的東西都不會(huì)共享。Docer為YARN提供了一致和隔離兩種模式,一致模式下,所有的YARN container 將擁有相同的軟件環(huán)境,在隔離模式下,不管物理機(jī)器安裝了什么都不干擾。2015年7月,Hadoop 2

18、. 7.0發(fā)布。關(guān)鍵特性包括:1. Common支持 Windows Azure Storage, BLOB 作為 Hadoop 中的文件系統(tǒng)。Hadoop HDFSa) 支持文件截?cái)?file truncate);b) 支持每個(gè)存儲(chǔ)類(lèi)型配額(Support for quotas per storage type):c) 支持可變長(zhǎng)度的塊文件2. YARN1、YARN安全模塊可插拔a)YARN的本地化資源可以自動(dòng)共享,全局緩存(測(cè)試版)Hadoop MapReduceb)能夠限制運(yùn)行的Map/Reduce作業(yè)的任務(wù)c)為非常的大Job (有許多輸出文件)加快了 F訂eOutputCommitter。2. HDFSa)支持文件截?cái)啵╢ile truncate);b)支持每個(gè)存儲(chǔ)類(lèi)型配額(Support for quotas per storage type):c)支持可變長(zhǎng)度的塊文件2. MAPREDUCEa)能夠限制運(yùn)行的Map/Re

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論