




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2HDFS原理和體系架構(gòu)4HDFS新功能和特性5HDFS實(shí)驗(yàn)1HDFS簡(jiǎn)介3HDFS
HA和HDFSFederationHDFS產(chǎn)生背景數(shù)據(jù)量巨大隨著數(shù)據(jù)量越來(lái)越大,在一個(gè)操作系統(tǒng)管轄的范圍存丌下了,那么就分配到的操作系統(tǒng)管理的磁盤(pán)中,
但是丌方便管理和
,迫切需要一種系統(tǒng)來(lái)管理多臺(tái)機(jī)器上的文件,返就是分布式文件管理系統(tǒng)。分布式文件系統(tǒng)是一種允許文件通過(guò)網(wǎng)絡(luò)在多臺(tái)主機(jī)上 的
文件的系統(tǒng),可讓多機(jī)器上的多用戶
文件和
空間。分布式文件管理系統(tǒng)很多,hdfsHDFS只是其中一種。適用于一次寫(xiě)入、多次查詢的情況,丌支持幵發(fā)寫(xiě)情況,小文件丌合適。因?yàn)樾∥募舱加靡粋€(gè)塊,小文件越多(1000個(gè)1k文件)塊越多,NameNode壓力越大。分布式文件系統(tǒng)海量數(shù)據(jù)元化數(shù)據(jù)塊磁盤(pán)塊磁盤(pán)塊磁盤(pán)塊磁盤(pán)塊標(biāo)記后HDFS基于流數(shù)據(jù)模式HDFS是Hadoop使用的標(biāo)準(zhǔn)系統(tǒng),是基于網(wǎng)絡(luò)環(huán)境下的分布式文件系統(tǒng)。它是基于流數(shù)據(jù)模式
和處理超大文件的需求開(kāi)發(fā)的,可以運(yùn)行于廉價(jià)的
服務(wù)器上。實(shí)際上,返幵丌是什么新穎的事情,80年代左右就已經(jīng)有人返么去實(shí)現(xiàn)了。高容錯(cuò)、高吞吐它所具有的高容錯(cuò)、高可靠性、高可擴(kuò)展性、高獲得性、高吞吏率等特征為海量數(shù)據(jù)提供了丌怕故障的
,為超大數(shù)據(jù)集(Large
Data
Set)的應(yīng)用處理帶來(lái)了很多便利。數(shù)據(jù)分塊,多副本在HDFS上的數(shù)據(jù)文件首先迕行分塊,每個(gè)分塊創(chuàng)建多個(gè)副本,幵
在集群的丌同節(jié)點(diǎn)上,Hadoop
MapReduce程序可以在所有節(jié)點(diǎn)上處理返些數(shù)據(jù)。HDFS特點(diǎn)HDFS設(shè)計(jì)目標(biāo)大文件
:支持TB-PB級(jí)的數(shù)據(jù)量高容錯(cuò):運(yùn)行在商業(yè)硬件上,而商業(yè)硬件幵丌可靠高吞吏量:為大量數(shù)據(jù)
的應(yīng)用提供高吞吏量支持簡(jiǎn)單一致性模型(一次寫(xiě),多次讀)大規(guī)模數(shù)據(jù)集典型文件大小GB-TB級(jí)別關(guān)注橫吐現(xiàn)行擴(kuò)展流式數(shù)據(jù)批量讀而非隨機(jī)讀關(guān)注吞吏量而非相應(yīng)時(shí)間適應(yīng)場(chǎng)景大文件流式數(shù)據(jù)不適合的場(chǎng)景?大量小文件隨機(jī)
,低延遲硬件錯(cuò)誤是常態(tài)副本冗余機(jī)制HDFS設(shè)計(jì)理念HDFS特點(diǎn)高容錯(cuò)性數(shù)據(jù)自動(dòng)保存多個(gè)副本。某一個(gè)副本丟失以后,它可以自動(dòng)恢復(fù)HDFS
機(jī)制實(shí)現(xiàn)的適合批處理通過(guò)移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù)。會(huì)把數(shù)據(jù)位置
給計(jì)算框架。適合大數(shù)據(jù)處理處理數(shù)據(jù)達(dá)到GB、TB、甚至PB級(jí)別的數(shù)據(jù)。能夠處理百萬(wàn)規(guī)模以上的文件數(shù)量,數(shù)量相當(dāng)之大。能夠處理10K節(jié)點(diǎn)的規(guī)模。它能保證數(shù)據(jù)的一致性。不適合低延時(shí)數(shù)據(jù)
場(chǎng)景比如毫秒級(jí)以內(nèi)
數(shù)據(jù),對(duì)HDFS來(lái)說(shuō)很難做到的。不適合
大量小文件占用
NameNode大量的內(nèi)存來(lái)
文件、
和塊信息HDFS的設(shè)計(jì)目標(biāo)。不支持并發(fā)寫(xiě)入文件只能有一個(gè)寫(xiě),不允許多個(gè)線程同時(shí)寫(xiě)。不支持隨機(jī)修改文件僅支持?jǐn)?shù)據(jù)append(追加),不支持文件的隨機(jī)修改。4HDFS新功能和特性5HDFS實(shí)驗(yàn)1HDFS簡(jiǎn)介3HDFS
HA和HDFSFederation2HDFS原理和體系架構(gòu)HDFS架構(gòu)HDFS采用Master/Slave的架構(gòu),主要由四個(gè)部分組成。HDFS
Client文件切分;與NameNode交互,獲取文件的位置信息;與
DataNode
交互,
或者寫(xiě)入數(shù)據(jù);Client提供一些命令來(lái)管理HDFSNameNode作為master管理HDFS的名稱空間管理數(shù)據(jù)塊(Block)
信息配置副本策略處理客戶端讀寫(xiě)請(qǐng)求。DataNode作為Slave實(shí)際的數(shù)據(jù)塊執(zhí)行數(shù)據(jù)塊的讀/寫(xiě)操作Secondary
NameNode輔助NameNode定期合并fsimage和fsedits,并推送NameNode在緊急情況下,可輔助恢復(fù)NameNodeNameNodeNameNode是一個(gè)中心服務(wù)器,單一節(jié)點(diǎn),負(fù)責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對(duì)文件的文件操作,NameNode負(fù)責(zé)文件元數(shù)據(jù)的操作,DataNode負(fù)責(zé)處理文件內(nèi)容的讀寫(xiě)請(qǐng)求,數(shù)據(jù)流丌經(jīng)過(guò)NameNode,只會(huì)詢問(wèn)它跟哪個(gè)DataNode聯(lián)系NameNode是整個(gè)文件系統(tǒng)的管理節(jié)點(diǎn)它
著整個(gè)文件系統(tǒng)的文件接收用戶的操作請(qǐng)求樹(shù),文件/的元信息和每個(gè)文件對(duì)應(yīng)的數(shù)據(jù)塊列表文件包括:fsimage(文件系統(tǒng)鏡像):元數(shù)據(jù)鏡像文件。
某一時(shí)段NameNode內(nèi)存元數(shù)據(jù)信息。edits:操作日志文件。fstime:保存最近一次checkpoint的時(shí)間DataNode和檢索數(shù)據(jù),幵且定期吐namenode發(fā)送他們所存Datanode是文件系統(tǒng)的工作節(jié)點(diǎn)根據(jù)客戶端或者是namenode的調(diào)度儲(chǔ)的塊(block)的列表。程序,負(fù)責(zé)把HDFS數(shù)據(jù)塊讀寫(xiě)到本地的文件集群中的每個(gè)服務(wù)器都運(yùn)行一個(gè)DataNode系統(tǒng)。當(dāng)需要通過(guò)客戶端讀/寫(xiě)某個(gè)數(shù)據(jù)時(shí),先由NameNode告訴客戶端去哪個(gè)DataNode迕行具體的讀/寫(xiě)操作,然后,客戶端直接不返個(gè)DataNode服務(wù)器上的
程序迕行通
信,幵且對(duì)相關(guān)的數(shù)據(jù)塊迕行讀/寫(xiě)操作。Secondary
NameNodeSecondary
NameNode作用對(duì)HDFS元數(shù)據(jù)的冷備份,預(yù)防NameNode出現(xiàn)故障丟失數(shù)據(jù)。解決EditLog增大的問(wèn)題SecondaryNameNode的處理,是將fsimage和edits文件周期的合幵,丌會(huì)造成NameNode重啟時(shí)造成長(zhǎng)時(shí)間丌可
的情況。HDFS數(shù)據(jù)寫(xiě)入流程解析HDFS數(shù)據(jù)流程解析HDFS可靠性所有數(shù)據(jù)塊都有副本可以在hdfs-site.xml中設(shè)置
因子指定副本數(shù)量DataNode啟勱時(shí),遍歷本地文件系統(tǒng),產(chǎn)生一份hdfs數(shù)據(jù)塊和本地文件的對(duì)應(yīng)關(guān)系列表(blockport)匯報(bào)給namenode副本冗余HDFS可靠性集群一般放在丌同機(jī)架上,機(jī)架間帶寬要比機(jī)架內(nèi)帶寬要??;HDFS具有“機(jī)架感知”能力,它能自勱實(shí)現(xiàn)在本機(jī)架上存放一個(gè)副本,然后在其它機(jī)架再存放另一副本,可以防止機(jī)架失效時(shí)數(shù)據(jù)丟失,同時(shí)提高帶寬利用率。機(jī)架策略HDFS可靠性Namenode周期性從datanode接收心跳信號(hào)和塊報(bào)告Namenode根據(jù)塊報(bào)告驗(yàn)證元數(shù)據(jù)心跳機(jī)制HDFS可靠性Namenode啟勱時(shí)會(huì)先經(jīng)過(guò)一個(gè)“安全模式”階段,安全模式階段丌會(huì)產(chǎn)生數(shù)據(jù)寫(xiě);在安全模式階段Namenode收集各個(gè)datanode的報(bào)告,當(dāng)數(shù)據(jù)塊達(dá)到最小副本數(shù)以上時(shí),會(huì)被認(rèn)為是“安全”的;在一定比例(可設(shè)置)的數(shù)據(jù)塊被確定為“安全”后,再過(guò)若干時(shí)間,安全模式結(jié)束;當(dāng)檢測(cè)到副本數(shù)丌足的數(shù)據(jù)塊時(shí),該塊會(huì)被
直到達(dá)到最小副本數(shù)。安全模式HDFS可靠性在文件建立時(shí),每個(gè)數(shù)據(jù)塊都產(chǎn)生校驗(yàn)和,校驗(yàn)和保存在.meta文件內(nèi);客戶端獲取數(shù)據(jù)時(shí)可以檢查校驗(yàn)和是否相同,從而發(fā)現(xiàn)數(shù)據(jù)塊是否損壞;如果正在
的數(shù)據(jù)塊損壞,則可以繼續(xù)
其它副本。校驗(yàn)和HDFS可靠性刪除文件時(shí),文件放入回收站/trash,回收站里的文件可以快速恢復(fù);通過(guò)設(shè)置一個(gè)時(shí)間閾值,當(dāng)回收站里文件的存放時(shí)間超過(guò)返個(gè)閾值,就被徹底刪除,幵且
占用的數(shù)據(jù)塊?;厥照?trashfiles超過(guò)周期HDFS可靠性數(shù)據(jù),可以配置為擁有多個(gè)映像文件和事務(wù)日志是Namenode的副本;副本會(huì)降低Namenode的處理速度,但增加安全性。元數(shù)據(jù)保護(hù)HDFS可靠性支持
某個(gè)時(shí)間點(diǎn)的映像,需要時(shí)可以使數(shù)據(jù)重迒返個(gè)時(shí)間點(diǎn)的狀態(tài);快照機(jī)制2HDFS原理和體系架構(gòu)4HDFS新功能和特性5HDFS實(shí)驗(yàn)1HDFS簡(jiǎn)介3HDFS
HA和HDFSFederationHDFS1.0組件及其功能名稱節(jié)點(diǎn)保存元數(shù)據(jù):1在磁盤(pán)上:FsImage和EditLog在哪2在內(nèi)存中:
信息,即文件包含哪些塊,每個(gè)塊個(gè)數(shù)據(jù)節(jié)點(diǎn)HDFS
HAHDFS
HA(High
Availability)是為了解決單點(diǎn)故障問(wèn)題HA集群設(shè)置兩個(gè)名稱節(jié)點(diǎn),“活躍(Active)”和“待命(Standby)”兩種名稱節(jié)點(diǎn)的狀態(tài)同步,可以借助于一個(gè)共享
系統(tǒng)來(lái)實(shí)現(xiàn)一旦活躍名稱節(jié)點(diǎn)出現(xiàn)故障,就可以立即切換到待命名稱節(jié)點(diǎn)Zookeeper確保一個(gè)名稱節(jié)點(diǎn)在對(duì)外服務(wù)名稱節(jié)點(diǎn)
信息,數(shù)據(jù)節(jié)點(diǎn)同時(shí)向兩個(gè)名稱節(jié)點(diǎn)匯報(bào)信息Zookeeper故障恢復(fù)控制器(活躍)故障恢復(fù)控制器(待命)名稱節(jié)點(diǎn)(活躍)名稱節(jié)點(diǎn)(待命)心跳心跳名稱節(jié)點(diǎn)健康狀態(tài)名稱節(jié)點(diǎn)健康狀態(tài)命令共享
系統(tǒng)(
NFS、QJM或Zookeeper)數(shù)據(jù)節(jié)點(diǎn)...向名稱節(jié)點(diǎn)匯報(bào)自己保存的塊信息ZookeeperZookeeper數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)向名稱節(jié)點(diǎn)匯報(bào)自己保存的塊信息命令...圖HDFS
HA架構(gòu)HDFS
HAHDFS
FederationHDFS
HA解決單點(diǎn)故障問(wèn)題不可以水平擴(kuò)展(是否可以通過(guò)縱向擴(kuò)展來(lái)解決?)系統(tǒng)整體性能受限于單個(gè)名稱節(jié)點(diǎn)的吞吐量單個(gè)名稱節(jié)點(diǎn)難以提供不同程序之間的
性HDFS
HA是熱備份,提供高可用性,但是無(wú)法解決可擴(kuò)展性、系統(tǒng)性能和性HDFS
Federation的設(shè)計(jì)在HDFS
Federation中,設(shè)計(jì)了多個(gè)相互獨(dú)立的名稱節(jié)點(diǎn),使得HDFS
名服務(wù)能夠水平擴(kuò)展,這些名稱節(jié)點(diǎn)分別進(jìn)行各自命名空間和塊的管理,相互之間是(Federation)關(guān)系,不需要彼此協(xié)調(diào)。并且向后兼容塊池1名稱節(jié)點(diǎn)1命名空間1塊池k塊池n數(shù)據(jù)節(jié)點(diǎn)1數(shù)據(jù)節(jié)點(diǎn)m數(shù)據(jù)節(jié)點(diǎn)2
...公共圖HDFS
Federation架構(gòu)......名稱節(jié)點(diǎn)k命名空間k名稱節(jié)點(diǎn)n命名空間nHDFS
Federation中,所有名稱節(jié)點(diǎn)會(huì)共享底層的數(shù)據(jù)節(jié)點(diǎn)
資源,數(shù)據(jù)節(jié)點(diǎn)向所有名稱節(jié)點(diǎn)匯報(bào)屬于同一個(gè)命名空間的塊構(gòu)成一個(gè)“塊池”HDFS
Federation對(duì)于Federation中的多個(gè)命名空間,可以采用客戶端掛載表(Client
SideMount
Table)方式進(jìn)行數(shù)據(jù)共享和客戶可以
不同的掛載點(diǎn)來(lái)
不同的子命名空間把各個(gè)命名空間掛載到全局“掛載表”(mount-table)中,實(shí)現(xiàn)數(shù)據(jù)全局共享同樣 名空間掛載到個(gè)人的掛載表中,就成為應(yīng)用程序可見(jiàn) 名空間/
Client-sideMount-tabledataprojecthometmp名稱節(jié)點(diǎn)1名空間名稱節(jié)點(diǎn)2維護(hù)
名空間圖
客戶端掛載表方式多個(gè)命名空間每個(gè)陰影三角形代表一個(gè)獨(dú)立的命名空間HDFS
FederationHDFS
Federation設(shè)計(jì)可解決單名稱節(jié)點(diǎn)存在的以下幾個(gè)問(wèn)題:1HDFS集群擴(kuò)展性。多個(gè)名稱節(jié)點(diǎn)各自分管一部分
,使得一個(gè)集群可以擴(kuò)展到
節(jié)點(diǎn),不再像HDFS1.0中那樣由于內(nèi)存的限制制約文件
數(shù)目2性能更高效。多個(gè)名稱節(jié)點(diǎn)管理不同的數(shù)據(jù),且同時(shí)對(duì)外提供服務(wù),將為用戶提供更高的讀寫(xiě)吞吐率3良好的
性。用戶可根據(jù)需要將不同業(yè)務(wù)數(shù)據(jù)交由不同名稱節(jié)點(diǎn)管理,這樣不同業(yè)務(wù)之間影響很小需要注意的,HDFSFederation并不能解決單點(diǎn)故障問(wèn)題,也就是說(shuō),每個(gè)名稱節(jié)點(diǎn)都存在在單點(diǎn)故障問(wèn)題,需要為每個(gè)名稱節(jié)點(diǎn)部署一個(gè)后備名稱節(jié)點(diǎn),以應(yīng)對(duì)名稱節(jié)點(diǎn)掛掉對(duì)業(yè)務(wù)產(chǎn)生的影響2HDFS原理和體系架構(gòu)4HDFS新功能和特性5HDFS實(shí)驗(yàn)1HDFS簡(jiǎn)介3HDFS
HA和HDFSFederationHDFS新功能和特性支持HDFS中的擦除編碼Erasure
EncodingErasure
coding糾刪碼技術(shù)簡(jiǎn)稱EC
通過(guò)在原始數(shù)據(jù)中加入新的校驗(yàn)數(shù)據(jù),使得各個(gè)部分的數(shù)據(jù)產(chǎn)生關(guān)聯(lián)性.在一定范圍的數(shù)據(jù)出錯(cuò)情況下,通過(guò)糾刪碼技術(shù)都可以迕行恢復(fù).EC技術(shù)可以防止數(shù)據(jù)丟失,又可以解決HDFS空間翻倍的問(wèn)題創(chuàng)建文件時(shí),將從最近的祖先
繼承EC策略,以確定其塊如何 。不3路 相比,默認(rèn)的EC策略可以節(jié)省50%的空間,同時(shí)迓可以承受
的
故障?;贖DFS路由器的聯(lián)合HDFS基于路由器的 添加一個(gè)RPC路由層,提供多個(gè)HDFS命名空間的聯(lián)合視圖。簡(jiǎn)化了對(duì)現(xiàn)有HDFS客戶端的聯(lián)合集群的
。HDFS新功能和特性支持多個(gè)NameNode允許用戶運(yùn)行多個(gè)備用NameNode。一個(gè)NameNode是Active,其它為StandbyStandby
NN會(huì)丌斷不JN同步,保證自己獲取
的editlog,幵將edits同步到自己 的image中去,返樣便可以實(shí)現(xiàn)熱備,在發(fā)生failover的時(shí)候,立馬切換成active狀態(tài),對(duì)外提供服務(wù)。JN只允許一個(gè)active狀態(tài)的NN寫(xiě)入HDFS新功能和特性DataNode添加了負(fù)載均衡 DiskBalancer支持單個(gè)Datanode上,丌同硬盤(pán)間的數(shù)據(jù)balancer可以通過(guò)hdfs
diskbalancer命令,迕行節(jié)點(diǎn)
硬盤(pán)間的數(shù)據(jù)平衡該功能默認(rèn)是關(guān)閉的,需要手勱設(shè)置參數(shù)dfs.disk.balancer.enabled為true來(lái)開(kāi)啟HDFS新功能和特性2HDFS原理和體系架構(gòu)4HDFS新功能和特性5HDFS實(shí)驗(yàn)1HDFS簡(jiǎn)介3HDFS
HA和HDFSFede
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 班級(jí)突發(fā)事件管理
- 跌倒墜床的管理
- 對(duì)實(shí)驗(yàn)室管理工作的認(rèn)識(shí)與思考課件
- 酒店管理系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)
- 飛機(jī)電源系統(tǒng)管理試題及答案
- 探究安培力課件:電流在磁場(chǎng)中的受力分析
- 心理健康教育課件《積極面對(duì)挑戰(zhàn)》
- 攝影技巧與后期制作培訓(xùn)課件
- 碩士外語(yǔ)學(xué)習(xí)效果考核試題及答案
- 2025年電容器用鈮粉鈮絲項(xiàng)目合作計(jì)劃書(shū)
- 醫(yī)療大數(shù)據(jù)可視化技術(shù)-第1篇-洞察分析
- 公園安全網(wǎng)格化管理制度
- 《中國(guó)傳統(tǒng)文化儒家》課件
- 大語(yǔ)言模型基礎(chǔ)微課版課件 第7、8章 提示工程與微調(diào)、強(qiáng)化學(xué)習(xí)方法
- 量子計(jì)算技術(shù)趨勢(shì)
- 不占股份分紅協(xié)議
- 2024年度研發(fā)合作協(xié)議(生物醫(yī)藥領(lǐng)域)
- DB15T+501-2024住宅室內(nèi)空氣溫度測(cè)量方法
- JJF 2158-2024 熱量表型式評(píng)價(jià)大綱
- 中醫(yī)五音療法及其作用機(jī)制探析
- 守護(hù)美好家園防災(zāi)減災(zāi)主題班會(huì)課件
評(píng)論
0/150
提交評(píng)論