




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一章 云計(jì)算與大數(shù)據(jù)基礎(chǔ)1.在信息產(chǎn)業(yè)的發(fā)展歷程中。硬件驅(qū)動(dòng)力,網(wǎng)絡(luò)驅(qū)動(dòng)力,作為兩個(gè)重要的內(nèi)在動(dòng)力在不同的時(shí)期起著重要的作用25西摩 克雷超級(jí)計(jì)算機(jī)之父約翰 麥克錫云計(jì)算之父蒂姆 伯納斯 李萬(wàn)維網(wǎng)發(fā)明人 第一個(gè)網(wǎng)頁(yè)開發(fā)者吉姆 格雷大數(shù)據(jù)之父6 MapReduce思想來(lái)源LISP語(yǔ)言7.按照資源封裝層次,云計(jì)算分為 Iaas paas saas三種8.10. 教材P8 1.2.211. 教材P第二章 云計(jì)算與大數(shù)據(jù)相關(guān)技術(shù)1.一致性hash算法原理:哈希算法是一種從稀疏值到緊密值范圍的映射方法,在存儲(chǔ)和計(jì)算定位時(shí)可以被看做是一種路由算法。通過(guò)這種路與哦算法文件塊能被唯一的定位到一個(gè)節(jié)點(diǎn)的位置。
2、傳統(tǒng)的hash算法容錯(cuò)性和擴(kuò)展性都不好,無(wú)法有效的適應(yīng)面向數(shù)據(jù)系統(tǒng)節(jié)點(diǎn)的動(dòng)態(tài)變化。意思就是當(dāng)集群需要增加節(jié)點(diǎn),傳統(tǒng)的hash算法不容易檢測(cè)到新增加的節(jié)點(diǎn),此為擴(kuò)展性不好,而一致性hash算法增加一個(gè)節(jié)點(diǎn)只會(huì)影響增加的這個(gè)節(jié)點(diǎn)到前一個(gè)節(jié)點(diǎn)之間的數(shù)據(jù)。容錯(cuò)性就是如果不幸一個(gè)機(jī)器C宕機(jī)了,那么機(jī)器B和C之間的數(shù)據(jù)都會(huì)被D執(zhí)行,那么受影響的數(shù)據(jù)只是機(jī)器B和C之間的數(shù)據(jù)。當(dāng)然,容錯(cuò)性和擴(kuò)展性對(duì)于節(jié)點(diǎn)數(shù)較多的集群是比較有意義的,對(duì)于節(jié)點(diǎn)較少的集群似乎這兩個(gè)特性并沒(méi)有什么誘惑力。一致性hash的實(shí)際目的就是解決節(jié)點(diǎn)頻繁變化時(shí)的任務(wù)分配問(wèn)題,一致性hash將整個(gè)hash值空間組織成一個(gè)虛擬圓環(huán),我們這里假設(shè)某
3、hash函數(shù)H值空間為0(232-1),即32位無(wú)符號(hào)整形。下面簡(jiǎn)述一下一致性hash的原理:這是一致性hash的整個(gè)值空間0(232-1)下一步將各個(gè)服務(wù)器使用Hash進(jìn)行一個(gè)哈希,具體可以選擇服務(wù)器的ip或主機(jī)名作為關(guān)鍵字進(jìn)行哈希,這樣每臺(tái)機(jī)器就能確定其在哈希環(huán)上的位置,假設(shè)使用四臺(tái)機(jī)器進(jìn)行hash:將數(shù)據(jù)key使用相同的函數(shù)Hash計(jì)算出哈希值,并確定此數(shù)據(jù)在環(huán)上的位置,從此位置沿環(huán)順時(shí)針“行走”,第一臺(tái)遇到的服務(wù)器就是其應(yīng)該定位到的服務(wù)器。例如我們有Object A、Object B、Object C、Object D四個(gè)數(shù)據(jù)對(duì)象,經(jīng)過(guò)哈希計(jì)算后,在環(huán)空間上的位置如下:根據(jù)一致性哈希算
4、法,數(shù)據(jù)A會(huì)被定為到Node A上,B被定為到Node B上,C被定為到Node C上,D被定為到Node D上下面我們看看當(dāng)集群機(jī)器比較少的情況例如系統(tǒng)中只有兩臺(tái)服務(wù)器,其環(huán)分布如下,此時(shí)必然造成大量數(shù)據(jù)集中到Node A上,而只有極少量會(huì)定位到Node B上。為了解決這種數(shù)據(jù)傾斜問(wèn)題,一致性哈希算法引入了虛擬節(jié)點(diǎn)機(jī)制,即對(duì)每一個(gè)服務(wù)節(jié)點(diǎn)計(jì)算多個(gè)哈希,每個(gè)計(jì)算結(jié)果位置都放置一個(gè)此服務(wù)節(jié)點(diǎn),稱為虛擬節(jié)點(diǎn)。具體做法可以在服務(wù)器ip或主機(jī)名的后面增加編號(hào)來(lái)實(shí)現(xiàn)。例如上面的情況,可以為每臺(tái)服務(wù)器計(jì)算三個(gè)虛擬節(jié)點(diǎn),于是可以分別計(jì)算 “Node A#1”、“Node A#2”、“Node A#3”、“N
5、ode B#1”、“Node B#2”、“Node B#3”的哈希值,于是形成六個(gè)虛擬節(jié)點(diǎn):同時(shí)數(shù)據(jù)定位算法不變,只是多了一步虛擬節(jié)點(diǎn)到實(shí)際節(jié)點(diǎn)的映射,例如定位到“Node A#1”、“Node A#2”、“Node A#3”三個(gè)虛擬節(jié)點(diǎn)的數(shù)據(jù)均定位到Node A上。這樣就解決了服務(wù)節(jié)點(diǎn)少時(shí)數(shù)據(jù)傾斜的問(wèn)題。在實(shí)際應(yīng)用中,通常將虛擬節(jié)點(diǎn)數(shù)設(shè)置為32甚至更大,因此即使很少的服務(wù)節(jié)點(diǎn)也能做到相對(duì)均勻的數(shù)據(jù)分布。2.科學(xué)研究的四個(gè)范式:觀測(cè)實(shí)驗(yàn)、理論、計(jì)算仿真、數(shù)據(jù)3.物聯(lián)網(wǎng)產(chǎn)業(yè)鏈分為:標(biāo)識(shí),感知,處理,信息傳送4.非關(guān)系型數(shù)據(jù)庫(kù)分為:(1) Column-Oriented面向檢索的列式存儲(chǔ),其存儲(chǔ)結(jié)
6、構(gòu)為列式結(jié)構(gòu) 如:Google的big table,apache的hbase(2) Key-Value面向高性能的并發(fā)讀/寫的緩存存儲(chǔ),結(jié)構(gòu)類似于Hash表(hash算法真的要好好學(xué),用的地方太多了,性能的確也是最高的),每個(gè)key分別對(duì)應(yīng)一個(gè)value,這種數(shù)據(jù)庫(kù)適合用來(lái)作為緩存系統(tǒng)使用,比如:MemcacheDB,Berkeley DB,redis,flare(3) Document-Oriented面向海量數(shù)據(jù)訪問(wèn)的文檔存儲(chǔ),這類存儲(chǔ)類似key-value形式,只是value主要以JSON或者XML等格式進(jìn)行存儲(chǔ),比如:mongoDB,CouchDB第三章 虛擬化技術(shù)1.Popek和Go
7、ldberg 指出:虛擬機(jī)具有 同一性,高效性,可控性2.虛擬化技術(shù)從計(jì)算機(jī)體系結(jié)構(gòu)層次上可分為以下5類: 指令集架構(gòu)級(jí)虛擬化,硬件抽象層虛擬化,操作系統(tǒng)層虛擬化,編程語(yǔ)言上的虛擬化,庫(kù)函數(shù)虛擬化3.常用的虛擬化軟件系統(tǒng)有 VirtualBox ,VMware Workstation ,KVM4.系統(tǒng)虛擬化具有 硬件無(wú)關(guān)性,隔離性,多實(shí)例,特權(quán)功能等優(yōu)點(diǎn)。5.系統(tǒng)虛擬化可分為 服務(wù)器虛擬化 桌面虛擬化 網(wǎng)絡(luò)虛擬化6.服務(wù)器虛擬化按照虛擬化的部分可分為 CPU虛擬化,內(nèi)存虛擬化,I/O虛擬化7.什么是廣義虛擬化技術(shù):答:虛擬化技術(shù)是一種邏輯簡(jiǎn)化技術(shù),實(shí)現(xiàn)物理層向邏輯層的變化,對(duì)物理層運(yùn)動(dòng)復(fù)雜性的
8、屏蔽,是系統(tǒng)對(duì)外運(yùn)動(dòng)呈現(xiàn)出簡(jiǎn)單的邏輯運(yùn)行狀態(tài)8虛擬化技術(shù)有哪些優(yōu)勢(shì)劣勢(shì)??jī)?yōu)勢(shì):1.虛擬化技術(shù)可提高資源利用率2.提供相互隔離,高效的應(yīng)用執(zhí)行環(huán)境3.虛擬化可以簡(jiǎn)化資源和資源管理4.虛擬化實(shí)現(xiàn)軟件和硬件的分離劣勢(shì) 1.可能會(huì)使物理計(jì)算機(jī)負(fù)載過(guò)重2.升級(jí)和維護(hù)引起的安全問(wèn)題3.物理計(jì)算機(jī)的影響第四章 集群系統(tǒng)基礎(chǔ)1.云計(jì)算領(lǐng)域存在兩個(gè)主要技術(shù)路線,一個(gè)是基于集群技術(shù)的云計(jì)算資源整合技術(shù),一個(gè)是基于虛擬機(jī)的云計(jì)算資源切分技術(shù)2.集群的設(shè)計(jì)要考慮5個(gè)關(guān)鍵的問(wèn)題是 可用性 單一系統(tǒng)映像 作業(yè)管理 并行文件系統(tǒng) 高效通信3.傳統(tǒng)的集群系統(tǒng)可以分為 高可用性 系統(tǒng)負(fù)載均衡 高性能 虛擬化 4類。4簡(jiǎn)述Beo
9、wulf系統(tǒng)的主要特點(diǎn)答:1 Beowulf系統(tǒng)通常由一個(gè)管理節(jié)點(diǎn)和多個(gè)計(jì)算節(jié)點(diǎn)構(gòu)成2 Beowulf 系統(tǒng)通常用最常見的硬件設(shè)備組成3 Beowulf 系統(tǒng)同城采用哪些廉價(jià)且廣為傳播的軟件5 Lustre存儲(chǔ)系統(tǒng)的組成有 MDS, MDT, OSS, OST, Client6.簡(jiǎn)述面向計(jì)算分布式系統(tǒng),混合分布式系統(tǒng),面向數(shù)據(jù)的分布式系統(tǒng)的實(shí)現(xiàn)機(jī)制,分析三種系統(tǒng)的區(qū)別.分析區(qū)別:P64 表4.2 3中分布式系統(tǒng)的對(duì)比第五章 MPI-面向計(jì)算的高性能集群技術(shù)1,什么是MPIMPI(Message Passing Interface)消息傳遞接口。它本身不是一個(gè)具體的實(shí)現(xiàn),而只是一種標(biāo)準(zhǔn)描述。2,
10、MPI支持 FORTRAN77 、C 、Fortran90 、 C+ 等語(yǔ)言的調(diào)用,能滿足大多數(shù)科學(xué)計(jì)算的應(yīng)用需要。3,簡(jiǎn)述MPICH并行環(huán)境建立的主要步驟。(1).配置好NFS服務(wù),實(shí)現(xiàn)所有節(jié)點(diǎn)對(duì)主節(jié)點(diǎn)指定文件夾的共享,該文件夾為MPICH的安裝位置,數(shù)據(jù)和程序的存儲(chǔ)位置,這樣就可以避免在每個(gè)節(jié)點(diǎn)安裝MPICH,啟動(dòng)計(jì)算時(shí)也可以避免每次向各個(gè)節(jié)點(diǎn)分發(fā)程序。(2).配置好各個(gè)節(jié)點(diǎn)間的互信,這一步就是實(shí)現(xiàn)集群內(nèi)部個(gè)節(jié)點(diǎn)間無(wú)密碼訪問(wèn),因?yàn)镸PICH在計(jì)算時(shí)需要在各節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交換,集群內(nèi)的節(jié)點(diǎn)應(yīng)用相互信任的節(jié)點(diǎn)。(3).編譯安裝配置MPICH。4.動(dòng)手配置MPI節(jié)點(diǎn)間的ssh無(wú)密碼訪問(wèn)。(1)生成
11、私鑰id_dsa和公鑰id_dsa.pub(2)將該密鑰用作認(rèn)證,進(jìn)行訪問(wèn)授權(quán)。(3)將/.ssh目錄下的文件復(fù)制到所有節(jié)點(diǎn)。(4)檢查是否可以直接(不需要密碼)登錄其他節(jié)點(diǎn)。5,簡(jiǎn)述基于蒙特卡羅思想求值的編程方法,并編寫用MPI程序。蒙特卡羅方法,又稱為隨機(jī)抽樣或統(tǒng)計(jì)試驗(yàn)方法。代碼在 Page 83 -84第六章 Hadoop-分布式大數(shù)據(jù)系統(tǒng)1.谷歌三寶:mapreduce,bigtable,gfs2.gfs的工作過(guò)程: p933.HDFS分塊策略: p95第七章 HPCC-面向數(shù)據(jù)的高性能計(jì)算集群系統(tǒng)1,簡(jiǎn)述HPCC的主要特點(diǎn)。(1) 強(qiáng)大靈活的ECL語(yǔ)言,顯著提升了程序員編程的效率。(
12、2) HPCC系統(tǒng)提供的Roxie集群提供了高效的在線查詢和分析服務(wù)。(3) ECL程序首先編譯為優(yōu)化的C+,高速性能得到保證。(4) 高效的錯(cuò)誤恢復(fù)和冗余備份機(jī)制。(5) 穩(wěn)定和可靠的系統(tǒng)。(6) 相對(duì)于其他平臺(tái),在較低的系統(tǒng)消耗上實(shí)現(xiàn)了更高的性能。2,高性能計(jì)算目前可以分為兩類:一類是面向 計(jì)算 的高性能計(jì)算,另一類是面向 數(shù)據(jù) 的高性能計(jì)算。3,數(shù)據(jù)密集型集群計(jì)算系統(tǒng)主要有 Hadoop HPCC Storm Apache Drill Rapid Miner Pentaho4,HPCC系統(tǒng)從總體物理上可以看作在同一個(gè)集群上部署了 Thor(數(shù)據(jù)加工處理平臺(tái)) 、 Roxie(數(shù)據(jù)查詢、分析和數(shù)據(jù)倉(cāng)庫(kù)) 兩套集群計(jì)算系統(tǒng)。5,HPCC的系統(tǒng)服務(wù)器包含 ECL服務(wù)器 、 Dali服務(wù)器 、 Sasha服務(wù)器 、 DFU服務(wù)器 、 ESP服務(wù)器 6,簡(jiǎn)述HPCC平臺(tái)數(shù)據(jù)檢索任務(wù)的執(zhí)行過(guò)程。(1) 加載原始數(shù)據(jù)(2) 切分、分發(fā)待處理的數(shù)據(jù)(3) 分發(fā)后原始數(shù)據(jù)的ETL處理(4) 向Roxie集群發(fā)布Page 117-1187,熟悉HPCC網(wǎng)頁(yè)化管理界面ECLWatch。Page
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 十二指腸潰瘍的臨床護(hù)理
- 某年春開學(xué)典禮教師代表發(fā)言稿模版
- 管理與員工的關(guān)系構(gòu)建策略
- 《血液制品安全管理》課件
- 《腦水腫的護(hù)理與治療》課件
- 2025年供氣合同樣本模板
- 2025深圳短期工勞動(dòng)合同
- 保險(xiǎn)業(yè)務(wù)員2025年上半年工作總結(jié)模版
- 人教版分?jǐn)?shù)的大小比較
- 《青少年心理健康指導(dǎo)》課件
- 破產(chǎn)法試題及答案
- 憲法衛(wèi)士2023第八屆全國(guó)學(xué)生學(xué)憲法講憲法知識(shí)競(jìng)賽題庫(kù)附答案(300題)
- 靜脈輸液不良反應(yīng)及處理 課件
- 河南省開封市等2地2025屆高三第三次質(zhì)量檢測(cè)英語(yǔ)+答案
- 北師大版2025三年級(jí)語(yǔ)文下學(xué)期期中課堂知識(shí)檢測(cè)考試
- 2024年甘肅蘭州事業(yè)單位招聘考試真題答案解析
- 寧波浙大寧波理工學(xué)院招聘13名事業(yè)編制工作人員筆試歷年參考題庫(kù)附帶答案詳解
- MOOC 頸肩腰腿痛中醫(yī)防治-暨南大學(xué) 中國(guó)大學(xué)慕課答案
- 維修手冊(cè)震旦218現(xiàn)場(chǎng)
- 畫法幾何與陰影透視復(fù)習(xí)題(DOC)
- 螺旋密封的設(shè)計(jì)及在流體機(jī)械中的應(yīng)用
評(píng)論
0/150
提交評(píng)論