




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 Infiniband架構(gòu)和技術(shù)實(shí)戰(zhàn)(第二版) Infiniband架構(gòu)和技術(shù)實(shí)戰(zhàn)(第二版)已經(jīng)更新完成,主要更新內(nèi)容包括InfiniBand架構(gòu)、安裝、Socket Direct技術(shù)等,購買過InfiniBand架構(gòu)和技術(shù)實(shí)戰(zhàn)或架構(gòu)師技術(shù)資料全店打包(全)的讀者,可通過在微店留言,提供歷史購買記錄免費(fèi)獲取新版本。傳統(tǒng)的TCP/IP協(xié)議的多層次結(jié)構(gòu)使得復(fù)雜的緩沖管理帶來很大的網(wǎng)絡(luò)延遲和操作系統(tǒng)的額外開銷,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)需要一種開放、高帶寬、低延遲、高可靠以及滿足集群無限擴(kuò)展能力的以交換為核心的體系架構(gòu),在這種技術(shù)背景下,InfiniBand(簡(jiǎn)稱IB)應(yīng)運(yùn)而生。根據(jù)IB高帶寬、低延時(shí)
2、、高可靠以及滿足集群無限擴(kuò)展能力的特點(diǎn),IB主要定位于存儲(chǔ)網(wǎng)絡(luò)和計(jì)算網(wǎng)絡(luò)的應(yīng)用。IB使用RDMA(Remote Direct Memory Access遠(yuǎn)程直接內(nèi)存存取)技術(shù),通過一個(gè)虛擬的尋址方案,讓服務(wù)器知道和使用其他服務(wù)器的部分內(nèi)存,無需操作系統(tǒng)的內(nèi)核干預(yù),既直接繼承了總線的高帶寬和低時(shí)延,又降低了CPU的處理負(fù)擔(dān),這對(duì)于像存儲(chǔ)這樣的集群來說很合適。InfiniBand技術(shù)特點(diǎn)相比網(wǎng)絡(luò)協(xié)議(如TCP/IP),IB具有更高的傳輸效率。原因在于許多網(wǎng)絡(luò)協(xié)議具有轉(zhuǎn)發(fā)損失的數(shù)據(jù)包的能力,但是由于要不斷地確認(rèn)與重發(fā),基于這些協(xié)議的通信也會(huì)因此變慢,極大地影響了性能。需要說明的是,TCP協(xié)議是一種被
3、大量使用的傳輸協(xié)議,從冰箱到超級(jí)計(jì)算機(jī)等各種設(shè)備上都可以看到它的身影,但是使用它必須付出高昂的代價(jià):TCP協(xié)議極其復(fù)雜、代碼量巨大并且充滿了各種特例,而且它比較難卸載。與之相比,IB使用基于信任的、流控制的機(jī)制來確保連接的完整性,數(shù)據(jù)包極少丟失。使用IB,除非確認(rèn)接收緩存具備足夠的空間,否則不會(huì)傳送數(shù)據(jù)。接受方在數(shù)據(jù)傳輸完畢之后,返回信號(hào)來標(biāo)識(shí)緩存空間的可用性。通過這種辦法,IB消除了由于原數(shù)據(jù)包丟失而帶來的重發(fā)延遲,從而提升了效率和整體性能。InfiniBand體系架構(gòu)InfiniBand是一種網(wǎng)絡(luò)通信協(xié)議,能為網(wǎng)絡(luò)中的計(jì)算、存儲(chǔ)等節(jié)點(diǎn)間提供高帶寬、低時(shí)延的可靠傳輸。InfiniBand與傳
4、統(tǒng)的TCP/IP網(wǎng)絡(luò)最大的區(qū)別就在于前者以進(jìn)行通信的應(yīng)用為中心,而后者以網(wǎng)絡(luò)中的設(shè)備節(jié)點(diǎn)為中心。這一點(diǎn)是通過RDMA技術(shù)實(shí)現(xiàn)的。數(shù)據(jù)的傳輸任務(wù)直接交給InfiniBand設(shè)備完成,無需經(jīng)過網(wǎng)絡(luò)節(jié)點(diǎn)操作系統(tǒng)的轉(zhuǎn)發(fā)(Kernel Bypass)。這一方面提升了數(shù)據(jù)的傳輸效率,另一方面提高了CPU的利用率CPU (offload)。InfiniBand也是一個(gè)分層協(xié)議,覆蓋了OSI網(wǎng)絡(luò)模型的14層。1、物理層(Physical Layer)InfiniBand使用串行數(shù)據(jù)流進(jìn)行數(shù)據(jù)傳輸,但目前實(shí)際的IB設(shè)備中通常包括4條鏈路,其傳輸速率為:2、鏈路層(Link Layer)InfiniBand鏈路層
5、使用Credit Based Flow Control,即發(fā)送數(shù)據(jù)包之前,發(fā)送方和接收方需要協(xié)商數(shù)據(jù)量credit,接收方保證有足夠的Buffer,之后傳輸才能進(jìn)行。InfiniBand鏈路層支持QoS,通過VL(Virtual Lanes)實(shí)現(xiàn)。每條物理鏈路最多支持15條標(biāo)準(zhǔn)VL(VL0-14)和1條管理VL(VL15),VL15只用來傳輸管理包,如上文提到的credit協(xié)商。通過SL(Server Level)可以定義VL的優(yōu)先級(jí),從而實(shí)現(xiàn)QoS。3、網(wǎng)絡(luò)層(Network Layer)InfiniBand網(wǎng)絡(luò)層處理跨Subnet的數(shù)據(jù)傳輸,通過在Global Route Header(G
6、RH)中保存的128位IPv6地址識(shí)別。4、傳輸層(Transport Layer)傳輸層負(fù)責(zé)報(bào)文的分發(fā)、通道多路復(fù)用、基本傳輸服務(wù)和處理報(bào)文分段的發(fā)送、接收和重組。傳輸層的功能是將數(shù)據(jù)包傳送到各個(gè)指定的隊(duì)列(QP)中,并指示隊(duì)列如何處理該數(shù)據(jù)包。當(dāng)消息的數(shù)據(jù)路徑負(fù)載大于路徑的最大傳輸單元(MTU)時(shí),傳輸層負(fù)責(zé)將消息分割成多個(gè)數(shù)據(jù)包。負(fù)責(zé)分發(fā)報(bào)文到期望的目的端,并負(fù)責(zé)對(duì)超過MTU的報(bào)文進(jìn)行分段和重組;主要負(fù)責(zé)報(bào)文的分發(fā)、通道多路復(fù)用和基本傳輸服務(wù),此外還負(fù)責(zé)處理報(bào)文分段的發(fā)送、接收和重組。Infiniband Fabric架構(gòu)和工作原理IB標(biāo)準(zhǔn)定義了一套用于系統(tǒng)通信的多種設(shè)備,包括通道適配器
7、(Channel Adapter)、交換機(jī)(Switch)和路由器(Router)。其原因在于IB是以通道Channel為基礎(chǔ)的雙向、串行式傳輸,在連接拓樸中是采用交換、切換式結(jié)構(gòu)(Switched Fabric)。所以會(huì)有所謂的IBA交換器(Switch),此外在線路不夠長(zhǎng)時(shí)可用IBA中繼器(Repeater)進(jìn)行延伸。而每一個(gè)IBA網(wǎng)絡(luò)稱為子網(wǎng)(Subnet),每個(gè)子網(wǎng)內(nèi)最高可有65536個(gè)節(jié)點(diǎn)(Node),IBA Switch、IBARepeater僅適用于Subnet范疇,若要通跨多個(gè)IBASubnet就需要用到IBA路由器(Router)或IBA網(wǎng)關(guān)器(Gateway)。至于節(jié)點(diǎn)部分
8、,Node想與IBA Subnet接軌必須透過配接器(Adapter),若是CPU、內(nèi)存部分要透過HCA(Host Channel Adapter),若為硬盤、I/O部分則要透過TCA (Target Channel Adapter),之后各部分的銜接稱為聯(lián)機(jī)(Link)。上述種種構(gòu)成了一個(gè)完整的IBA。通道適配器(Channel Adapter)指節(jié)點(diǎn)接入InfiniBand的適配器,可分為Host CA 和 Target CA。用于同其他設(shè)備連接,包括主機(jī)通道適配器(HCA)用于主控NODE,和目標(biāo)通道適配器(TCA)用于外設(shè)NODE,使IO設(shè)備脫離主機(jī)而直接置于網(wǎng)絡(luò)中,通道適配器實(shí)現(xiàn)物理
9、層,鏈路層,網(wǎng)絡(luò)層和傳輸層的功能。通道適配器是IB網(wǎng)絡(luò)接口的一個(gè)重要組成部分,是帶有特定保護(hù)特性的可編程DMA器件,允許本地和遠(yuǎn)端的DMA操作。交換機(jī)(Switch)包括多個(gè)端口,用于連接CA,Router或其它Switch。通過Layer 2 Local Route Header(LRH)中的LID進(jìn)行轉(zhuǎn)發(fā)。是IB結(jié)構(gòu)中的基本組件,負(fù)責(zé)在IB子網(wǎng)里轉(zhuǎn)發(fā)報(bào)文。路由器(Router)也是IB結(jié)構(gòu)中的基本組件,負(fù)責(zé)在不同的IB子網(wǎng)間轉(zhuǎn)發(fā)報(bào)文。Router用于連接不同的Subnet,通過GRH中的IPv6地址進(jìn)行轉(zhuǎn)發(fā)。轉(zhuǎn)發(fā)時(shí)將修改數(shù)據(jù)包中的LID。每個(gè)Subnet都必須有一個(gè)Subnet Manag
10、er來管理,例如分配LID,Subnet Manager通過Subnet Management Agent與InfiniBand設(shè)備進(jìn)行交流。OpenFabrics Enterprise Distribution (OFED) / OpenFabrics Software(OFS)是用于RDMA應(yīng)用程序的開源軟件棧。OFS用于需要高效網(wǎng)絡(luò),存儲(chǔ)連接和并行計(jì)算的商業(yè),研究和科學(xué)環(huán)境。隨著計(jì)算向需要極速,大規(guī)??蓴U(kuò)展性和實(shí)用級(jí)可靠性的應(yīng)用發(fā)展,該軟件為高性能計(jì)算站點(diǎn)和企業(yè)數(shù)據(jù)中心提供了靈活性和投資保護(hù)。OFED包括內(nèi)核態(tài)驅(qū)動(dòng)程序,面向通道的RDMA和發(fā)送/接收操作,操作系統(tǒng)的內(nèi)核旁路,用于并行消息
11、傳遞(MPI)的內(nèi)核態(tài)/用戶態(tài)應(yīng)用程序編程接口(API)和服務(wù),套接字?jǐn)?shù)據(jù)交換(如RDS,SDP),NAS和SAN存儲(chǔ)(例如iSER,NFS-RDMA,SRP)和文件系統(tǒng)/數(shù)據(jù)庫系統(tǒng)。OFED支持的網(wǎng)絡(luò)架構(gòu)包括10G以太網(wǎng)、 iWARP、RoCE(RDMA over Converged Ethernet)和InfiniBand。Mellanox的Socket Direct技術(shù)Mellanox公司針對(duì)當(dāng)前服務(wù)器中普遍應(yīng)用的Dual Socket結(jié)構(gòu)提供Socket Direct的方案。其基本原理如圖所示,將PCIe x16的HCA卡分成2張PCIe x8卡(Main Card和Auxilary
12、Card),并連接到不同Socket上,原本需要通過inter-processor bus的通信可以直接通過HCA卡進(jìn)行,從而減少CPU間的通信,提升系統(tǒng)性能。Mellanox Socket Direct可以把兩張PCIe卡通過一種獨(dú)特網(wǎng)絡(luò)組網(wǎng)形態(tài),實(shí)現(xiàn)把PCIe通道分割在兩張PCIe卡之間網(wǎng)絡(luò)技術(shù)。PCIe適配器卡為多路服務(wù)器帶來的一個(gè)關(guān)鍵好處是消除了多路CPU之間通過內(nèi)部總線進(jìn)行的網(wǎng)絡(luò)流量,從而顯著降低了開銷和延遲。下圖顯示了Mellanox Socket Direct適配器的圖片,該方案不但有效地集成了主板上的單個(gè)網(wǎng)絡(luò)適配器,同時(shí)集成了一個(gè)輔助的PCIe連接卡和連接二者的SAS線纜。So
13、cket Direct如何工作?當(dāng)把兩個(gè)PCIe插槽直接連接到兩個(gè)CPU插槽,并啟用Socket Direct功能時(shí),該方案允許每個(gè)CPU通過其專用的PCIe接口直接訪問網(wǎng)絡(luò)。測(cè)試比較了基于ConnectX 的SocketDirect (安裝在雙路服務(wù)器中)和標(biāo)準(zhǔn)PCIe x16100Gb/s適配器卡的性能(僅連接到一個(gè)CPU)。測(cè)試范圍覆蓋TCP吞吐量、延遲和CPU利用率,以及RDMA基準(zhǔn)測(cè)試。上圖比較了Socket Direct適配器與標(biāo)準(zhǔn)網(wǎng)絡(luò)適配器的平均延遲。該圖顯示,與標(biāo)準(zhǔn)適配器組網(wǎng)相比,使用ocket Direct適配器時(shí),延遲減少了80%。由于CPU傳輸?shù)臄?shù)據(jù)流量套接字都采用了直接路徑來訪問網(wǎng)絡(luò),并且在CPU之間均勻地分布TCP流,所以降低了網(wǎng)絡(luò)時(shí)延。Mellanox Socket
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 社區(qū)環(huán)境衛(wèi)生試題及答案分析
- (小學(xué)語文資料)人教版六年級(jí)上冊(cè)語文期末試題2
- 新興技術(shù)對(duì)醫(yī)療的影響的試題及答案
- 畢加索兒童課件
- 行政信息系統(tǒng)的構(gòu)建與應(yīng)用的試題及答案
- 方差與標(biāo)準(zhǔn)差課件:揭示數(shù)據(jù)的離散程度
- 行政管理與社會(huì)責(zé)任感試題及答案
- 購買動(dòng)機(jī)探討課件
- 科學(xué)備考2025年護(hù)士試題及答案
- 傳統(tǒng)商業(yè)如何借助區(qū)塊鏈技術(shù)實(shí)現(xiàn)升級(jí)
- 2025安徽蚌埠市龍子湖區(qū)產(chǎn)業(yè)發(fā)展有限公司招聘22人筆試參考題庫附帶答案詳解
- 償二代下我國財(cái)險(xiǎn)公司償付能力影響因素的深度剖析與實(shí)證研究
- 【MOOC】理解馬克思-南京大學(xué) 中國大學(xué)慕課MOOC答案
- JGT266-2011 泡沫混凝土標(biāo)準(zhǔn)規(guī)范
- 配電室運(yùn)行維護(hù)投標(biāo)方案(技術(shù)標(biāo))
- 禾川x3系列伺服說明書
- 常用H型鋼理論重量表格
- 中學(xué)自主招生考試物理試題
- 四川大學(xué)-劉龍飛-畢業(yè)答辯PPT模板
- 工作分析試題及答案
- 突發(fā)事件應(yīng)急演練指南
評(píng)論
0/150
提交評(píng)論