字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第1頁
字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第2頁
字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第3頁
字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第4頁
字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄CONTENT 2.GPU架構(gòu)和互聯(lián)方案 2 3.下一代Scale-up互聯(lián)方案 8 8 4.EthLink網(wǎng)絡(luò)方案 101隨著機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域的持續(xù)發(fā)展,AI模型對力的需求也在不斷提升。AI應(yīng)用需要GPU集群處理更大的數(shù)據(jù)集,訓(xùn)的神經(jīng)網(wǎng)絡(luò)和處理更多的并發(fā)任務(wù),同時(shí)還要減少任務(wù)執(zhí)行時(shí)間以及提高整體效率。這需要GPU集群的Sc以太網(wǎng)技術(shù)應(yīng)用在GPU集群互聯(lián)架構(gòu)具有諸多優(yōu)勢鏈路,大容量交換機(jī),成熟的生態(tài)系統(tǒng)等。目前,多個(gè)行業(yè)組織正在202GPU架構(gòu)和互聯(lián)方案2.1GPU架構(gòu)分析3輸,如下圖所示,兩個(gè)模塊可以并行工作形成流水線,數(shù)據(jù)傳實(shí)際的GPU架構(gòu)要比上述的GPU架構(gòu)模型更加復(fù)雜,GPGPU(4為了優(yōu)化GPU數(shù)據(jù)傳輸方案,降低計(jì)算引擎用于數(shù)據(jù)傳輸5GPU在增加了TMA模塊之后,不再需要計(jì)算描述符下發(fā)給TMA模塊,TMA模塊自行計(jì)算數(shù)據(jù)的內(nèi)存地址信息,獨(dú)立2.2GPU互聯(lián)方案AI集群的訓(xùn)練和推理任務(wù),通常需要多個(gè)GPU協(xié)同完成,計(jì)算引擎67803Scale-Up互3.1需求分析信息和內(nèi)存中位置不連續(xù)的數(shù)據(jù),以及用于對時(shí)延要求較高的AI推理場景。為9通常會通過優(yōu)化算法實(shí)現(xiàn)數(shù)據(jù)計(jì)算和數(shù)據(jù)傳輸?shù)慕化B,降低對數(shù)據(jù)傳RDMA協(xié)議提供的是一套軟硬件交互接口,交互操作復(fù)雜而且效率代價(jià)越來越大。由于AI集群的通信存在明顯的周期規(guī)律,GPU之間沒有繼續(xù)通過網(wǎng)絡(luò)硬件來保證CacheCoherency,可以由系統(tǒng)軟件保證Cache7)由于單個(gè)協(xié)議棧的數(shù)據(jù)處理帶寬有限,GPU通常會部署多個(gè)Scale-up協(xié)議棧實(shí)現(xiàn)超大網(wǎng)絡(luò)帶寬。在這種多協(xié)議棧的網(wǎng)絡(luò)架構(gòu)中,需要保證多個(gè)協(xié)議棧之間,以及在同一個(gè)協(xié)議棧的多個(gè)端口之間盡3.2網(wǎng)絡(luò)方案件不再需要保證CacheCoherency,根據(jù)描述符的指令類型,完成遠(yuǎn)端的Globalme04EthLink迭代緩慢,帶寬落后以太網(wǎng)2-3代。4.1EthLink協(xié)議棧步分為上層GPU操作和Scale-up事務(wù)層。GPU操作是由GPU發(fā)起的Scale-的上層應(yīng)用可以根據(jù)實(shí)際的應(yīng)用場景靈活的選擇傳輸語義。Sc4.1.1GPU操作原子操作4.1.2Scale-up事務(wù)層Transaction類型完成內(nèi)存讀操作完成內(nèi)存寫操作/寫消息,用來傳遞控制信息原子操作4.1.2.1Load4.1.2.2Store4.1.2.3RDMAWrite4.1.2.4RDMAWritewithImmediate4.1.2.5RDMARead4.1.3CacheCoherency3)系統(tǒng)軟件在必要的時(shí)候清除Cache,4.2網(wǎng)絡(luò)拓?fù)?.2.1端口負(fù)載均衡4.3網(wǎng)絡(luò)接口4.3.1報(bào)文封裝操作。本小節(jié)中為了體現(xiàn)上層GPU操作的不同,),4.3.2FEC4.3.3鏈路層可靠傳輸當(dāng)Scale-up從機(jī)內(nèi)短距離點(diǎn)對點(diǎn)互聯(lián)拓展交換機(jī)轉(zhuǎn)發(fā)時(shí),網(wǎng)絡(luò)的丟包概率顯著升高,而檢測丟包、丟包重傳給4.3.3.1LinkLevelRetry(LLR)鏈路的發(fā)送端先緩存報(bào)文,如果發(fā)生報(bào)文丟包,則發(fā)起重傳,直到FEC成為可能。另外,也降低了鏈路質(zhì)量的要求,如果存在光互4.3.3.2CreditBasedFlowControl(CBFC)更細(xì)粒度的控制,可與VC綁定來使用,同時(shí)4.3.4SwitchEventNotificationScale-up考慮更低延遲,通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論