字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書

上傳人：策*** IP屬地：山西上傳時(shí)間：2025-05-12 格式：DOCX 頁數(shù)：40 大?。?.72MB 積分：19.9 舉報(bào) 版權(quán)申訴

字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第2頁

字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第3頁

字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第4頁

字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書_第5頁

已閱讀5頁，還剩35頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄CONTENT 2.GPU架構(gòu)和互聯(lián)方案 2 3.下一代Scale-up互聯(lián)方案 8 8 4.EthLink網(wǎng)絡(luò)方案 101隨著機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域的持續(xù)發(fā)展，AI模型對力的需求也在不斷提升。AI應(yīng)用需要GPU集群處理更大的數(shù)據(jù)集，訓(xùn)的神經(jīng)網(wǎng)絡(luò)和處理更多的并發(fā)任務(wù)，同時(shí)還要減少任務(wù)執(zhí)行時(shí)間以及提高整體效率。這需要GPU集群的Sc以太網(wǎng)技術(shù)應(yīng)用在GPU集群互聯(lián)架構(gòu)具有諸多優(yōu)勢鏈路，大容量交換機(jī)，成熟的生態(tài)系統(tǒng)等。目前，多個(gè)行業(yè)組織正在202GPU架構(gòu)和互聯(lián)方案2.1GPU架構(gòu)分析3輸，如下圖所示，兩個(gè)模塊可以并行工作形成流水線，數(shù)據(jù)傳實(shí)際的GPU架構(gòu)要比上述的GPU架構(gòu)模型更加復(fù)雜，GPGPU（4為了優(yōu)化GPU數(shù)據(jù)傳輸方案，降低計(jì)算引擎用于數(shù)據(jù)傳輸5GPU在增加了TMA模塊之后，不再需要計(jì)算描述符下發(fā)給TMA模塊，TMA模塊自行計(jì)算數(shù)據(jù)的內(nèi)存地址信息，獨(dú)立2.2GPU互聯(lián)方案AI集群的訓(xùn)練和推理任務(wù)，通常需要多個(gè)GPU協(xié)同完成，計(jì)算引擎67803Scale-Up互3.1需求分析信息和內(nèi)存中位置不連續(xù)的數(shù)據(jù)，以及用于對時(shí)延要求較高的AI推理場景。為9通常會通過優(yōu)化算法實(shí)現(xiàn)數(shù)據(jù)計(jì)算和數(shù)據(jù)傳輸?shù)慕化B，降低對數(shù)據(jù)傳RDMA協(xié)議提供的是一套軟硬件交互接口，交互操作復(fù)雜而且效率代價(jià)越來越大。由于AI集群的通信存在明顯的周期規(guī)律，GPU之間沒有繼續(xù)通過網(wǎng)絡(luò)硬件來保證CacheCoherency，可以由系統(tǒng)軟件保證Cache7）由于單個(gè)協(xié)議棧的數(shù)據(jù)處理帶寬有限，GPU通常會部署多個(gè)Scale-up協(xié)議棧實(shí)現(xiàn)超大網(wǎng)絡(luò)帶寬。在這種多協(xié)議棧的網(wǎng)絡(luò)架構(gòu)中，需要保證多個(gè)協(xié)議棧之間，以及在同一個(gè)協(xié)議棧的多個(gè)端口之間盡3.2網(wǎng)絡(luò)方案件不再需要保證CacheCoherency，根據(jù)描述符的指令類型，完成遠(yuǎn)端的Globalme04EthLink迭代緩慢，帶寬落后以太網(wǎng)2-3代。4.1EthLink協(xié)議棧步分為上層GPU操作和Scale-up事務(wù)層。GPU操作是由GPU發(fā)起的Scale-的上層應(yīng)用可以根據(jù)實(shí)際的應(yīng)用場景靈活的選擇傳輸語義。Sc4.1.1GPU操作原子操作4.1.2Scale-up事務(wù)層Transaction類型完成內(nèi)存讀操作完成內(nèi)存寫操作/寫消息，用來傳遞控制信息原子操作4.1.2.1Load4.1.2.2Store4.1.2.3RDMAWrite4.1.2.4RDMAWritewithImmediate4.1.2.5RDMARead4.1.3CacheCoherency3）系統(tǒng)軟件在必要的時(shí)候清除Cache，4.2網(wǎng)絡(luò)拓?fù)?.2.1端口負(fù)載均衡4.3網(wǎng)絡(luò)接口4.3.1報(bào)文封裝操作。本小節(jié)中為了體現(xiàn)上層GPU操作的不同，），4.3.2FEC4.3.3鏈路層可靠傳輸當(dāng)Scale-up從機(jī)內(nèi)短距離點(diǎn)對點(diǎn)互聯(lián)拓展交換機(jī)轉(zhuǎn)發(fā)時(shí)，網(wǎng)絡(luò)的丟包概率顯著升高，而檢測丟包、丟包重傳給4.3.3.1LinkLevelRetry(LLR)鏈路的發(fā)送端先緩存報(bào)文，如果發(fā)生報(bào)文丟包，則發(fā)起重傳，直到FEC成為可能。另外，也降低了鏈路質(zhì)量的要求，如果存在光互4.3.3.2CreditBasedFlowControl(CBFC)更細(xì)粒度的控制，可與VC綁定來使用，同時(shí)4.3.4SwitchEventNotificationScale-up考慮更低延遲，通

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書

文檔簡介

溫馨提示

最新文檔

評論

字節(jié)跳動(dòng) GPU Scale-up 互聯(lián)技術(shù)白皮書

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔