華為昇騰DeepSeek解決方案_第1頁(yè)
華為昇騰DeepSeek解決方案_第2頁(yè)
華為昇騰DeepSeek解決方案_第3頁(yè)
華為昇騰DeepSeek解決方案_第4頁(yè)
華為昇騰DeepSeek解決方案_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

把握DeepSeek時(shí)刻,攜手同行華為昇騰AI解決方案匯報(bào)2025年2月PAGE2HuaweiProprietary-RestrictedDistributionPAGE2HuaweiProprietary-RestrictedDistribution1DeepSeek洞察及昇騰適配進(jìn)展1DeepSeek洞察及昇騰適配進(jìn)展2ONTEN2ONTENTS目錄DeepSeek是AI發(fā)展史上的一個(gè)關(guān)鍵里程碑,但遠(yuǎn)未達(dá)到AI終點(diǎn)DeepSeek是AI發(fā)展史上的一個(gè)關(guān)鍵里程碑,但遠(yuǎn)未達(dá)到AI終點(diǎn)PAGE3HuaweiProprietary-RestrictedDistributionPAGE3HuaweiProprietary-RestrictedDistributionDeepSeek-R1進(jìn)一步驗(yàn)證“算力即性能”DeepSeek-R1進(jìn)一步驗(yàn)證“算力即性能”xx下一代AI技術(shù)Mamba、空間智能等+邏輯推理DeepSeek-V3/R1OpenAI-o1/o3算力x數(shù)據(jù)x思考算力x數(shù)據(jù)訓(xùn)練資源隨著DeepSeek提供了一種高效率訓(xùn)練的方法,同等算力規(guī)??梢蕴剿鞲鼜?qiáng)的模型能力在競(jìng)爭(zhēng)背景下,頭部玩家仍將追逐ScalingLawAI算力的戰(zhàn)略投資,加速探索下一代AI技術(shù)模型效果

泛化性和經(jīng)濟(jì)性大幅提升

補(bǔ)齊最后一塊自主創(chuàng)新的版圖真正形成中美兩條AI技術(shù)路線(xiàn)CVNLPCVNLPDS對(duì)強(qiáng)化學(xué)習(xí)的創(chuàng)新使用,可以讓大模型便捷的獲得通用性+專(zhuān)用性,可以滿(mǎn)足各應(yīng)用場(chǎng)景需求DS對(duì)通過(guò)從模型結(jié)構(gòu)到訓(xùn)推全流程的極致工程優(yōu)化,大幅提升AI的計(jì)算效率,提升模型落地經(jīng)濟(jì)性2025DeepSeek效率與成本雙突破NLP全面普及2015Resnet效率與成本雙突破CV全面普及2023ChatGPT模型能力突破開(kāi)啟NLP時(shí)代2012AlexNet模型能力突破開(kāi)啟CV時(shí)代2017谷歌發(fā)布首個(gè)Transformer架構(gòu)模型1998LeNet首個(gè)CNN架構(gòu)模型國(guó)家戰(zhàn)略清晰技術(shù)創(chuàng)新依賴(lài)資本投入雙輪驅(qū)動(dòng)互鎖戰(zhàn)略堅(jiān)定+技術(shù)創(chuàng)新中國(guó)AI公司首次以關(guān)鍵創(chuàng)新貢獻(xiàn)者的身份加入到全球AI競(jìng)爭(zhēng)中,沖擊美國(guó)AI霸權(quán)打破NV+OpenAI的資金、技術(shù)、人才的壟斷,全球重新思考中美技術(shù)路線(xiàn)的選擇AI芯片:昇騰、寒武紀(jì)…互聯(lián)技術(shù):靈衢異構(gòu)計(jì)算架構(gòu):CANN…AI框架:昇思、飛槳…AI模型算法:DeepSeekAI模型算法:GPT、LLaMAAI框架:PY、TFDeepSeekV3:實(shí)現(xiàn)極致性能,稀疏MOE提質(zhì)降本DeepSeekV3:實(shí)現(xiàn)極致性能,稀疏MOE提質(zhì)降本PAGE4PAGE4HuaweiProprietary-RestrictedDistribution低成本完美對(duì)標(biāo)OpenAIO1,突破精確語(yǔ)義理解及復(fù)雜推理任務(wù)低成本完美對(duì)標(biāo)OpenAIO1,突破精確語(yǔ)義理解及復(fù)雜推理任務(wù)DeepSeek-V3是一款MoE模型,總參數(shù)量671B,激活參數(shù)量37B,采用2048張H800(節(jié)點(diǎn)內(nèi)NVLink,節(jié)點(diǎn)間IB,非超節(jié)點(diǎn)架構(gòu))在14.8Ttoken數(shù)據(jù)集上基于自研HAI-LLM訓(xùn)練系統(tǒng)總計(jì)訓(xùn)練了1394h(58.08天)性能優(yōu)性能優(yōu)數(shù)學(xué)、科學(xué)和代碼等領(lǐng)域領(lǐng)先業(yè)界,成為業(yè)界公認(rèn)的LLM的領(lǐng)先模型低成本低成本MOEDeepSeek–V3訓(xùn)練成本技術(shù)創(chuàng)新硬件級(jí)、算法級(jí)、架構(gòu)級(jí)、工程級(jí)、開(kāi)源生態(tài)5大技術(shù)創(chuàng)新,轟動(dòng)全球繞過(guò)GUDA進(jìn)行PTX編程計(jì)算與通信優(yōu)化,性能提升30%GRPO:群體進(jìn)化的智慧篩選器自我驗(yàn)證機(jī)制:AI的"錯(cuò)題本系統(tǒng)"混合專(zhuān)家模型的"智能路由器“多頭潛在注意力MLA:空間壓縮術(shù)推理加速:預(yù)加載,動(dòng)態(tài)批處理等模型、數(shù)據(jù)、工具鏈、部署全開(kāi)源蒸餾技術(shù)使能第三方模型性能開(kāi)源生態(tài)工程奇跡架構(gòu)創(chuàng)新算法革命硬件級(jí)優(yōu)化

來(lái)源:DeepSeek模型測(cè)試數(shù)據(jù)&互聯(lián)網(wǎng)DeepSeekR1:在Reasoning任務(wù)達(dá)到了世界水平(OpenAI-o1)DeepSeekR1:在Reasoning任務(wù)達(dá)到了世界水平(OpenAI-o1)PAGE5PAGE5HuaweiProprietary-RestrictedDistribution DeepSeek-R1以DeepSeek-V3

以2階段SFT+2階段RL完成,從而解決R1-Zero可讀性差、多種語(yǔ)言混合問(wèn)題本次開(kāi)源同時(shí)發(fā)布了6個(gè)基于DeepSeek-R1蒸餾的更小稠密模型(Qwen/LLaMa1.5B7B14B32B70B)DeepSeekV3模型架構(gòu):Multi-HeadLatentDeepSeekV3模型架構(gòu):Multi-HeadLatent張量低秩壓縮以降低KVCache資源開(kāi)銷(xiāo):相比于傳統(tǒng)MHA操作使得存儲(chǔ)的張量維度大幅減小。(下圖中張量低秩壓縮以降低KVCache資源開(kāi)銷(xiāo):相比于傳統(tǒng)MHA操作使得存儲(chǔ)的張量維度大幅減小。(下圖中僅紅色陰影部分需要存儲(chǔ))(bs,?)(bs,?)(bs,?)bs?′2bs?(bs,?)?′?1)分別對(duì)、Hit- sitMb可on以將KVCache降低為=1.7%MLA架構(gòu) 果 相比于MHA,MLA每token的KVCache量大幅減少,且精度更高。昇騰影響昇騰影響。具體實(shí)現(xiàn)只需存儲(chǔ)圖中的cKv,KR即可;t t考慮到矩陣乘法結(jié)合律,具體實(shí)現(xiàn)過(guò)程中WUK可以與WUQ融合、WUV可以與Wo融合,從而無(wú)需為每個(gè)query計(jì)算key-value值。MTP:MTP:Multi-TokenPrediction多token預(yù)測(cè)提升模型效果PAGE7HuaweiProprietary-RestrictedDistributionPAGE7HuaweiProprietary-RestrictedDistribution①模型結(jié)構(gòu)每個(gè)MTP模塊共享嵌入層和輸出頭每個(gè)MTP模塊獨(dú)占一個(gè)TransformerBlock和一個(gè)投影矩陣多個(gè)MTP模塊串聯(lián)保持完整的因果關(guān)系鏈②訓(xùn)練策略每個(gè)MTP模塊輸出預(yù)測(cè)token的概率分布每個(gè)MTP模塊計(jì)算對(duì)應(yīng)的交叉熵?fù)p失函數(shù)多個(gè)MTP模塊的損失函數(shù)加權(quán)平均得到最終訓(xùn)練目標(biāo)③關(guān)鍵作用提升每批訓(xùn)練數(shù)據(jù)的使用效率,強(qiáng)化訓(xùn)練信號(hào)優(yōu)化模型表達(dá)能力,提升next-token的預(yù)測(cè)效果可參考投機(jī)采樣改造MTP模塊,加速推理效率MTP模塊僅在訓(xùn)練中使用,提升模型訓(xùn)練效果,推理階段可以不使用MTP模塊,基礎(chǔ)模型能夠獨(dú)立完成正常推理MTP模塊僅在訓(xùn)練中使用,提升模型訓(xùn)練效果,推理階段可以不使用MTP模塊,基礎(chǔ)模型能夠獨(dú)立完成正常推理MTP模塊也可以被重新配置用于speculativedecoding關(guān)鍵發(fā)現(xiàn)DualPipe:雙流并行優(yōu)化計(jì)算和通信,All-to-All通信開(kāi)銷(xiāo)接近0DualPipe:雙流并行優(yōu)化計(jì)算和通信,All-to-All通信開(kāi)銷(xiāo)接近0PAGE8HuaweiProprietary-RestrictedDistributionPAGE8HuaweiProprietary-RestrictedDistribution①細(xì)粒度的計(jì)算通信并行將PPstage拆分為更細(xì)的模塊,提升模塊交替編排的靈活度參考ZeroBubble,反向傳遞中的權(quán)重更新和梯度傳遞獨(dú)立操作經(jīng)過(guò)細(xì)粒度的拆分和編排之后,計(jì)算流和通信流的barrier剛好可以重疊②雙向管道調(diào)度減少PP中的氣泡1F1B中每個(gè)batch拆分為1個(gè)forward和1個(gè)backwardZeroBubble中把backward拆分為input和weight兩個(gè)部分DualPipe中使用對(duì)稱(chēng)處理,不同batch從不同的device上開(kāi)始流水③每卡顯存占用略微增大參考DualPipe技術(shù),基于MindSpeed訓(xùn)練加速框架以及昇騰硬件特性,針對(duì)性地設(shè)計(jì)高效率流水并行技術(shù),提升整體訓(xùn)練性能關(guān)鍵啟示雙向管道訓(xùn)練,需要存兩份參數(shù)來(lái)進(jìn)行訓(xùn)練(Parameter參考DualPipe技術(shù),基于MindSpeed訓(xùn)練加速框架以及昇騰硬件特性,針對(duì)性地設(shè)計(jì)高效率流水并行技術(shù),提升整體訓(xùn)練性能關(guān)鍵啟示模型總參數(shù)量671B,每個(gè)卡上4個(gè)routedexpert對(duì)應(yīng)26.8B考慮到PP-16和FP8量化,每個(gè)卡上顯存占用為1.675GBDeepSeek通過(guò)從模型結(jié)構(gòu)到訓(xùn)推全流程的優(yōu)化,帶來(lái)大模型新范式DeepSeek通過(guò)從模型結(jié)構(gòu)到訓(xùn)推全流程的優(yōu)化,帶來(lái)大模型新范式PAGE9HuaweiProprietary-RestrictedDistributionPAGE9HuaweiProprietary-RestrictedDistribution以計(jì)算換內(nèi)存、降通信,空間時(shí)間雙優(yōu)化以計(jì)算換內(nèi)存、降通信,空間時(shí)間雙優(yōu)化AttentionMOE壓縮模型容量提升3倍計(jì)算量減少70%降低計(jì)算,極致的掩蓋,同時(shí)保證訓(xùn)練精度訓(xùn)練精度PP并行算法數(shù)值精度減少50%PP氣泡DeepSeekV3/R1,大幅提升從訓(xùn)練到推理的計(jì)算效率,降低模型創(chuàng)新及應(yīng)用落地的門(mén)檻單次推理效率倍級(jí)提升Token預(yù)測(cè)一次預(yù)測(cè)多個(gè)token推理倍級(jí)提升1次多Token預(yù)測(cè)1次1token預(yù)測(cè) 模型結(jié)構(gòu)優(yōu)化 計(jì)算通信優(yōu)化 單次推理效率倍級(jí)提升Token預(yù)測(cè)一次預(yù)測(cè)多個(gè)token推理倍級(jí)提升1次多Token預(yù)測(cè)1次1token預(yù)測(cè)降低學(xué)習(xí)復(fù)雜度強(qiáng)化學(xué)習(xí)簡(jiǎn)化強(qiáng)化學(xué)習(xí)流程降低后訓(xùn)練復(fù)雜度新老策略組隊(duì)評(píng)估需要裁判模型評(píng)估降低學(xué)習(xí)復(fù)雜度強(qiáng)化學(xué)習(xí)簡(jiǎn)化強(qiáng)化學(xué)習(xí)流程降低后訓(xùn)練復(fù)雜度新老策略組隊(duì)評(píng)估需要裁判模型評(píng)估1前1后單流水FP16/BF16GPT416專(zhuān)家選2MHA/GQA分組共享減少緩存雙向流水并行FP8混合精度DeepSeekMoE更稀疏256選8+1MLA低秩壓縮減少緩存雙向流水并行FP8混合精度DeepSeekMoE更稀疏256選8+1MLA低秩壓縮減少緩存大模型從技術(shù)摸高走向技術(shù)摸高+工程創(chuàng)新并行,訓(xùn)練需求持續(xù)增長(zhǎng)大模型從技術(shù)摸高走向技術(shù)摸高+工程創(chuàng)新并行,訓(xùn)練需求持續(xù)增長(zhǎng)PAGE10HuaweiProprietary-RestrictedDistributionPAGE10HuaweiProprietary-RestrictedDistribution①技術(shù)摸高:頭部玩家將戰(zhàn)略堅(jiān)定投入預(yù)訓(xùn)練基礎(chǔ)模型創(chuàng)新,豐富模型組合,追逐ScalingLaw,加速探索AGI②工程創(chuàng)新:新的范式降低后訓(xùn)練和蒸餾門(mén)檻,模型效果大幅提升,出現(xiàn)平權(quán)現(xiàn)象,引發(fā)新一波的“百模千態(tài)”訓(xùn)練算力需求(PFLOPS)

Groq4HunyuanDoubao2.0

Llama4

技術(shù)摸高1關(guān)注高效、穩(wěn)定、開(kāi)放的底座1關(guān)注高效、穩(wěn)定、開(kāi)放的底座Megatron-TuningNLG530B

.

GPT-4/4oClaude2Llama3-70B

2工程創(chuàng)新2GPT-3/3.5175B.

Baichuan2-13B

新一輪百模千態(tài)AlexNet

Transformer●

BERT-Large

DeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Qwen-1.5B關(guān)注便捷、易用、性?xún)r(jià)比的平臺(tái)關(guān)注便捷、易用、性?xún)r(jià)比的平臺(tái)2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026訓(xùn)練的算力需求將持續(xù)增長(zhǎng),算力結(jié)構(gòu)從“預(yù)訓(xùn)練為主”走向“預(yù)訓(xùn)練+后訓(xùn)練/二次訓(xùn)練”DeepSeek能力提升成為各行業(yè)生產(chǎn)力工具,加速推理落地千行百業(yè)DeepSeek能力提升成為各行業(yè)生產(chǎn)力工具,加速推理落地千行百業(yè)PAGE11HuaweiProprietary-RestrictedDistributionPAGE11HuaweiProprietary-RestrictedDistributionASISTOBE強(qiáng)化學(xué)習(xí)ASISTOBE強(qiáng)化學(xué)習(xí)更多行業(yè)高質(zhì)量數(shù)據(jù)生成數(shù)據(jù)依賴(lài)降低算法依賴(lài)降低部署更高效高質(zhì)量數(shù)據(jù) 生成數(shù)據(jù) 高端人才 開(kāi)源+蒸餾 月級(jí)調(diào)優(yōu) 周/天級(jí)優(yōu)化模型蒸餾-模型小型化行業(yè)大模型行業(yè)大模型監(jiān)督微調(diào)SFT監(jiān)督微調(diào)SFT少量行業(yè)數(shù)據(jù)基礎(chǔ)模型(DeepSeek/Llama/Qwen/…)大量行業(yè)數(shù)據(jù)基礎(chǔ)模型Llama、Qwen、…金融交通教育醫(yī)療電力油氣制造云服務(wù)硬件+社區(qū)一體機(jī)騰訊云阿里云亞馬遜AWS微軟Azure……昇騰NVIDIA昇騰社區(qū)釘釘一體機(jī)魔樂(lè)社區(qū)GitHub………………主流云服務(wù)商已支持DS覆蓋公/私有云部署主流算力、主流社區(qū)均已支持DeepSeek諸多廠(chǎng)家推出一體化方案對(duì)外提供服務(wù)/自用硬件+開(kāi)源模型+RL套件+ISV/云,商業(yè)模式逐漸成熟

開(kāi)箱即用的一體機(jī),加速大模型應(yīng)用落地DeepSeek模型發(fā)布即支持昇騰推理,各行業(yè)已基于昇騰快速上線(xiàn)DeepSeek模型發(fā)布即支持昇騰推理,各行業(yè)已基于昇騰快速上線(xiàn)PAGE12HuaweiProprietary-RestrictedPAGE12HuaweiProprietary-Restricted最新DeepSeekV3/R1/Janus-Pro及6個(gè)蒸餾模型基于昇騰開(kāi)箱即用,配套版本已上線(xiàn)各大開(kāi)源社區(qū)

DeepSeek發(fā)布兩周,3大社區(qū)全系列模型上線(xiàn)模型服務(wù)商潞晨科技已上線(xiàn)硅基流動(dòng)已上線(xiàn)清昴模型服務(wù)商潞晨科技已上線(xiàn)硅基流動(dòng)已上線(xiàn)清昴已上線(xiàn)訊飛測(cè)試中運(yùn)營(yíng)商電信天翼云已上線(xiàn)聯(lián)通云已上線(xiàn)移動(dòng)云已上線(xiàn)南京、福建、浙江移動(dòng)已上線(xiàn)上海、江蘇電信已上線(xiàn)國(guó)計(jì)民生行業(yè)龍崗區(qū)政府已上線(xiàn)北京銀行已上線(xiàn)廣大證券已上線(xiàn)北京、南京、西安、武漢、蘇州、無(wú)錫等公共服務(wù)平臺(tái)已上線(xiàn)招行測(cè)試中工行測(cè)試中太保測(cè)試中模型名稱(chēng)Atlas300IDuoAtlas800IA2DeepSeekV3-√DeepSeekR1-√DeepSeekJanus-Pro-1B/7B√√DeepSeekR1-Distill-Llama-70B-√DeepSeekR1-Distill-Qwen-32B-√R1-Distill-Qwen-1.5B/7B/14B√√配套版本上線(xiàn)昇騰社區(qū):

配套版本上線(xiàn)魔樂(lè)社區(qū):/models/MindIE/deepseekv3昇騰DeepSeek一體機(jī):大吞吐+高并發(fā),加速行業(yè)模型落地昇騰DeepSeek一體機(jī):大吞吐+高并發(fā),加速行業(yè)模型落地PAGE13HuaweiProprietary-RestrictedDistributionPAGE13HuaweiProprietary-RestrictedDistribution金融 電力 交通 政務(wù) 教育 油氣 制造 ……金融電力交通政務(wù)教育油氣制造……AI編程智能對(duì)話(huà)金融研報(bào)…

編程輔助智能客服…

個(gè)性化學(xué)習(xí)輔導(dǎo)創(chuàng)意寫(xiě)作…

個(gè)人知識(shí)管理個(gè)人文檔分析編程輔助…

開(kāi)發(fā)板邊端設(shè)備…模型參數(shù):671BDeepSeekV3/R1

模型參數(shù):70BDeepSeek-R1-Distill-Llama-70B

模型參數(shù):7B/8B/14B

模型參數(shù):1.5BDeepSeek-R1-Distill-Qwen-1.5BAtlas800IA2(1024GB)

Atlas800IA2(512GB)

Atlas800IA2(256GB)

Atlas300IDuo

Atlas300V 瓏京科技思騰合力瓏京科技思騰合力瓏京科技思騰合力瓏京科技思騰合力移動(dòng)、電信一體機(jī)潞晨科技系統(tǒng)吞吐并發(fā)路數(shù)系統(tǒng)吞吐并發(fā)路數(shù)瓏京科技思騰合力瓏京科技思騰合力瓏京科技思騰合力瓏京科技思騰合力移動(dòng)、電信一體機(jī)潞晨科技系統(tǒng)吞吐并發(fā)路數(shù)系統(tǒng)吞吐并發(fā)路數(shù)系統(tǒng)吞吐并發(fā)路數(shù)系統(tǒng)吞吐并發(fā)路數(shù)系統(tǒng)吞吐并發(fā)路數(shù)1911Token/s192路3300Token/s165路4940Token/s@32B247730Token/s@14B956Token/s@8B80432Token/s16路DeepSeekV3/R1及蒸餾模型,昇騰DeepSeek一體機(jī)推薦配置DeepSeekV3/R1及蒸餾模型,昇騰DeepSeek一體機(jī)推薦配置PAGE14HuaweiProprietary-RestrictedDistributionPAGE14HuaweiProprietary-RestrictedDistribution模型集合模型名稱(chēng)參數(shù)計(jì)算精度產(chǎn)品配置系統(tǒng)吞吐token/s并發(fā)用戶(hù)數(shù)DeepSeek-V3DeepSeekV3671BINT8Atlas800IA21024GB1911192DeepSeek-R1DeepSeek-R1671BINT8Atlas800IA21024GB1911192DeepSeek-R1蒸餾模型DeepSeek-R1-Distill-Llama-70B70BINT8Atlas800IA2512GB3300165DeepSeek-R1-Distill-Qwen-32B32BINT8Atlas800IA2256GB4940247DeepSeek-R1-Distill-Qwen-14B14BINT8Atlas800IA2256GB7500300Atlas300IDuo1*Duo96GBPCIE73080DeepSeek-R1-Distill-Llama-8B8BINT8Atlas300IDuo1*Duo96GBPCIE956115DeepSeek-R1-Distill-Qwen-7B7BINT8Atlas300IDuo1*Duo96GBPCIE956115DeepSeek-R1-Distill-Qwen-1.5B1.5BINT8Atlas300V1*300V24GBPCIE43216PAGE15HuaweiProprietary-RestrictedDistributionPAGE15HuaweiProprietary-RestrictedDistribution1DeepSeek洞察及昇騰適配進(jìn)展1DeepSeek洞察及昇騰適配進(jìn)展2ONTEN2ONTENTS目錄昇騰AI基礎(chǔ)軟硬件架構(gòu)全面創(chuàng)新,使能行業(yè)場(chǎng)景化應(yīng)用昇騰AI基礎(chǔ)軟硬件架構(gòu)全面創(chuàng)新,使能行業(yè)場(chǎng)景化應(yīng)用PAGE16HuaweiProprietary-RestrictedDistributionPAGE16HuaweiProprietary-RestrictedDistribution行業(yè)場(chǎng)景化應(yīng)用英偉達(dá)基礎(chǔ)軟硬件架構(gòu)應(yīng)用使能應(yīng)用使能套件/SDK英偉達(dá)基礎(chǔ)軟硬件架構(gòu)應(yīng)用使能應(yīng)用使能套件/SDKNV處理器Ampere系列/Hopper系列...ModelArts應(yīng)用使能NV處理器Ampere系列/Hopper系列...///昇騰 AI架昇思MindSpore基 PyTorch/TensorFlow/礎(chǔ) 構(gòu)軟 硬件 Atlas及昇騰伙伴系列硬件架 模組/小站/加速卡/服務(wù)器/集群構(gòu)昇騰處理器昇騰310系列/昇騰910系列...

AI計(jì)算框架PyTorch/TensorFlow/Caffe異構(gòu)計(jì)算架構(gòu)CUDANV系列硬件AI計(jì)算框架PyTorch/TensorFlow/Caffe異構(gòu)計(jì)算架構(gòu)CUDANV系列硬件模組/加速卡/服務(wù)器/-->集群AAscend計(jì)算架構(gòu)計(jì)算架構(gòu)CANN深度開(kāi)放,使能高效靈活開(kāi)發(fā),匹配開(kāi)發(fā)者使用習(xí)慣PAGE17HuaweiProprietary-RestrictedPAGE17HuaweiProprietary-RestrictedGE圖引擎MT、KS自定義圖融合集合通信庫(kù)TX、MThash算法自定義調(diào)優(yōu)類(lèi)庫(kù)/模板X(qián)FGE圖引擎MT、KS自定義圖融合集合通信庫(kù)TX、MThash算法自定義調(diào)優(yōu)類(lèi)庫(kù)/模板X(qián)F自定義切分策略通用編程KS自定義算子開(kāi)發(fā)XF結(jié)合場(chǎng)景差異優(yōu)化AscendRuntimeKS直接發(fā)起KernelLaunchNVRuntime運(yùn)行時(shí)AscendaclNNNVcuDNN算子加速庫(kù)AscendC低級(jí)APINVCUDA-CAscendC高階APINVCUTLASSHCCLNVNCCLGraphEngine圖引擎TensorRTplugins&parser加速庫(kù) 加速庫(kù) Megatron DeepSpeed AscendSpeed …AI框架昇思MindSpore PyTorch TensorFlow…昇騰硬件使能AscendC編程語(yǔ)言開(kāi)放130+底層API、60+高層API,支持高性能自定義融合算子開(kāi)發(fā)畢昇編譯器|Runtime運(yùn)行時(shí)開(kāi)放硬件資源接口,滿(mǎn)足開(kāi)發(fā)者對(duì)模型開(kāi)發(fā)、系統(tǒng)優(yōu)化、三方生態(tài)對(duì)接等各場(chǎng)景需求算子加速庫(kù)開(kāi)放1600+基礎(chǔ)算子接口、30+融合算子接口,簡(jiǎn)化開(kāi)發(fā)復(fù)雜度,提升開(kāi)發(fā)效率HCCL集合通信庫(kù)開(kāi)放通信算子、平臺(tái)接口,支持自定義通信算法,提升網(wǎng)絡(luò)通信效率GE圖引擎開(kāi)放圖編譯、圖優(yōu)化、圖執(zhí)行,支持自定義圖融合,提升整網(wǎng)性能模型訓(xùn)練:算網(wǎng)/算存深度協(xié)同是大模型分布式并行訓(xùn)練的基礎(chǔ)模型訓(xùn)練:算網(wǎng)/算存深度協(xié)同是大模型分布式并行訓(xùn)練的基礎(chǔ)PAGE18PAGE18HuaweiProprietary-Restricted算存協(xié)同算存協(xié)同極致讀寫(xiě)性能:CKPT等算存讀寫(xiě)協(xié)同優(yōu)化、級(jí)存取+TB級(jí)帶寬,數(shù)據(jù)讀取效率提升50%千億稠密/萬(wàn)億稀疏超長(zhǎng)序列多模態(tài)更大數(shù)據(jù)量存儲(chǔ)和讀寫(xiě)千億稠密/萬(wàn)億稀疏超長(zhǎng)序列多模態(tài)更大數(shù)據(jù)量存儲(chǔ)和讀寫(xiě)(模型參數(shù)、CheckPoint…)更大規(guī)模/更復(fù)雜的組網(wǎng)大規(guī)模組網(wǎng)超大組網(wǎng)規(guī)模大規(guī)模組網(wǎng)超大組網(wǎng)規(guī)模:2層1:1無(wú)收斂的AI大支持128K集群規(guī)模組網(wǎng),千卡到萬(wàn)卡平滑演進(jìn)支持2級(jí)框盒、框框組網(wǎng),適用于大規(guī)模及超大規(guī)模集群3、AI任務(wù)信息任務(wù)、通信域…1、控制器獲取網(wǎng)絡(luò)拓?fù)?,下發(fā)路徑信息4、動(dòng)態(tài)路徑調(diào)整2、AI任務(wù)調(diào)度以全部通信關(guān)系和拓?fù)湫畔⒆鳛檩斎胪ㄟ^(guò)算法計(jì)算出最優(yōu)結(jié)果,實(shí)現(xiàn)AI算網(wǎng)協(xié)同網(wǎng)絡(luò)級(jí)負(fù)載均衡:獨(dú)家NSLB算網(wǎng)協(xié)同調(diào)度,多任務(wù)節(jié)點(diǎn)非連續(xù)組網(wǎng)情況下,通信帶寬提升20%、模型性能提升7%AI調(diào)度平臺(tái)網(wǎng)絡(luò)控制器模型訓(xùn)練:應(yīng)用使能軟件加持,MFU領(lǐng)先、線(xiàn)性度持平NV模型訓(xùn)練:應(yīng)用使能軟件加持,MFU領(lǐng)先、線(xiàn)性度持平NVPAGE19HuaweiProprietary-RestrictedDistributionPAGE19HuaweiProprietary-RestrictedDistribution模型訓(xùn)練最優(yōu)=單機(jī)執(zhí)行最優(yōu)+集群并行最優(yōu)+中斷時(shí)間最短數(shù)據(jù)并行、流水并行L2數(shù)據(jù)并行、流水并行L2層Ln層 層內(nèi)通信并行網(wǎng)絡(luò)局部計(jì)算選路Hash沖突導(dǎo)致有效吞吐不足50%擁塞空閑軟件層分布式并行充分調(diào)度算力資源提供分布式加速庫(kù),內(nèi)置主流加速算法,滿(mǎn)足各類(lèi)模型加速場(chǎng)景硬件層算網(wǎng)協(xié)同提升有效吞吐NLSB網(wǎng)絡(luò)級(jí)負(fù)載均衡實(shí)現(xiàn)網(wǎng)絡(luò)動(dòng)態(tài)路由,有效吞吐達(dá)98%控制器全局集中算路自動(dòng)生成路徑并動(dòng)態(tài)下發(fā)網(wǎng)絡(luò) 絡(luò)拓?fù)? 下發(fā)路徑L1層模型并行

45%+

超大集群線(xiàn)性度90%+…………模型通信與計(jì)算優(yōu)化,單機(jī)執(zhí)行最優(yōu)算子深度融合搬出的時(shí)間及內(nèi)存開(kāi)銷(xiāo)計(jì)算與通信融合計(jì)算加速忽略無(wú)效計(jì)算,減少計(jì)算量和內(nèi)存量計(jì)算通信計(jì)算1計(jì)算2計(jì)算3 計(jì)算4通信1通信2通信3通信4MultiheadAttention中常見(jiàn)模型的mask上三角區(qū)域均接近于0自適應(yīng)選擇性重計(jì)算、內(nèi)存碎片優(yōu)化、…算子庫(kù)低階二進(jìn)制算子庫(kù) 高階融合算子庫(kù)AscendC編程語(yǔ)言+Runtime開(kāi)放接口模型推理:提供分層開(kāi)放的推理引擎MindIE,使能高效推理模型推理:提供分層開(kāi)放的推理引擎MindIE,使能高效推理PAGE20HuaweiProprietary-RestrictedDistributionPAGE20HuaweiProprietary-RestrictedDistribution推理應(yīng)用接口推理開(kāi)發(fā)工具推理應(yīng)用接口推理開(kāi)發(fā)工具算子加速庫(kù)昇騰引M擎indIE對(duì)標(biāo)Triton+TMS/vLLM業(yè)界標(biāo)準(zhǔn)RPC接口高效對(duì)接業(yè)務(wù)層NEW模型管理,集群管理,支持多實(shí)例并發(fā)devops推理服務(wù)化MindIE-ServiceMindIE-MS對(duì)標(biāo)TensorRT-LLM支持社區(qū)模型快速遷移自回歸解碼、擴(kuò)散過(guò)程優(yōu)化稀疏量化壓縮、并行推理 NEWNEW推理套件支持PyTorch/昇思少量代碼實(shí)現(xiàn)訓(xùn)練向推理平滑遷移整圖/子圖優(yōu)化+單算子混合推理框架推理對(duì)接對(duì)標(biāo)TensorRT圖優(yōu)化,算子融合,Kernel優(yōu)化量化、混合精度加速異步下發(fā),多流水執(zhí)行推理運(yùn)行時(shí)3rd第三方推理服務(wù)TritonbackendvLLM場(chǎng)景/應(yīng)用測(cè)試模型測(cè)試結(jié)果對(duì)話(huà)搜索DB-200B0.94xA800SDXL3.48~3.63xA10Llama2-7B1.41~2.72xA10Llama2-13B1.44~2.19xA10電商ChatGLM2-6B1.86xA30Baichuan2-13B1.82xA30Qwen-14B1.81xA30ZN大模型智腦13B1.7xA30圖像識(shí)別、OCR文字識(shí)別和視頻處理Llama2-70B1.7xL20智慧教育、辦公問(wèn)答星火-65Bx800TA2交互搜索,金融客服問(wèn)答step1V-130B多模態(tài)2.0xL20模型遷移:工具鏈進(jìn)一步升級(jí),提升GPU到昇騰快速遷移能力模型遷移:工具鏈進(jìn)一步升級(jí),提升GPU到昇騰快速遷移能力PAGE21HuaweiProprietary-RestrictedDistributionPAGE21HuaweiProprietary-RestrictedDistribution模型轉(zhuǎn)換工具模型轉(zhuǎn)換工具實(shí)現(xiàn)訓(xùn)推一體的模型轉(zhuǎn)換一鍵式命令觸發(fā)三方框架模型格式昇騰處理器模型格式圖準(zhǔn)備->圖拆分->圖優(yōu)化->圖編譯GPU為昇騰為芯片架構(gòu)差異數(shù)據(jù)采集 性能優(yōu)化、快速推理工具一站式調(diào)優(yōu)工具,提升性能優(yōu)化效率精度比對(duì)、改圖工具一站式調(diào)優(yōu)工具,提升精度優(yōu)化效率數(shù)據(jù)解析NPUGraph數(shù)據(jù)采集 性能優(yōu)化、快速推理工具一站式調(diào)優(yōu)工具,提升性能優(yōu)化效率精度比對(duì)、改圖工具一站式調(diào)優(yōu)工具,提升精度優(yōu)化效率數(shù)據(jù)解析NPUGraphGPUGraphData遷移分析工具模型支持度分析和修改建議模型支持度評(píng)估離線(xiàn)模型 — — 分析報(bào)告AscendNPUy.pklx.pkl差異一:芯片架構(gòu)差異導(dǎo)致算子實(shí)現(xiàn)不同例如,矩陣計(jì)算時(shí),昇騰采用16x16分形,英偉達(dá)采用8x8分形AscendNPUy.pklx.pkl差異一:芯片架構(gòu)差異導(dǎo)致算子實(shí)現(xiàn)不同例如,矩陣計(jì)算時(shí),昇騰采用16x16分形,英偉達(dá)采用8x8分形即使算子功能相同,在不同架構(gòu)下算子實(shí)現(xiàn)方式可能不同差異二:工具鏈差異導(dǎo)致遷移效率不同算子重開(kāi)發(fā)、精度調(diào)試、性能調(diào)優(yōu)的難度體現(xiàn)在工具鏈的能力上 昇騰 無(wú)工具鏈 其他架構(gòu)亟需精度對(duì)比工具:GPU的推理精度在適配昇騰訓(xùn)練的模型時(shí),需要以昇騰訓(xùn)練的模型精度為標(biāo)桿遷移工作量大:建立工具鏈完成對(duì)昇騰的精度對(duì)比和調(diào)優(yōu)。MindStduioIDEOSMindStudio命令行精度結(jié)果基礎(chǔ)庫(kù)、加速庫(kù)、三方庫(kù)等支持情況不同跨架構(gòu)時(shí)需通過(guò)引入、適配第三方庫(kù),或者開(kāi)發(fā)基于自身架構(gòu)的對(duì)等庫(kù)來(lái)解決庫(kù)的差異問(wèn)題計(jì)算架構(gòu)支持的主要基礎(chǔ)庫(kù)/加速庫(kù)昇騰DVPP/AIPP/mxVision/ACLNN/ACLBlas等英偉達(dá)CodecSDK/CV-CUDA/昇騰已支持國(guó)內(nèi)外開(kāi)源開(kāi)放大模型,實(shí)測(cè)性能持平業(yè)界昇騰已支持國(guó)內(nèi)外開(kāi)源開(kāi)放大模型,實(shí)測(cè)性能持平業(yè)界PAGE22PAGE22HuaweiProprietary-RestrictedDistribution國(guó)內(nèi)唯一已完成訓(xùn)練千億參數(shù)大模型的技術(shù)路線(xiàn),業(yè)界主流大模型PyTorch實(shí)測(cè)性能均達(dá)到0.8~1.1倍業(yè)界業(yè)界主流4款開(kāi)源大模型

MindSpore+昇騰PyTorch+NV

測(cè)試報(bào)告 已測(cè)試客戶(hù):YD、MY、ZJ100B業(yè)界業(yè)界LLaMA-3參數(shù):7B/13B/70B7B13B業(yè)界70B業(yè)界7B業(yè)界13B業(yè)界0.91X、CA、HWY、CGCSYS0.83X

參數(shù):6B/10B/130B6B業(yè)界6B業(yè)界已測(cè)試客戶(hù):ZP6B業(yè)界6B業(yè)界CXJH、MT、LTYQwen-2參數(shù):7B/72B已測(cè)試客戶(hù):DX、VIP7B業(yè)界72B業(yè)界0.83X7B業(yè)界0.9X0.87X最新主流開(kāi)源模型均已陸續(xù)適配并商用中Baichuan2|GLMV3|SiT|MixTral-8x7B|StableDiffusion|OpenSora|VideoGPT|Qwen-VL…DeepSeek系列模型昇騰訓(xùn)練產(chǎn)品適配計(jì)劃及微調(diào)部署建議DeepSeek系列模型昇騰訓(xùn)練產(chǎn)品適配計(jì)劃及微調(diào)部署建議23HuaweiProprietary-RestrictedDistribution23HuaweiProprietary-RestrictedDistributionDeepSeek模型A2適配情況DeepSeekV3已適配DeepSeekR1已適配DeepSeekJanus-Pro已適配微調(diào)算法目標(biāo)性能部署建議DeepSeek模型A2適配情況DeepSeekV3已適配DeepSeekR1已適配DeepSeekJanus-Pro已適配微調(diào)算法目標(biāo)性能部署建議LoRA微調(diào)1.1x業(yè)界8機(jī)Atlas800TA2qLoRA微調(diào)1.1x業(yè)界4機(jī)Atlas800TA2全參微調(diào)1.1x業(yè)界32機(jī)Atlas800TA2支持DualPipe、跨節(jié)點(diǎn)All2All等優(yōu)化

支持CCLoRA、Fused_MLP核心技術(shù),提升微調(diào)訓(xùn)練吞吐性能核心技術(shù)H800A2核心技術(shù)H800A2FP8+20%~25%不支持無(wú)輔助負(fù)載均衡損失評(píng)分效果提升評(píng)分效果提升DualPipe計(jì)算通信比1:1->8:1,+8~12%計(jì)算通信比3:1->6:1,+4~6%跨節(jié)點(diǎn)All2All優(yōu)化RMSNorm+MLA部分重計(jì)算省2~3G內(nèi)存省2~3G內(nèi)存場(chǎng)景核心技術(shù)A2DeepSeek適配LoRA微調(diào)CCLoRA支持25Q1支持Fused_MLP支持qLoRA微調(diào)CCLoRA支持Fused_MLP不支持長(zhǎng)序列微調(diào)長(zhǎng)序列CP方案支持DeepSeek主干模型均已支持昇騰推理開(kāi)箱,性能持續(xù)提升中DeepSeek主干模型均已支持昇騰推理開(kāi)箱,性能持續(xù)提升中PAGE24HuaweiProprietary-RestrictedDistributionPAGE24HuaweiProprietary-RestrictedDistribution模型硬件格式部署建議模型硬件格式部署建議進(jìn)展DeepSeekJanusPro1BAtlas800IA2BF16單卡部署,單機(jī)8實(shí)例已適配發(fā)布Atlas300IDuoFP16單卡部署已適配發(fā)布A2/DuoINT8適配中適配中DeepSeekJanusPro7BAtlas800IA2BF16單卡部署,單機(jī)8實(shí)例已適配發(fā)布Atlas300IDuoFP16單卡部署已適配發(fā)布A2/DuoINT8適配中適配中 理 采用BF16或FP16數(shù)據(jù)格式進(jìn)行推理,需要內(nèi)存約為1340GB需要采用Atlas800I/TA2(8*64GB)4機(jī)并行X4Atlas800IA2(8*64GB)最小配置為4機(jī)并行采用Atlas800TA2時(shí)亦需4機(jī)并行 理 采用INT8數(shù)據(jù)格式進(jìn)行推理,需要內(nèi)存<700GB,可2機(jī)并行X2Atlas800IA2(8*64GB)最小配置為2機(jī)并行采用Atlas800TA2時(shí)亦需2機(jī)并行關(guān)鍵性能優(yōu)化特性MLA架構(gòu):支持關(guān)鍵性能優(yōu)化特性MLA架構(gòu):支持EP策略:支持PD分離部署:待支持W8A8量化:支持MTP多token預(yù)測(cè):待支持模型參數(shù)格式部署建議進(jìn)展DeepSeek-8BBF16/INT8<14B模型可采用Atlas300IDuo推理;大于14B模型推薦Atlas800IA2推理:1.5BA2支持開(kāi)發(fā)板部署14BA2整體已適配發(fā)布R1-Distill-Llama70BBF16/INT8Atlas800IA2BF16DeepSeek-1.5BBF16/INT8/INT8推理已發(fā)布R1-Distill-Qwen7BBF16/INT8除70B模型外,其他模型Atlas300IDuo14BBF16/INT8FP16/INT832BBF16/INT8DeepseekV3/R1模型本地化部署組網(wǎng)方案DeepseekV3/R1模型本地化部署組網(wǎng)方案PAGE25HuaweiProprietary-RestrictedDistributionPAGE25HuaweiProprietary-RestrictedDistributionNFS訪(fǎng)問(wèn)NFS訪(fǎng)問(wèn)分級(jí)9950DPC訪(fǎng)問(wèn)9540)訓(xùn)推平臺(tái)(按需配置)xx臺(tái)通用服務(wù)器業(yè)務(wù)面CE6865E)SpineCE98608*25GE 推理調(diào)度管理流量 LeafCE6865E)CE5882LeafCE9860 4*GE8*25GE推理讀流量AI推理服務(wù)器(Atlas800IA2)4臺(tái)*8口*200GE16*400GE一分二LeafCE9860*2臺(tái)SpineCE9860*2400GRoCE交換機(jī)參數(shù)面圖例圖例 200G100G25G DeepSeekR1/V3推理配置建議BF16最小配置4臺(tái)計(jì)算節(jié)點(diǎn);INT8最小配置2臺(tái)計(jì)算節(jié)點(diǎn);參數(shù)面用于智能集群分布式推理時(shí)參數(shù)交換,要求網(wǎng)絡(luò)具備高吞吐低時(shí)延能力,部署高帶寬的智能無(wú)損RoCE網(wǎng)絡(luò),每臺(tái)推理服務(wù)器8個(gè)200GEROCE光口樣本面用于訪(fǎng)問(wèn)存儲(chǔ)區(qū)的高速大帶寬互聯(lián)的存儲(chǔ)系統(tǒng),推薦部署為RoCE無(wú)損網(wǎng)絡(luò),每臺(tái)推理服務(wù)器2個(gè)25GE光口業(yè)務(wù)面用于系統(tǒng)業(yè)務(wù)調(diào)度和管理。通常部署為T(mén)CP/IP有損網(wǎng)絡(luò),每臺(tái)推力卡服務(wù)器2個(gè)25GE光口帶外管理AI服務(wù)器BMC管理,可選6DeepSeek系列模型昇騰NPU推理配置建議6序號(hào)模型發(fā)布日期描述本地部署推理最低配置當(dāng)前支持情況1DeepSeek-V32024.12.16MOE,671B4*Atlas800IA2(8卡,64GB)/models/MindIE/deepseekv32DeepSeek-R12025.2.26MOE,660B4*Atlas800IA2(8卡,64GB)/models/MindIE/deepseekR13DeepSeek-R1-Distill-Qwen-1.5B2025.1.20Qwen,1.5B1*310P或1*310B310P已支持,直接用mindIE可跑通,310B可支持4DeepSeek-R1-Distill-Qwen-7B2025.1.20Qwen,7B1*310P310P已支持,直接用mindIE可跑通5DeepSeek-R1-Distill-Qwen-14B2025.1.20Qwen,14B1*310P(顯存不小于48GB,量化后顯存不小于24G)310P已支持,直接用mindIE可跑通6DeepSeek-R1-Distill-Qwen-32B2025.1.20Qwen,32B2*310P(顯存不小于96GB)推薦4*310P以上配置310P已支持,直接用mindIE可跑通7DeepSeek-R1-Distill-Llama-8B2025.1.20Llama,8B1*310P310P已支持,直接用mindIE可跑通8DeepSeek-R1-Distill-Llama-70B2025.1.20Llama,70B1*Atlas800IA2(8卡,32GB)或8*310P310P已支持,直接用mindIE可跑通9Janus-Pro1B2025.1.28多模態(tài),1B1*310P或1*310B/models/MindIE/Janus-Pro310B適配中10Janus-Pro7B2025.1.28多模態(tài),7B1*310P/models/MindIE/Janus-ProPAGE28HuaweiProprietary-RestrictedDistributionPAGE28HuaweiProprietary-RestrictedDistributionAI計(jì)算使能服務(wù)-DeepSeek部署支持:快速適配DeepSeek模型,支撐模型快速上線(xiàn)模型運(yùn)行版本配套復(fù)雜=2.0ModelA CANN7.0.0,依賴(lài)MindSpeedPython=3.xModelB CANN6.0.RC3,依賴(lài)AclLitePython=3.x

ENV_A客戶(hù)不清楚模型組客戶(hù)不清楚模型組

推理運(yùn)行環(huán)境部署支持快速部署DeepSeek模型推理資源評(píng)估推理環(huán)境調(diào)測(cè)集群連通測(cè)試推理模型部署模型權(quán)重轉(zhuǎn)換快速部署DeepSeek模型推理資源評(píng)估推理環(huán)境調(diào)測(cè)集群連通測(cè)試推理模型部署模型權(quán)重轉(zhuǎn)換推理模型測(cè)試性能測(cè)試推理設(shè)備選型推理鏡像制作模型量化精度測(cè)試模型權(quán)重下載純模型測(cè)試服務(wù)化測(cè)試服務(wù)化啟動(dòng)加速框架Deepspeed|Mindspeed|MindIEAI計(jì)算框架PyTorch||異構(gòu)計(jì)算架構(gòu)CANNA昇騰處理器容器化部署鏡像封裝,提供容器命令物理機(jī)部署基于場(chǎng)景,提供開(kāi)發(fā)環(huán)境部署方法運(yùn)行環(huán)境部署Janus-Pro關(guān)鍵特性關(guān)鍵特性W8A8量化|服務(wù)化部署|EP并行推薦昇騰最佳實(shí)踐,快速?gòu)?fù)現(xiàn)DeepSeek系列模型推理流程,加速客戶(hù)應(yīng)用上線(xiàn)。PAGE28HuaweiProprietary-RestrictedDistributionPAGE28HuaweiProprietary-RestrictedDistributionAI計(jì)算使能服務(wù)-昇騰樣例演示:DeepSeek模型疑難解答,快速掌握昇騰技術(shù)路線(xiàn)挑戰(zhàn)挑戰(zhàn)調(diào)用復(fù)雜

根據(jù)業(yè)務(wù)開(kāi)發(fā)訴求,通過(guò)場(chǎng)景化賦能,幫助用MindStudio開(kāi)發(fā)工具AscendInferencetoolsAscendTrainingtoolsCANNtoolkit價(jià)值場(chǎng)景MindStudio開(kāi)發(fā)工具AscendInferencetoolsAscendTrainingtoolsCANNtoolkit價(jià)值場(chǎng)景服務(wù)內(nèi)容昇騰算子庫(kù)AOL昇騰調(diào)優(yōu)引擎AOE昇騰編譯器ATCMindFormersMindSpeedDeepSeek系列賦能DeepSeek系列賦能DeepSeek能力特性講解DeepSeek推理部署演示模型演示CANN&AI框架賦能昇騰基礎(chǔ)01需求調(diào)研01需求調(diào)研賦能流程02 03賦能實(shí)施調(diào)研客戶(hù)工程師開(kāi)發(fā)過(guò)程中的痛點(diǎn)、難點(diǎn)明確客戶(hù)當(dāng)前能力缺位情況提供賦能內(nèi)容提供昇騰樣例昇騰模型/應(yīng)用開(kāi)發(fā)流程演示Demo樣例講解昇騰AI基礎(chǔ)知識(shí)賦能模型精度采集模型性能采集昇騰推理方案昇騰加速組件昇騰模型并行昇騰模型遷移AI基礎(chǔ)知識(shí)環(huán)境搭建示例昇騰全棧軟件社區(qū)資源講解結(jié)合昇騰社區(qū)樣例,使能快速開(kāi)發(fā)硅基流動(dòng)基于昇騰底座, 硅基流動(dòng)基于昇騰底座, 一周實(shí)現(xiàn)用戶(hù)增長(zhǎng)8倍、突破150萬(wàn)+PAGE29HuaweiProprietary

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論