




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
任務(wù)一項目八
揭秘生成式AI原理與編程應(yīng)用探索生成式AI的原理在人工智能技術(shù)飛速發(fā)展的今天,自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域不斷取得新突破。Transformer模型和GPT模型作為其中的關(guān)鍵技術(shù),被廣泛應(yīng)用于各種智能應(yīng)用中。作為一名對人工智能編程感興趣的學(xué)習(xí)者,需要了解這些模型的工作原理,為后續(xù)學(xué)習(xí)和應(yīng)用奠定基礎(chǔ),以便更好地理解生成式AI在編程中的應(yīng)用邏輯。深入研讀Transformer模型和GPT模型的相關(guān)資料,理解其理論知識。通過對模型架構(gòu)圖的分析、核心組件的功能剖析以及執(zhí)行流程的梳理,掌握Transformer模型處理序列數(shù)據(jù)的方式和GPT模型的文本生成機(jī)制。同時,對比不同版本的GPT模型,總結(jié)其技術(shù)演進(jìn)特點,明確無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)在提升模型性能方面的作用。
簡述Transformer模型架構(gòu)分析Transformer核心組件簡述GPT系列技術(shù)演進(jìn)能簡述軟件工程的發(fā)展歷程能分析AI在軟件工程生命周期各個階段的具體賦能方式能說明常用AI編程工具之間的差異01知識目標(biāo):
能夠針對不同的GPT模型版本,結(jié)合實際業(yè)務(wù)需求,進(jìn)行科學(xué)的選型具備對不同AI編程工具進(jìn)行客觀評價和綜合分析的能力02能力目標(biāo)
培養(yǎng)嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度和創(chuàng)新精神,在探索生成式AI原理及應(yīng)用過程中,勇于嘗試新方法、新思路樹立正確的技術(shù)價值觀03素質(zhì)目標(biāo)8.1.1認(rèn)知Transformer模型任務(wù)實施Transformer模型在2017年的論文《Attention
is
All
You
Need》中提出,是自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域的突破性架構(gòu),在自然語言處理領(lǐng)域得到了廣泛應(yīng)用,如機(jī)器翻譯、文本生成、問答系統(tǒng)、文本摘要等。它的核心優(yōu)勢在于通過自注意力機(jī)制處理序列數(shù)據(jù),摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的順序處理方式,這使得Transformer在處理長序列數(shù)據(jù)時具有更高的并行性和更好的性能。模型整體架構(gòu)由輸入、編碼器Encoder和解碼器Decoder與輸出四個大部分構(gòu)成
輸入部分
編碼器Encoder解碼器Decoder輸出部分Transformer架構(gòu)圖Transformer模型核心組件輸入嵌入:在自然語言處理中,原始輸入通常是離散的符號,比如文本中的單詞。輸入嵌入的作用就是將這些離散的符號映射到一個連續(xù)的向量空間中,每個符號對應(yīng)一個低維、稠密的向量,這個向量包含了該符號的語義信息。通過這種方式,模型可以更好地理解和處理輸入數(shù)據(jù),捕捉單詞之間的語義關(guān)系。位置編碼:由于Transformer模型本身不包含循環(huán)神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)中的順序結(jié)構(gòu),無法直接利用序列中元素的位置信息。因此,引入位置編碼來為每個元素添加位置信息。常見的位置編碼方法是使用正弦和余弦函數(shù)生成固定的位置向量,然后將其與詞向量相加,作為模型的輸入Transformer模型核心組件自注意力機(jī)制(Self-Attention):這是Transformer的核心組件,它允許模型在處理序列數(shù)據(jù)時,計算序列中每個元素與其他元素之間的關(guān)聯(lián)程度,從而動態(tài)地分配注意力權(quán)重。以自然語言處理中的句子為例,自注意力機(jī)制可以讓模型在處理每個單詞時,考慮句子中其他單詞對它的影響,捕捉單詞之間的長距離依賴關(guān)系(1)生成向量:對于輸入序列中的每個元素,首先將其嵌入表示分別映射到三個不同的向量空間,得到查詢向量(Query,簡稱Q)、鍵向量(Key,簡稱K)和值向量(Value,簡稱V)(2)計算注意力分?jǐn)?shù)(3)計算注意力權(quán)重:對歸一化后的注意力分?jǐn)?shù)應(yīng)用Softmax函數(shù),得到注意力權(quán)重(4)計算輸出向量:根據(jù)注意力權(quán)重對值向量進(jìn)行加權(quán)求和,得到自注意力機(jī)制的輸出向量Transformer模型核心組件多頭自注意力機(jī)制(Multi-HeadSelf-Attention):多頭自注意力機(jī)制本質(zhì)上是對自注意力機(jī)制的擴(kuò)展與深化。它通過使用多個不同的“頭”(Head)來并行執(zhí)行自注意力計算,這些不同的頭能夠從不同的角度捕捉輸入序列中元素之間的關(guān)系,從而使模型可以更全面、深入地理解序列信息,提升模型的表示能力和效果多頭自注意力機(jī)制Transformer模型核心組件10為什么要設(shè)置不同的head?不同的head關(guān)注的信息可能是不同的,有的head關(guān)注的是局部信息,有的關(guān)注的是較長距離的信息(類似分組卷積,同樣使用多個卷積核)。將bi,1,bi,2作concatenate操作,并乘權(quán)重生成bi。使用Multi-head的數(shù)目為h,若單頭的維度為d,則多頭中每個頭的維度為d/n。Transformer模型核心組件)
多頭映射給定輸入序列,首先將其經(jīng)過嵌入層得到嵌入向量。對于每個嵌入向量,分別通過多個不同的線性變換矩陣,生成多個頭對應(yīng)的查詢向量(Query)、鍵向量(Key)和值向量(Value)。01加權(quán)求和:根據(jù)每個頭計算得到的注意力權(quán)重,對相應(yīng)的值向量進(jìn)行加權(quán)求和,得到每個頭的輸出向量。03自注意力計算:對于每個頭,分別按照自注意力機(jī)制的計算方式,計算每個位置的注意力分?jǐn)?shù),對其進(jìn)行歸一化處理再通過Softmax函數(shù)得到注意力權(quán)重。02拼接與線性變換:將多個頭的輸出向量按順序拼接起來,形成一個更長的向量,然后通過一個線性變換矩陣進(jìn)行變換,得到最終的輸出向量。04多頭自注意力機(jī)制(執(zhí)行過程)Transformer模型核心組件殘差連接與層歸一化(Add&Norm)在每個編碼器中的每個子層(自注意力、前饋網(wǎng)絡(luò))的周圍都有一個殘差連接,并且都跟隨著一個“層-歸一化”步驟。如果我們?nèi)タ梢暬@些向量以及這個和自注意力相關(guān)聯(lián)的層-歸一化操作,那么看起來就像下面這張圖描述一樣:
Transformer模型核心組件殘差連接與層歸一化(Add&Norm)殘差連接用于緩解梯度消失問題,使模型能夠訓(xùn)練更深的網(wǎng)絡(luò);層歸一化對數(shù)據(jù)進(jìn)行歸一化處理,加速模型的收斂速度,提高模型的穩(wěn)定性。在每個子層(多頭自注意力機(jī)制或前饋神經(jīng)網(wǎng)絡(luò))輸出后,將子層的輸出與輸入相加(殘差連接)為了進(jìn)一步使得每一層的輸入輸出范圍穩(wěn)定在一個合理的范圍內(nèi),層歸一化技術(shù)被進(jìn)一步引入每個Transformer塊的當(dāng)中:Transformer模型核心組件前饋網(wǎng)絡(luò)(FeedForword)通過對自注意力層提供的充分結(jié)合了上下文信息的輸出進(jìn)行處理,在高維空間中進(jìn)行結(jié)合訓(xùn)練獲得的特征和知識,獲得更高級別的特征。前饋網(wǎng)絡(luò)由兩層全連接神經(jīng)網(wǎng)絡(luò)組成,中間通常使用ReLU(RectifiedLinearUnit)作為激活函數(shù)。對于輸入序列中的每個元素,前饋網(wǎng)絡(luò)獨立地進(jìn)行相同的變換操作。Transformer模型核心組件帶掩碼的多頭注意力帶掩碼的多頭注意力(MaskedMulti-HeadAttention):帶掩碼的多頭注意力是在多頭自注意力機(jī)制的基礎(chǔ)上,引入了掩碼(Mask)操作。掩碼的作用是在計算注意力分?jǐn)?shù)時,對某些位置進(jìn)行屏蔽,使其不參與注意力的計算或不影響最終的結(jié)果。這樣做的目的通常是為了滿足特定任務(wù)的需求,比如在生成文本時,確保模型只依賴已知的信息,而不是未來的內(nèi)容,從而保證生成過程的合理性和邏輯性。8.1.2認(rèn)知生成式預(yù)訓(xùn)練語言模型GPT2017年,Google推出了Transformer模型,這一創(chuàng)新架構(gòu)憑借其在性能上的顯著優(yōu)勢,迅速引起了OpenAI團(tuán)隊的關(guān)注。OpenAI隨后將研發(fā)重心轉(zhuǎn)移至Transformer架構(gòu),并于2018年成功發(fā)布了GPT(GPT-1)模型。GPT是一種基于生成式預(yù)訓(xùn)練(GenerativePre-Training)的大型Transformer解碼器網(wǎng)絡(luò),主要用于處理序列到序列的生成任務(wù)。該模型采用了多層Transformer解碼器堆疊的結(jié)構(gòu),僅使用了Transformer的解碼器部分,舍棄了編碼器中的交叉注意力機(jī)制層,以此來捕捉輸入文本中的長期依賴關(guān)系,進(jìn)而生成連貫的文本輸出。GPT模型的結(jié)構(gòu)主要由輸入層、隱藏層和輸出層三部分組成8.1.2認(rèn)知生成式預(yù)訓(xùn)練語言模型GPT輸入層(InputLayer):此層負(fù)責(zé)將文本轉(zhuǎn)化為模型能夠處理的格式,具體操作包括分詞、詞嵌入以及位置編碼等步驟,為后續(xù)的模型處理提供基礎(chǔ)數(shù)據(jù)。隱藏層(HiddenLayer):作為GPT模型的核心部分,由多個Transformer解碼器堆疊而成。這些解碼器相互協(xié)作,承擔(dān)著模型對輸入文本的理解與分析任務(wù),是模型進(jìn)行“思考”的關(guān)鍵所在。輸出層(OutputLayer):該層基于隱藏層的最終輸出,生成模型的最終預(yù)測結(jié)果。在GPT中,這一過程通常表現(xiàn)為生成下一個詞元的概率分布,從而實現(xiàn)文本的生成。8.1.2認(rèn)知生成式預(yù)訓(xùn)練語言模型GPTGPT基于Transformer的解碼器架構(gòu),采用無監(jiān)督的生成式預(yù)訓(xùn)練方法,在大規(guī)模的文本語料庫上進(jìn)行訓(xùn)練。其目標(biāo)是根據(jù)前面的單詞預(yù)測下一個單詞,即自回歸語言模型在訓(xùn)練過程中,給定一個文本序列,模型的目標(biāo)是根據(jù)前面的單詞預(yù)測下一個單詞。以輸入句子“我喜歡自然語言處理”為例,模型首先輸入“我”,預(yù)測下一個單詞是“喜歡”的概率;然后輸入“我喜歡”,預(yù)測下一個單詞是“自然”的概率,以此類推。通過最大化這種預(yù)測的概率,模型不斷調(diào)整自身的參數(shù)。模型利用多頭自注意力機(jī)制來捕捉文本中單詞之間的語義關(guān)系,通過多層的Transformer解碼器層對輸入進(jìn)行逐層的特征提取和語義編碼,學(xué)習(xí)到豐富的語言表示。1.無監(jiān)督預(yù)訓(xùn)練8.1.2認(rèn)知生成式預(yù)訓(xùn)練語言模型GPT3.GPT系列模型技術(shù)演進(jìn)8.1.3重構(gòu)應(yīng)用軟件開發(fā)新格局1.軟件工程發(fā)展歷程隨著人工智能技術(shù)的不斷進(jìn)步,特別是大模型能力的持續(xù)提升,軟件工程領(lǐng)域正迎來前所未有的變革,軟件工流程和模式正被重新定義,軟件智能化進(jìn)程顯著加速。軟件工程發(fā)展歷程經(jīng)歷了三個階段8.1.3重構(gòu)應(yīng)用軟件開發(fā)新格局2.AI賦能軟件工程生命周期8.1.3重構(gòu)應(yīng)用軟件開發(fā)新格局3.軟件開發(fā)常用AI工具8.1.3重構(gòu)應(yīng)用軟件開發(fā)新格局3.軟件開發(fā)常用AI工具AI編程工具GitHubCopilotMarsCodeAI通義靈碼FittenCodeCursorCodeGeexComate開發(fā)團(tuán)隊研發(fā)團(tuán)隊GitHub+OpenAI豆包阿里云清華大學(xué)與非十科技Anysphere智譜百度主要核心功能代碼補(bǔ)全???????代碼生成???????智能問答???????代碼解釋???????單元測試???????代碼重構(gòu)???????效果預(yù)覽???????VisualStudio????-??8.1.3重構(gòu)應(yīng)用軟件開發(fā)新格局3.軟件開發(fā)常用AI工具AI編程工具GitHubCopilotMarsCodeAI通義靈碼FittenCodeCursorCodeGeexComate收費模式免費版???????付費版$10/月企業(yè)版收費企業(yè)版收費企業(yè)版收費專業(yè)以商用收費企業(yè)版收費企業(yè)版收費支持的IDEVSCode????獨立IDE??JetBrains????-??Vim/Neovim????-??VisualStudio????-??8.1.3重構(gòu)應(yīng)用軟件開發(fā)新格局3.軟件開發(fā)常用AI工具產(chǎn)品名稱優(yōu)點缺點GitHubCopilot訓(xùn)練數(shù)據(jù)最全面;代碼建議準(zhǔn)確度高;與GitHub深度集成完全付費;價格相對較高M(jìn)arsCodeAI支持中文編程;本地部署選項;免費版功能豐富社區(qū)相對較??;部分高級功能需付費通義靈碼中文支持優(yōu)秀;阿里生態(tài)集成;免費版功能完整僅支持主流IDE;企業(yè)版價格較高FittenCode輕量級;安裝簡單功能相對基礎(chǔ);IDE支持有限Cursor獨立IDE;UI設(shè)計優(yōu)秀不能集成到其他IDE;需要單獨安裝使用CodeGeex開源免費;支持多種IDE;中英雙語支持響應(yīng)速度較慢;準(zhǔn)確度有待提高Comate團(tuán)隊協(xié)作功能強(qiáng);代碼審查能力強(qiáng);支持本地部署企業(yè)版價格高;配置相對復(fù)雜8.1.3重構(gòu)應(yīng)用軟件開發(fā)新格局3.軟件開發(fā)常用AI工具用戶群體推薦產(chǎn)品個人開發(fā)者預(yù)算充足:GitHubCopilot;預(yù)算有限:CodeGeex或Cursor中小團(tuán)隊中文環(huán)境:通義靈碼或MarsCodeAI;英文環(huán)境:GitHubCopilot大型企業(yè)需要本地部署:Comate或MarsCodeAI企業(yè)版;云服務(wù):Git
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 晉中市衛(wèi)生學(xué)校招聘真題
- 骨外科出院指導(dǎo)
- 基于數(shù)據(jù)挖掘技術(shù)的建筑能耗異常檢測及能耗預(yù)測研究
- 酒店食材購銷合同
- Z公司的財務(wù)風(fēng)險評價與控制研究
- 房地產(chǎn)企業(yè)財務(wù)共享服務(wù)中心實施效率及對策研究
- 媽媽的視力350字9篇
- 綠色供應(yīng)商整合對企業(yè)綠色創(chuàng)新的影響機(jī)理研究
- 動物王國的秘密關(guān)于動物保護(hù)話題的作文(9篇)
- 河北平山方言詞匯研究
- 2025-2030年中國婚慶產(chǎn)業(yè)行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025年新高考2卷(新課標(biāo)Ⅱ卷)英語試卷
- 制造企業(yè)加班管理制度
- 2025年中考化學(xué)必考要點知識歸納
- 三年級語文下冊全冊重點知識點歸納
- 兒童疼痛的評估及護(hù)理措施
- 護(hù)理試卷試題及答案
- 人文社科班試題及答案
- 生產(chǎn)經(jīng)營單位事故隱患內(nèi)部報告獎勵制度
- 2024年湖北省初中學(xué)業(yè)水平考試地理試卷含答案
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識 CCAA年度確認(rèn) 試題與答案
評論
0/150
提交評論