微課13-1 自然語言處理的進(jìn)步_第1頁
微課13-1 自然語言處理的進(jìn)步_第2頁
微課13-1 自然語言處理的進(jìn)步_第3頁
微課13-1 自然語言處理的進(jìn)步_第4頁
微課13-1 自然語言處理的進(jìn)步_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第2版周蘇教授QQ:81505050人工智能導(dǎo)論微課13-1周蘇教授QQ:81505050自然語言處理的進(jìn)步基于句法分析和語義分析的自然語言處理系統(tǒng)已經(jīng)在許多任務(wù)上獲得了成功,但是它們的性能受到現(xiàn)實中極其復(fù)雜的語言現(xiàn)象的限制。如今,由于存在大量機(jī)器可讀形式的可用文本,因此可以考慮基于數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法應(yīng)用于自然語言處理。微課13-1自然語言處理的進(jìn)步在2012年的ImageNet比賽中,深度學(xué)習(xí)系統(tǒng)取得的令人驚嘆的優(yōu)秀表現(xiàn)帶動計算機(jī)視覺出現(xiàn)了一個發(fā)展的轉(zhuǎn)折點。而到2018年,自然語言處理也出現(xiàn)了一個轉(zhuǎn)折點,它的主要推動力是,深度學(xué)習(xí)和遷移學(xué)習(xí)顯著提高了自然語言處理的技術(shù)水平:可以下載通用語言模型,并針對特定任務(wù)進(jìn)行微調(diào),以至于研究者為此斷言“自然語言處理的ImageNet時刻已經(jīng)到來”。26.1關(guān)于ImageNetImageNet是斯坦福大學(xué)教授李飛飛為了解決機(jī)器學(xué)習(xí)中過擬合和泛化的問題而在2007年牽頭構(gòu)建的一種數(shù)據(jù)集。直到目前,該數(shù)據(jù)集仍然是深度學(xué)習(xí)領(lǐng)域中圖像分類、檢測、定位的最常用數(shù)據(jù)集之一?;贗mageNet有一個比賽,稱為ImageNet大規(guī)模視覺識別挑戰(zhàn)賽,2010年到2017年每年舉辦一次,歷年優(yōu)勝者中誕生了多個著名的深度學(xué)習(xí)網(wǎng)絡(luò)模型。比賽包括:圖像分類、目標(biāo)定位、目標(biāo)檢測、視頻目標(biāo)檢測、場景分類。自然語言處理的ImageNet轉(zhuǎn)折點始于2013年和2014年的兩個項目,研究人員可以下載模型,或者在不使用超級計算機(jī)的情況下,相對快速地訓(xùn)練他們自己的模型。預(yù)訓(xùn)練上下文表示的開銷要高出幾個量級。26.1關(guān)于ImageNet谷歌云TPU推薦的參考模型Transformer允許使用者高效地訓(xùn)練比之前更大更深的神經(jīng)網(wǎng)絡(luò)(這一次是因為軟件的進(jìn)步)。自2018年以來,新的自然語言處理項目通常從一個預(yù)先訓(xùn)練好的Transformer模型開始。GPT-2是一種類似于Transformer的語言模型,它有15億個參數(shù),在40GB的因特網(wǎng)文本上訓(xùn)練。它在法英翻譯、查找遠(yuǎn)距離依賴的指代對象以及一般知識問答等任務(wù)中都取得了良好的成績,并且所有這些成績都沒有針對特定任務(wù)進(jìn)行微調(diào)。例如在僅給定幾個單詞作為提示時,GPT-2依然可以生成相當(dāng)令人信服的文本。26.2自然語言處理的ImageNet時刻數(shù)據(jù)驅(qū)動的模型更容易開發(fā)和維護(hù),并且在標(biāo)準(zhǔn)的基準(zhǔn)測試中得分更高。可能是Transformer及其相關(guān)模型學(xué)習(xí)到了潛在的表征,這些表征捕捉到與語法和語義信息相同的基本思想,也可能是在這些大模型中發(fā)生了完全不同的事情。但我們只知道,使用文本數(shù)據(jù)訓(xùn)練的系統(tǒng)比依賴手工創(chuàng)建特征的系統(tǒng)更容易維護(hù),更容易適應(yīng)新的領(lǐng)域和新的自然語言。26.2自然語言處理的ImageNet時刻GPT(衍生式預(yù)訓(xùn)練變壓器)是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型,主要用于文本摘要、機(jī)器翻譯、分類、代碼生成和對話AI。2018年GPT-1誕生,這也是自然語言處理的預(yù)訓(xùn)練模型元年。常用任務(wù)包括:·自然語言推理:判斷兩個句子的關(guān)系(包含、矛盾、中立)·問答與常識推理:輸入文章及若干答案,輸出答案的準(zhǔn)確率·語義相似度識別:判斷兩個句子語義是否相關(guān)·分類:判斷輸入文本是指定的哪個類別26.3什么是GPTGPT-2于2019年如期而至,不過它并沒有對原有的網(wǎng)絡(luò)進(jìn)行過多的結(jié)構(gòu)創(chuàng)新與設(shè)計,只使用了更多的網(wǎng)絡(luò)參數(shù)與更大的數(shù)據(jù)集:最大模型共計48層,參數(shù)量達(dá)15億,學(xué)習(xí)目標(biāo)則使用無監(jiān)督預(yù)訓(xùn)練模型來完成有監(jiān)督任務(wù)。在性能方面,除了理解能力外,GPT-2在生成方面第一次表現(xiàn)出了強大的天賦:閱讀摘要、聊天、續(xù)寫、編故事,甚至生成假新聞、釣魚郵件或在網(wǎng)上進(jìn)行角色扮演等,通通不在話下。在“變得更大”之后,GPT-2的確展現(xiàn)出了普適而強大的能力,并在多個特定的語言建模任務(wù)上實現(xiàn)了彼時的最佳性能。26.3.1從GPT-1到GPT-3之后,GPT-3出現(xiàn)了,作為一個無監(jiān)督模型(自監(jiān)督模型),它幾乎可以完成自然語言處理的絕大部分任務(wù),而且在諸多任務(wù)上表現(xiàn)卓越,例如在法語-英語和德語-英語機(jī)器翻譯任務(wù)上達(dá)到當(dāng)前最佳水平,自動產(chǎn)生的文章幾乎讓人無法辨別是出自人還是機(jī)器(52%的正確率,與隨機(jī)猜測相當(dāng)),更令人驚訝的,是在兩位數(shù)的加減運算任務(wù)上達(dá)到幾乎100%的正確率,甚至還可以依據(jù)任務(wù)描述自動生成代碼。一個無監(jiān)督模型功能多效果好,似乎讓人們看到了通用人工智能的希望,可能這就是GPT-3影響如此之大的主要原因。26.3.1從GPT-1到GPT-3ChatGPT是由人工智能研究實驗室OpenAI在2022年11月30日發(fā)布的全新聊天機(jī)器人模型,一款人工智能技術(shù)驅(qū)動的自然語言處理工具。ChatGPT使用了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),也是GPT-3.5架構(gòu)的主力模型,這是一種用于處理序列數(shù)據(jù),優(yōu)化對話的語言模型,擁有語言理解和文本生成能力,尤其是它會通過連接大量語料庫來訓(xùn)練模型,這些語料庫包含了真實世界中的對話,使得ChatGPT具備上知天文下知地理,還能根據(jù)聊天的上下文進(jìn)行互動的能力,做到與人類幾乎無異的聊天場景進(jìn)行交流。26.3.2ChatGPT聊天機(jī)器人模型與對策ChatGPT不單是聊天機(jī)器人,它還能夠通過學(xué)習(xí)和理解人類的語言來進(jìn)行對話,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務(wù),同時也引起無數(shù)網(wǎng)友沉迷與ChatGPT聊天,成為熱門話題。ChatGPT不僅能流暢地對話,甚至可根據(jù)提示生成幾乎任何主題的原始文本,包括文章、論文、笑話、編碼甚至詩歌。ChatGPT太“聰明”了,無論是生成小說、疑難解答或者是哲學(xué)的問題,ChatGPT都交上幾乎完美的答案,令人驚嘆不已。26.3.2ChatGPT聊天機(jī)器人模型與對策ChatGPT采用了注重道德水平的訓(xùn)練方式,按照預(yù)先設(shè)計的道德準(zhǔn)則,對不懷好意的提問和請求“說不”。一旦發(fā)現(xiàn)用戶給出的文字提示里面含有惡意,包括但不限于暴力、歧視、犯罪等意圖,都會拒絕提供有效答案。不過,ChatGPT的強大功能引起學(xué)術(shù)界的擔(dān)憂。頂級科學(xué)雜志《自然》宣布,將人工智能工具列為作者的論文不能在該雜志上發(fā)表。2023年1月27日巴黎政治大學(xué)宣布,該校已向所有學(xué)生和教師發(fā)送電子郵件,要求禁止使用ChatGPT等一切基于AI的工具,旨在防止學(xué)術(shù)欺詐和剽竊。26.3.2ChatGPT聊天機(jī)器人模型與對策2023年初,谷歌發(fā)布了從文本生成高保真音樂(文生音樂)的AI模型MusicLM的研究,該系統(tǒng)可以從文本描述中生成任何類型的高保真音樂。但因擔(dān)心風(fēng)險,谷歌并沒有立即發(fā)布該產(chǎn)品。據(jù)了解,谷歌自己的AudioML和人工智能研究機(jī)構(gòu)OpenAI的Jukebox等項目都可以從文字生成音樂。然而,MusicLM模型和龐大的訓(xùn)練數(shù)據(jù)庫(280000小時的音樂)使其能制作出特別復(fù)雜或保真度特別高的歌曲。比如“一種舞曲和雷鬼音樂的混合體,其曲調(diào)空曠、超凡脫俗,能喚起驚奇和敬畏之感”,MusicLM就可以實現(xiàn)。26.4從文本生成音樂的MusicLM模型ChatGPT以其強大的信息整合和對話能力驚艷了全球,一項調(diào)查顯示,學(xué)生們已經(jīng)在用ChatGPT做作業(yè),用ChatGPT肆無忌憚地作弊了。于是,教育系統(tǒng)試圖封殺ChatGPT,防ChatGPT如洪水猛獸卻還是屢禁不止。教授們擔(dān)心,這會對教育產(chǎn)生災(zāi)難性影響,讓學(xué)生大腦“萎縮”。據(jù)說斯坦福大學(xué)的研究團(tuán)隊提出了一種用于檢測AI生成文本的全新算法——D

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論