《人工智能基礎(chǔ)與應(yīng)用》課件-任務(wù)10 認知智能-機器如何懂語義、會思考_第1頁
《人工智能基礎(chǔ)與應(yīng)用》課件-任務(wù)10 認知智能-機器如何懂語義、會思考_第2頁
《人工智能基礎(chǔ)與應(yīng)用》課件-任務(wù)10 認知智能-機器如何懂語義、會思考_第3頁
《人工智能基礎(chǔ)與應(yīng)用》課件-任務(wù)10 認知智能-機器如何懂語義、會思考_第4頁
《人工智能基礎(chǔ)與應(yīng)用》課件-任務(wù)10 認知智能-機器如何懂語義、會思考_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

AI遇見應(yīng)用

興趣引領(lǐng)未來項目三認知人工智能的應(yīng)用技術(shù)任務(wù)三認知智能——機器如何懂語義、會思考人工智能基礎(chǔ)與應(yīng)用

項目三認知人工智能的應(yīng)用技術(shù)目錄人工智能基礎(chǔ)與應(yīng)用

項目三認知人工智能的應(yīng)用技術(shù)任務(wù)三認知智能——機器如何懂語義、會思考教學(xué)目標教學(xué)要求內(nèi)容概覽相關(guān)知識3.3.1

認知自然語言處理及應(yīng)用 3.3.2

走近知識圖譜3.3.3

數(shù)據(jù)智能推動人機協(xié)同3.3.4大語言模型從量變到質(zhì)變

練習(xí)與思考 【教學(xué)目標】1.理解并掌握自然語言處理的含義及常見應(yīng)用2.初步學(xué)習(xí)知識圖譜的內(nèi)涵、體系及應(yīng)用3.了解數(shù)據(jù)智能的定義、發(fā)展目標及數(shù)據(jù)中臺的意義4.了解大語言模型及其訓(xùn)練方式

什么是自然語言處理?(NaturalLanguageProcessing,簡稱NLP)自然語言處理的目標是彌補人類交流(自然語言)與計算機理解(機器語言)之間的差距,最終實現(xiàn)計算機在理解自然語言上像人類一樣智能,使計算機擁有能夠理解、處理、并使用人類語言的能力。一、認知自然語言處理及應(yīng)用

自然語言處理的常見應(yīng)用“機器翻譯”讓世界變成真正意義上的地球村,因其效率高、成本低滿足了全球各國多語言信息快速翻譯的需求?!扒楦蟹治觥笨梢詮拇罅繑?shù)據(jù)中識別和吸收相關(guān)信息,而且能夠判斷出一段文字所表達觀點和態(tài)度的正負面性?!爸悄軉柎稹蹦軌蛑咐糜嬎銠C自動回答用戶所提出的問題?!皞€性化推薦”可以依據(jù)大數(shù)據(jù)和歷史行為記錄,學(xué)習(xí)用戶興趣愛好,實現(xiàn)對用戶意圖的精準理解,實現(xiàn)精準匹配。“文本分類”通過分析郵件中的文本內(nèi)容,能夠相對準確地判斷郵件是否為垃圾郵件。收集郵件中的特征詞生成垃圾詞庫和非垃圾詞庫。一、認知自然語言處理及應(yīng)用

自然語言處理的常見應(yīng)用電子商務(wù)背后的自然語言處理應(yīng)用分析用戶詞句:對客戶精準理解個性化推薦:幫助選擇困難癥顧客情感分析:分析評論,幫助產(chǎn)品分析智能問答:回復(fù)客戶問題一、認知自然語言處理及應(yīng)用

自然語言處理的發(fā)展趨勢未來自然語言處理將朝著兩個互補式的方向發(fā)展:“大規(guī)模語言數(shù)據(jù)的分析處理能力”和“人-機交互方式”。1.大規(guī)模語言數(shù)據(jù)的分析處理能力:指的是建立在自然語言處理上對語言信息進行獲取、分析、推理和整合的能力。一、認知自然語言處理及應(yīng)用以智能車載為例:在汽車使用、運維保養(yǎng)時,會產(chǎn)生大量的數(shù)據(jù)(車聯(lián)網(wǎng)數(shù)據(jù)、車主數(shù)據(jù)特征包括駕駛行為、周邊環(huán)境、違章數(shù)據(jù)、運維保養(yǎng)數(shù)據(jù)、習(xí)慣偏好)。

自然語言處理的發(fā)展趨勢2.人-機交互方式:指的是將自然語言作為人與機器交互的自然接口和統(tǒng)一的交互方式。不同的機器,通常要使用不同的開發(fā)語言或方式,這嚴重影響了人們對機器的開發(fā)與使用。只有通過采用自然語言處理,才能讓機器具有理解人類語言的能力,從而實現(xiàn)建立在自然語言基礎(chǔ)上的人機交互??偨Y(jié):自然語言處理作為一門新興學(xué)科,其最終目標是為了彌補人類交流(自然語言)與計算機理解(機器語言)之間的差距,最終實現(xiàn)計算機在理解自然語言上像人類一樣智能。一、認知自然語言處理及應(yīng)用

什么是知識圖譜?知識圖譜(KnowledgeGraph)是一門典型的多學(xué)科融合,通過將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息科學(xué)等學(xué)科理論、方法與計量學(xué)、統(tǒng)計學(xué)等方法結(jié)合,并利用可視化的圖譜形象地展示出來。其核心目標是把復(fù)雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來,揭示知識的動態(tài)發(fā)展規(guī)律。知識圖譜,本質(zhì)上,是一種揭示實體之間關(guān)系的語義網(wǎng)絡(luò)。二、走近知識圖譜

什么是知識圖譜?在信息的基礎(chǔ)上,建立實體之間的聯(lián)系,就能行成“知識”。知識圖譜是由一條條知識組成,每條知識表示為一個SPO三元組(Subject-Predicate-Object主謂賓,用來表示事物的一種方法和形式),而這個三元組集合可以抽象為一張圖。大量與之相關(guān)的實體信息會不斷關(guān)聯(lián)并結(jié)構(gòu)化地呈現(xiàn)出來,實現(xiàn)了數(shù)據(jù)圖譜化。二、走近知識圖譜本體(Ontology):實體類型的分類體系(如“人物”“地點”“事件”)。關(guān)系模式:定義實體間允許的關(guān)系類型(如“人物-工作于-公司”)。約束規(guī)則:數(shù)據(jù)類型、值域、唯一性等約束(如“出生日期必須是日期類型”)

知識圖譜的體系架構(gòu)知識圖譜的體系架構(gòu)是指其構(gòu)建自身模式的結(jié)構(gòu)二、走近知識圖譜

知識圖譜的體系架構(gòu)共分為三個步驟:知識抽?。簭囊恍┕_的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)中,抽取出可用的知識單元。知識單元主要包括實體抽取、關(guān)系抽取以及屬性抽取3個知識要素。知識表示:把知識客體中的知識因子與知識關(guān)聯(lián)起來,便于人們識別和理解知識,分為主觀知識表示和客觀知識表示兩種。知識融合:是高層次的知識組織,使來自不同知識源的知識在同一框架規(guī)范下進行組織,實現(xiàn)數(shù)據(jù)、信息、經(jīng)驗以及人的思想的融合,形成高質(zhì)量的知識庫。二、走近知識圖譜

知識圖譜的應(yīng)用包括:智能搜索、社交網(wǎng)絡(luò),網(wǎng)上購物、新聞查詢等,知識圖譜已經(jīng)在我們的生活中、垂直行業(yè)應(yīng)用中發(fā)揮著日益重要的作用。二、走近知識圖譜

大數(shù)據(jù)的新篇章——數(shù)據(jù)智能數(shù)據(jù)智能的目標是讓數(shù)據(jù)驅(qū)動決策,讓機器具備推理等認知能力。只有業(yè)務(wù)數(shù)據(jù)化進程的完成,才能真正進入到業(yè)務(wù)智能化,依靠數(shù)據(jù)去改變業(yè)務(wù)、指導(dǎo)決策。三、數(shù)據(jù)智能推動人機協(xié)同大數(shù)據(jù)行業(yè)發(fā)展階段

大數(shù)據(jù)的新篇章——數(shù)據(jù)智能讓機器具備推理能力,意味著自然語言處理、知識圖譜等認知技術(shù)需要不斷成熟。而數(shù)據(jù)驅(qū)動決策、數(shù)據(jù)驅(qū)動業(yè)務(wù)發(fā)展的新需求,標志著智能數(shù)據(jù)時代的興起。三、數(shù)據(jù)智能推動人機協(xié)同不同階段大數(shù)據(jù)與業(yè)務(wù)的關(guān)系

數(shù)據(jù)智能的定義及數(shù)據(jù)中臺的價值數(shù)據(jù)智能核心分為兩個細分領(lǐng)域:中臺和應(yīng)用場景。其中,中臺包含技術(shù)中臺、數(shù)據(jù)中臺和業(yè)務(wù)中臺,應(yīng)用場景則按照不同行業(yè)進行劃分。數(shù)字化已不可抵擋,在企業(yè)數(shù)字化轉(zhuǎn)型進程中,傳統(tǒng)企業(yè)需要具備互聯(lián)網(wǎng)公司那樣快速迭代升級的能力,因此,數(shù)據(jù)驅(qū)動業(yè)務(wù)發(fā)展的中臺建設(shè)至關(guān)重要。數(shù)據(jù)中臺的價值是將數(shù)據(jù)資產(chǎn)化,實現(xiàn)不同體系數(shù)據(jù)的打通,為下一步數(shù)據(jù)應(yīng)用打好基礎(chǔ)。數(shù)據(jù)中臺涵蓋了從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析等環(huán)節(jié)的所有工具及平臺,包括基礎(chǔ)平臺、用戶行為分析、數(shù)據(jù)報表可視化、數(shù)據(jù)科學(xué)平臺、自然語言處理和知識圖譜等諸多技術(shù)體系。三、數(shù)據(jù)智能推動人機協(xié)同

數(shù)據(jù)智能的定義及數(shù)據(jù)中臺的價值基于數(shù)據(jù)中臺有三種應(yīng)用方式:數(shù)據(jù)集:主要是數(shù)據(jù)標簽、用戶畫像等;數(shù)據(jù)模型:融合數(shù)據(jù)和算法,比如銷量預(yù)測、風(fēng)控建模等;數(shù)據(jù)應(yīng)用:將數(shù)據(jù)能力和軟件能力封裝,形成最終數(shù)據(jù)產(chǎn)品。而業(yè)務(wù)中臺則是指基于數(shù)據(jù)和技術(shù),結(jié)合行業(yè)應(yīng)用場景,從行業(yè)應(yīng)用切入,在大量服務(wù)垂直行業(yè)客戶,掌握大量場景需求后,逐步形成業(yè)務(wù)中臺能力??偨Y(jié):未來身處競爭激烈的智能數(shù)據(jù)時代,誰能更高效利用數(shù)據(jù),誰才能贏得最后的果實與勝利,傳統(tǒng)產(chǎn)業(yè)數(shù)字化已在風(fēng)口,已在路上。而認知智能的突破,一定不是由單個技術(shù)所完成,而是需要結(jié)合多種不同的技術(shù)持續(xù)完善和發(fā)展。三、數(shù)據(jù)智能推動人機協(xié)同數(shù)據(jù)標簽與用戶畫像什么是大語言模型?大語言模型(LargeLanguageModel,LLM)是一種人工智能模型,通常基于深度學(xué)習(xí)架構(gòu),旨在理解和生成人類語言。大語言模型在大量文本數(shù)據(jù)上進行訓(xùn)練,可執(zhí)行廣泛的任務(wù),包括文本總結(jié)、翻譯、情感分析等。其特點是規(guī)模龐大,包含數(shù)十億的參數(shù),能幫助機器學(xué)習(xí)文本數(shù)據(jù)中的復(fù)雜模式,有助于在各種自然語言處理任務(wù)上取得優(yōu)異的表現(xiàn)。ChatGPT的爆紅出圈吸引了更多人對于大語言模型的發(fā)展趨勢和現(xiàn)實應(yīng)用的關(guān)注。四、大語言模型從量變到質(zhì)變什么是大語言模型?常見的大語言模型有GPT-3(OpenAI):GPT-3(Generative

Pretrained

Transformer

3)是最著名的大語言模型之一,擁有1750億個參數(shù)。該模型在文本生成、翻譯和其他任務(wù)中表現(xiàn)出顯著的性能,在全球范圍內(nèi)引起了熱烈的反響,目前OpenAI已迭代到GPT-4版本。ERNIE3.0文心大模型(百度):百度推出的大語言模型ERNIE3.0首次在百億級和千億級預(yù)訓(xùn)練模型中引入大規(guī)模知識圖譜,提出了海量無監(jiān)督文本與大規(guī)模知識圖譜的平行預(yù)訓(xùn)練方法。Deepseek(深度求索):DeepSeek-R1:千億參數(shù)級對話模型,支持復(fù)雜邏輯推理與長文本理解,中文表現(xiàn)對標國際頂尖模型。DeepSeek-MoE:基于混合專家(MixtureofExperts)架構(gòu)的開源模型,兼顧性能與效率。DeepSeek-V2:輕量化模型,在同等參數(shù)量下推理速度提升30%,適合企業(yè)級部署。四、大語言模型從量變到質(zhì)變什么是大語言模型?大語言模型的快速發(fā)展從人工智能的發(fā)展歷程來看,模型和算法是其不斷成長的核心驅(qū)動力。10年前語言模型是自然語言處理的某個細分方向,并不為大眾所熟知,而ChatGPT的廣泛應(yīng)用則讓更多人體會到大語言模型的快速發(fā)展。四、大語言模型從量變到質(zhì)變ChatGPT發(fā)展歷程什么是大語言模型?大語言模型的快速發(fā)展2018年第一代GPT并沒有引起廣泛關(guān)注。但到了2020年5月,GPT-3一經(jīng)推出,情況就發(fā)生了非常大的變化,GPT-3的參數(shù)值從GPT-2的170億躍升到1750億,參數(shù)數(shù)量級是GPT-2的10倍以上,性能也有大幅提升,從而引起全球廣泛關(guān)注。大語言模型經(jīng)過大量的學(xué)習(xí),實現(xiàn)了從量變到質(zhì)變的飛躍,即當(dāng)數(shù)據(jù)量超過某個臨界點時,模型實現(xiàn)顯著的性能提升,并出現(xiàn)了小模型中不存在的能力,如上下文學(xué)習(xí)能力等。因此,當(dāng)我們應(yīng)用GPT-3及GPT-4對話時,越來越被其強大的互動能力和解決問題的能力所震驚,越來越感覺不到在和一個機器對話。這就是大語言模型快速發(fā)展所帶來的質(zhì)變。四、大語言模型從量變到質(zhì)變走近ChatGPTChatGPT是一個由OpenAI開發(fā)的大語言模型,它使用的是自然語言處理和深度學(xué)習(xí)技術(shù),可以理解語言內(nèi)容和語境,能夠基于在預(yù)訓(xùn)練階段所見的模式和統(tǒng)計規(guī)律來生成回答,還能根據(jù)聊天的上下文進行互動,真正像人類一樣聊天交流,另外還能完成撰寫郵件、視頻腳本、文案、翻譯、代碼、論文等任務(wù)。GPT的全稱是Generative

Pre-trained

Transformer,從名稱可以看出,它是一種生成模型,擅長生成輸出;它是預(yù)訓(xùn)練的,這意味著它已經(jīng)從大量文本數(shù)據(jù)中學(xué)習(xí)到了知識,是Transformer的一種類型。因此,在了解GPT的原理之前,首先要認識Transformer。四、大語言模型從量變到質(zhì)變走近ChatGPTTransformer架構(gòu)Transformer架構(gòu)是GPT的基礎(chǔ)。它是一種神經(jīng)網(wǎng)絡(luò),類似于人腦中的神經(jīng)元。Transformer能夠通過注意力機制和自注意力機制更好地理解文本、語音或音樂等順序數(shù)據(jù)的上下文。注意力機制允許模型通過學(xué)習(xí)元素之間的相關(guān)性或相似性(通常由數(shù)字向量表示)來關(guān)注輸入和輸出中最相關(guān)的部分。如果它關(guān)注的是同一序列,則稱為自注意力。四、大語言模型從量變到質(zhì)變組件功能嵌入(Embedding)位置編碼(PositionalEncoding)將單詞和它們的位置轉(zhuǎn)換為數(shù)字向量編碼器(Encoder)從輸入序列提取特征并分析其含義和上下文。它為每個輸入標記輸出一個隱藏狀態(tài)的矩陣,以傳遞給解碼器解碼器(Decoder)根據(jù)編碼器和先前的輸入標記生成輸出序列線性層和Softmax層將數(shù)字向量轉(zhuǎn)換為輸出單詞的概率分布表3-4Transformer組成走近ChatGPT從Transformer到GPT、GPT-2、GPT-3、GPT-4作為一種生成模型,GPT使用了Transformer架構(gòu)中的解碼器部分,而解碼器負責(zé)預(yù)測序列中的下一個詞。GPT通過使用先前生成的結(jié)果作為輸入,反復(fù)執(zhí)行此過程以生成較長的文本,即自回歸。在訓(xùn)練第一個版本的GPT時,研究人員使用了數(shù)據(jù)庫的無監(jiān)督預(yù)訓(xùn)練,數(shù)據(jù)庫中包含超過7000本未經(jīng)出版的書籍。在預(yù)訓(xùn)練的基礎(chǔ)上,針對特定任務(wù)使用有監(jiān)督的微調(diào),會向人工智能展示請求和正確答案的示例,并要求人工智能從這些示例中學(xué)習(xí)。在GPT-2中,研究人員擴大了模型(15億個參數(shù))和給模型提供的語料庫的規(guī)模,在無監(jiān)督預(yù)訓(xùn)練中使用WebText,這是數(shù)百萬個網(wǎng)頁的集合。在GPT-3中,模型進一步擴展,規(guī)模達到1750億個參數(shù),并使用了來自網(wǎng)絡(luò)、書籍和維基百科的數(shù)百億個單詞構(gòu)成的龐大語料庫。四、大語言模型從量變到質(zhì)變大語言模型的訓(xùn)練方式訓(xùn)練大語言模型需要向其提供大量的文本數(shù)據(jù),模型利用這些數(shù)據(jù)來學(xué)習(xí)人類語言的結(jié)構(gòu)、語法和語義。該過程通常使用自我監(jiān)督學(xué)習(xí)的技術(shù)實現(xiàn)無監(jiān)督學(xué)習(xí)。訓(xùn)練過程包括兩個主要步驟:預(yù)訓(xùn)練(Pre-training)和微調(diào)(Fine-tuning):在預(yù)訓(xùn)練階段,模型從一個巨大的、多樣化的數(shù)據(jù)集中學(xué)習(xí),通常包含來自不同來源的數(shù)十億詞匯,如網(wǎng)站、書籍、文章等。這個階段允許模型學(xué)習(xí)一般的語言模式和表征。在微調(diào)階段,模型在與目標任務(wù)或領(lǐng)域相關(guān)的更具體、更小的數(shù)據(jù)集上進一步訓(xùn)練。這有助于模型微調(diào)其理解,并適應(yīng)任務(wù)的特殊要求。四、大語言模型從量變到質(zhì)變大語言模型的訓(xùn)練方式通過訓(xùn)練,大語言模型涌現(xiàn)的能力如下:上下文學(xué)習(xí)。以GPT-3為例,其正式引入了上下文學(xué)習(xí)能力。假設(shè)語言模型已提供自然語言指令和多個任務(wù)描述,它可以通過完成輸入文本的詞序列來生成測試實例的預(yù)期輸出,而無需額外的訓(xùn)練或梯度更新。指令遵循。通過對自然語言描述(即指令)格式化的多任務(wù)數(shù)據(jù)集的混合進行微調(diào),大語言模型在微小的任務(wù)上表現(xiàn)良好,這些任務(wù)也以指令的形式所描述。循序漸進的推理。小語言模型通常很難解決涉及多個推

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論