人工智能技術(shù)及應用 課件 ch1-緒論_第1頁
人工智能技術(shù)及應用 課件 ch1-緒論_第2頁
人工智能技術(shù)及應用 課件 ch1-緒論_第3頁
人工智能技術(shù)及應用 課件 ch1-緒論_第4頁
人工智能技術(shù)及應用 課件 ch1-緒論_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1緒論PREFACEChapter01本章目錄人工智能01機器學習02深度學習03常用語言和深度學習框架041.1人工智能1.1.1什么是人工智能百度百科對人工智能的描述是:它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統(tǒng)的一門新的技術(shù)科學。人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。人工智能是智能學科重要的組成部分,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器。該領(lǐng)域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能從誕生以來,理論和技術(shù)日益成熟,應用領(lǐng)域也不斷擴大??梢栽O(shè)想,未來人工智能帶來的科技產(chǎn)品,將會是人類智慧的“容器”。人工智能是對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也可能超過人的智能。維基百科對人工智能的描述是:它是機器或軟件的智能,而不是人類或動物的智能。它屬于計算機科學中開發(fā)和研究智能機器的研究領(lǐng)域?!癆I”也可以指機器本身。人工智能技術(shù)被廣泛應用于工業(yè)、政府和科學領(lǐng)域。一些備受矚目的應用程序包括:高級網(wǎng)絡(luò)搜索引擎(如Google)、推薦系統(tǒng)(YouTube、亞馬遜和Netflix使用)、理解人類語音(如Siri和Alexa)、自動駕駛汽車(如Waymo)、生成或創(chuàng)意工具(ChatGPT和AI藝術(shù)),以及在策略游戲(如國際象棋和圍棋)中進行最高級別的競爭。1.1人工智能1.1.1什么是人工智能大英百科全書對人工智能的描述是:它是指數(shù)字計算機或計算機控制的機器人執(zhí)行通常與智能生物相關(guān)的任務(wù)的能力。該術(shù)語經(jīng)常用于開發(fā)具有人類智力過程特征的系統(tǒng)的項目,例如推理、發(fā)現(xiàn)意義、概括或從過去的經(jīng)驗中學習的能力。自20世紀40年代數(shù)字計算機發(fā)展以來,已經(jīng)證明計算機可以被編程來執(zhí)行非常復雜的任務(wù),例如發(fā)現(xiàn)數(shù)學定理的證明或下棋。盡管計算機處理速度和內(nèi)存容量不斷進步,但目前還沒有任何程序能夠在更廣泛的領(lǐng)域或需要大量日常知識的任務(wù)中與人類的靈活性相匹配。另一方面,一些程序在執(zhí)行某些特定任務(wù)時已經(jīng)達到了人類專家和專業(yè)人員的性能水平,因此在醫(yī)學診斷、計算機搜索引擎、語音或手寫識別以及聊天機器人等各種應用中都可以找到這種有限意義上的人工智能。1.1人工智能1.1.2人工智能的發(fā)展歷史追溯歷史,人類對人工智能的研究始于古代的哲學家和數(shù)學家對機械或“形式”推理的研究,其中對邏輯理論的研究工作直接啟發(fā)了艾倫·圖靈(AlanTuring)的計算理論。該理論認為:機器通過打亂“0”和“1”這樣簡單的符號,可以模擬數(shù)學推導和形式推理。隨著計算理論、控制論和信息論的提出,研究人員開始考慮建立“電子大腦”的可能性。第一篇后來被認為是“人工智能”的論文是1943年麥卡魯奇(McCullouch)和皮茨(Pitts)所設(shè)計的圖靈完整(Turing-complete)的“人工神經(jīng)元”。人工智能發(fā)展的現(xiàn)代歷程可以分為三個階段,每一個階段都帶來了重要的理論與技術(shù)突破。第一階段(1940-1980年代):符號主義第二階段(1990-2000年代):連接主義第三階段(21世紀初-至今):深度學習1.1人工智能1.1.2人工智能的發(fā)展歷史第一階段(1940-1980年代):符號主義主要事件如下1936年艾倫·圖靈提出了圖靈機的概念:它是一種理論構(gòu)想,幫助我們理解和研究計算的本質(zhì)。它也提供了思考和解決各種計算和智能問題的基礎(chǔ),對計算機和人工智能的發(fā)展產(chǎn)生了深遠影響。1950年艾倫·圖靈提出了“圖靈測試”的概念:該測試可以評估一臺計算機是否能夠表現(xiàn)出與人類智能相媲美的行為。該測試的目的是探討計算機是否能夠模擬人類的思維過程和行為。圖靈測試因此成為衡量人工智能研究的重要標準之一。1956年8月,在美國漢諾斯小鎮(zhèn)寧靜的達特茅斯學院中,約翰·麥卡錫(JohnMcCarthy)、馬文·閔斯基(MarvinMinsky)、克勞德·香農(nóng)(ClaudeShannon)、艾倫·紐厄爾(AllenNewell)、赫伯特·西蒙(HerbertSimon)等科學家正聚在一起,討論著一個完全不食人間煙火的主題:用機器來模仿人類學習以及其他方面的智能。會議足足開了兩個月的時間,雖然大家沒有達成普遍的共識,但是卻為會議討論的內(nèi)容起了一個名字:人工智能。因此,1956年也就成為了人工智能元年。1.1人工智能1.1.2人工智能的發(fā)展歷史第一階段(1940-1980年代):符號主義1958年弗蘭克·羅森布拉特(FrankRosenblatt)和羅伯特·鮑姆(RobertBaum)提出了“感知器”模型,這是一個簡單的神經(jīng)網(wǎng)絡(luò)模型。這個模型具有輸入和輸出層,并通過調(diào)整權(quán)重來學習并對輸入數(shù)據(jù)進行分類,為連接主義奠定了基礎(chǔ)。1958年約翰·麥卡錫創(chuàng)造了人工智能程序設(shè)計語言LISP,是第一個專門為人工智能開發(fā)設(shè)計的語言,其靈活性和表達能力使其在后續(xù)研究中廣泛使用。1966年約瑟夫·維森鮑姆(JosephWeizenbaum)開發(fā)了ELIZA聊天機器人,是早期人工智能和自然語言處理領(lǐng)域的里程碑產(chǎn)品。它基于模式匹配和簡單的轉(zhuǎn)換規(guī)則,模擬了一個心理咨詢師的對話過程,可以與用戶進行基于文本的交互。雖然ELIZA并沒有真正的理解或意識,但它能夠以一種似乎具有智能的方式與用戶進行會話。盡管ELIZA的原理相對簡單,但它展示了如何利用專家知識和推理規(guī)則來模擬人類對話的能力,為后來的聊天機器人和自然語言處理技術(shù)的發(fā)展奠定了基礎(chǔ),并在人工智能研究中具有重要的歷史意義。1.1人工智能1.1.2人工智能的發(fā)展歷史第一階段(1940-1980年代):符號主義1976年研發(fā)的醫(yī)療診斷系統(tǒng)MYCIN,專門用于對細菌感染進行診斷和治療建議。它是第一個在臨床醫(yī)學中大規(guī)模應用的專家系統(tǒng),向世人證明了專家系統(tǒng)在復雜領(lǐng)域中的潛力和價值。1980年數(shù)字設(shè)備公司(DigitalEquipmentCorporation)開發(fā)的專家系統(tǒng)XCON,用于配置和定制計算機系統(tǒng)。它在企業(yè)級應用中取得了顯著的成功,并推動了專家系統(tǒng)的商業(yè)應用。1982年出現(xiàn)的一款推理引擎R1,具有規(guī)則解釋、規(guī)則執(zhí)行和規(guī)則維護等功能。R1的設(shè)計和實現(xiàn),為后來的專家系統(tǒng)開發(fā)工具提供了范例和基礎(chǔ)。1983年研發(fā)的PROSPECTOR專家系統(tǒng),專門用于礦產(chǎn)勘探和資源評估的專家系統(tǒng)。它使用地質(zhì)數(shù)據(jù)和領(lǐng)域?qū)<抑R,能夠預測礦藏的位置和價值。1.1人工智能1.1.2人工智能的發(fā)展歷史第二階段(1990-2000年代):連接主義連接主義階段的主要特征:神經(jīng)網(wǎng)絡(luò):是一種基于生物神經(jīng)元相互連接的學習模型,它通過訓練和調(diào)整神經(jīng)元之間的連接權(quán)重來模擬信息處理過程。分布式并行處理:通過多個神經(jīng)元或神經(jīng)網(wǎng)絡(luò)同時工作來加速機器學習和決策過程。這種分布式并行處理方式有助于處理大量數(shù)據(jù)和復雜的問題。學習和自適應:神經(jīng)網(wǎng)絡(luò)通過反向傳播等算法進行訓練,自動調(diào)整連接權(quán)重以優(yōu)化模型的性能。這種學習機制使得連接主義AI能夠從大量數(shù)據(jù)中自動提取特征和規(guī)律,從而通過訓練和學習來提高系統(tǒng)的性能和適應性。非線性模型:與傳統(tǒng)的符號推理方法相比,連接主義更傾向于使用非線性模型。神經(jīng)網(wǎng)絡(luò)可以通過堆疊多層神經(jīng)元來實現(xiàn)復雜的非線性映射,從而提高對于真實世界問題的建模能力。1.1人工智能1.1.2人工智能的發(fā)展歷史第二階段(1990-2000年代):連接主義主要代表性的事件有:1986年大衛(wèi)·鮑斯等人提出了“反向傳播”(Backpropagation)算法,它是連接主義中實現(xiàn)神經(jīng)網(wǎng)絡(luò)訓練和學習的核心算法。這個算法能夠有效地計算誤差和調(diào)整神經(jīng)網(wǎng)絡(luò)中的連接權(quán)重,使得神經(jīng)網(wǎng)絡(luò)能夠逐漸優(yōu)化其性能。1989年AndrewNg等人在卡內(nèi)基梅隆大學開展了“ALVINN”(AutonomousLandVehicleinaNeuralNetwork)項目。該項目使用神經(jīng)網(wǎng)絡(luò)來訓練自動駕駛汽車,并成功地實現(xiàn)了道路的識別和轉(zhuǎn)向控制,標志著連接主義在實際應用中的突破。1.1人工智能1.1.2人工智能的發(fā)展歷史第三階段(21世紀初-至今):深度學習這一階段主要是以深度學習方法為基礎(chǔ),試圖通過利用大規(guī)模數(shù)據(jù)和強大的計算能力,從而實現(xiàn)更為先進的人工智能。這一階段的人工智能特點和特征主要包括以下幾個方面:深度學習:使用多層次的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行特征提取和表示學習。通過大規(guī)模數(shù)據(jù)的訓練,深度學習模型能夠自動發(fā)現(xiàn)數(shù)據(jù)中的模式和規(guī)律,并實現(xiàn)更復雜的任務(wù)和功能。大規(guī)模數(shù)據(jù):深度學習方法的成功離不開大規(guī)模數(shù)據(jù)的支持。通過海量的數(shù)據(jù)訓練深度神經(jīng)網(wǎng)絡(luò),可以提高模型的性能和泛化能力。大規(guī)模數(shù)據(jù)的可用性和存儲技術(shù)的進步,為深度學習的發(fā)展提供了重要的基礎(chǔ)。強大的計算能力:深度學習方法需要大量的計算資源來進行訓練和推理。隨著計算機硬件的發(fā)展和云計算的普及,人們能夠利用分布式計算和高性能計算平臺來加速深度學習的訓練過程,從而實現(xiàn)更快速和精確的模型訓練。多模態(tài)學習:深度學習方法不僅可以處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還可以處理多模態(tài)數(shù)據(jù),如圖像、音頻和文本等。通過多模態(tài)學習,可以將不同類型的數(shù)據(jù)進行融合和關(guān)聯(lián),從而實現(xiàn)更全面和深入的理解和分析。1.1人工智能1.1.2人工智能的發(fā)展歷史第三階段(21世紀初-至今):深度學習這一階段的代表性事件包括:2012年谷歌團隊的AlexKrizhevsky等參與了ImageNet大規(guī)模視覺識別挑戰(zhàn)賽,利用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像分類任務(wù)上取得革命性突破,引領(lǐng)了深度學習的發(fā)展潮流。2016年DeepMind的AlphaGo在圍棋比賽中擊敗了世界頂級選手李世石,引發(fā)了對人工智能在復雜決策游戲中的能力和潛力的廣泛關(guān)注。2017年Google機器學習團隊提出了一種名為“AttentionisAllYouNeed”的論文,提出了自注意力機制的概念,即一種基于自注意力機制(self-attentionmechanism)的神經(jīng)網(wǎng)絡(luò)模型,其在自然語言處理領(lǐng)域取得了顯著的成果,被廣泛應用于機器翻譯、文本摘要、問答系統(tǒng)等任務(wù)中。自此,GoogleTransformer逐漸成為自然語言處理領(lǐng)域的重要研究方向,后續(xù)提出的BERT、GPT大模型均是基于Transformer模型,這些模型在各種自然語言處理任務(wù)上都取得了非常好的效果。1.1人工智能1.1.2人工智能的發(fā)展歷史第三階段(21世紀初-至今):深度學習2022年11月OpenAI推出了人工智能聊天機器人程序ChatGPT,其以文字方式交互,可以用人類自然對話方式進行交互,還可以用于復雜的語言工作,包括自動生成文本、自動問答、自動摘要、代碼編輯和調(diào)試等多種任務(wù)。ChatGPT的出現(xiàn),標志著人工智能聊天機器人技術(shù)的重大進展,為人們提供了更加便捷、高效的獲取信息和解決問題的方式。2023年3月OpenAI推出GPT-4人工智能多模態(tài)大模型,其是GPT-3的升級版,通過增加更多的訓練數(shù)據(jù)、改進訓練算法和調(diào)整模型結(jié)構(gòu)等方式,進一步提升了模型的表現(xiàn)力和應用能力。與GPT-3相比,GPT-4具有更高的語言理解能力、更好的文本生成能力、更強的語言交互能力、更廣泛的應用場景。GPT-4不僅支持更長的上下文、更高的精度和泛化能力,同時還支持多模態(tài),如語音識別和圖像理解等等。1.1人工智能1.1.2人工智能的發(fā)展歷史第三階段(21世紀初-至今):深度學習2023年3月百度正式發(fā)布了AI大模型文心一言。基于百度智能云技術(shù)構(gòu)建的大模型,文心一言被廣泛集成到百度的所有業(yè)務(wù)中。并且推出了文心NLP大模型、文心CV大模型、文心跨模態(tài)大模型、文心生物計算大模型、文心行業(yè)大模型。且提供了多樣化的大模型API服務(wù),可通過零代碼調(diào)用大模型能力,自由探索大模型技術(shù)如何滿足用戶需求。2023年5月科大訊飛正式發(fā)布了星火認知大模型,其具有7大核心能力,即文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力、代碼能力、多模態(tài)能力。1.1人工智能1.1.3人工智能、機器學習、深度學習的關(guān)系為了賦予計算機以人類的理解能力與邏輯思維,誕生了人工智能這一學科。在實現(xiàn)人工智能的眾多算法中,機器學習是發(fā)展較為快速的一支。機器學習的思想是讓機器自動地從大量的數(shù)據(jù)中學習出規(guī)律,并利用該規(guī)律對未知的數(shù)據(jù)做出預測。在機器學習的算法中,深度學習是特指利用深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)完成訓練和預測的算法。三者的關(guān)系如圖所示。機器學習是實現(xiàn)人工智能的途徑之一,而深度學習則是機器學習的算法之一。如果把人工智能比喻成人類的大腦,機器學習則是人類通過大量數(shù)據(jù)來認知學習的過程,而深度學習則是學習過程中非常高效的一種算法。人工智能、機器學習、深度學習的關(guān)系(圖片來自于網(wǎng)絡(luò))1.2機器學習1.2.1基本概念百度百科對人工智能的描述是:機器學習(MachineLearning)是一門多學科交叉專業(yè),涵蓋概率論知識,統(tǒng)計學知識,近似理論知識和復雜算法知識,使用計算機作為工具并致力于真實實時的模擬人類學習方式,并將現(xiàn)有內(nèi)容進行知識結(jié)構(gòu)劃分來有效提高學習效率。機器學習有下面幾種定義:機器學習是一門人工智能的科學,該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學習中改善具體算法的性能。機器學習是對能通過經(jīng)驗自動改進的計算機算法的研究。機器學習是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準。機器學習目的是讓計算機模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷完善自身的性能。簡單來講,機器學習就是人們通過提供大量的相關(guān)數(shù)據(jù)來訓練機器。1.2機器學習1.2.1基本概念作為人工智能的一個研究領(lǐng)域,機器學習主要研究以下三方面問題:學習機理:這是對人類學習機制的研究,即人類獲取知識、技能和抽象概念的天賦能力。這一研究將從根本上解決機器學習中的問題。學習方法:研究人類的學習過程,探索各種可能的學習方法,建立起獨立于具體應用領(lǐng)域的學習算法。機器學習方法的構(gòu)造是在對生物學習機理進行簡化的基礎(chǔ)上,用計算的方法進行再現(xiàn)。學習系統(tǒng):根據(jù)特定任務(wù)的要求,建立相應的學習系統(tǒng)。1.2機器學習1.2.2分類及常見算法按照學習形式的不同可以將機器學習算法分為監(jiān)督學習、非監(jiān)督學習和強化學習算法。(1)監(jiān)督學習(SupervisedLearning)在監(jiān)督學習中,要求用于訓練算法的訓練集必須包含明確的標識或結(jié)果。在建立預測模型的時候,監(jiān)督式學習建立一個學習過程,將預測結(jié)果與“訓練數(shù)據(jù)”的實際結(jié)果進行比較,不斷的調(diào)整預測模型,直到模型的預測結(jié)果達到一個預期的準確率。監(jiān)督式學習的常見應用場景如分類問題和回歸問題。常見算法有邏輯回歸(LogisticRegression)和BP神經(jīng)網(wǎng)絡(luò)(BackPropagationNeuralNetwork)。(2)非監(jiān)督學習(UnsupervisedLearning)在非監(jiān)督式學習中,數(shù)據(jù)并不被特別標識,學習模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應用場景包括關(guān)聯(lián)規(guī)則的學習以及聚類等。常見算法包括Apriori算法以及k-Means算法。(3)強化學習(ReinforcementLearning)在強化學習中,輸入數(shù)據(jù)直接反饋到模型,模型必須對此立刻做出調(diào)整。常見的應用場景包括動態(tài)系統(tǒng)以及機器人控制等。常見算法包括Q-Learning以及時間差學習(TemporalDifferenceLearning)。在自動駕駛、視頻質(zhì)量評估、機器人等領(lǐng)域強化學習算法非常流行。1.2機器學習1.2.2分類及常見算法按照任務(wù)目標的不同可以將機器學習算法分為回歸算法、分類算法和聚類算法。(1)回歸算法諸事有因,回歸(Regression)算法通過建立變量之間的回歸模型,通過學習(訓練)過程得到變量與因變量之間的相關(guān)關(guān)系?;貧w分析可以用于預測模型或分類模型。常見的回歸算法包括:線性回歸(LinearRegression)、非線性回歸(Non-linearRegression)、邏輯回歸(LogisticRegression)、多項式回歸(PolynomialRegression)、嶺回歸(RidgeRegression)、套索回歸(LassoRegression)和彈性網(wǎng)絡(luò)回歸(ElasticNetRegression)。其中線性回歸、非線性回歸和邏輯回歸最為常用。(2)分類算法機器學習分為監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習(強化學習)。無監(jiān)督學習最常應用的場景是聚類(Clustering)和降維(DimensionReduction)。分類算法和回歸算法都屬于監(jiān)督學習算法,其中分類算法的目標就是:學習數(shù)據(jù)集的數(shù)據(jù)特征,并將原始數(shù)據(jù)特征映射到目標的分類類別。分類算法包括:邏輯回歸(LogisticRegression,LR)、K最近鄰(k-NearestNeighbor,KNN)、樸素貝葉斯模型(NaiveBayesianModel,NBM)、隱馬爾科夫模型(HiddenMarkovModel)、支持向量機(SupportVectorMachine)、決策樹(DecisionTree)、神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)和集成學習(Ada-Boost)。1.2機器學習1.2.2分類及常見算法(3)聚類算法機器學習分為監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習。無監(jiān)督學習從無標簽的數(shù)據(jù)集中挖掘和發(fā)現(xiàn)數(shù)據(jù)的數(shù)理規(guī)律。有監(jiān)督學習從有標簽的數(shù)據(jù)集中挖掘和發(fā)現(xiàn)數(shù)據(jù)的數(shù)理規(guī)律。最終機器學習從數(shù)據(jù)集中得到的模型具有相當?shù)姆夯芰?,能夠處理新的?shù)據(jù)輸入,并做出合理的預測。有監(jiān)督學習和無監(jiān)督學習的最大區(qū)別在于數(shù)據(jù)是否有標簽。無監(jiān)督學習最常應用的場景是聚類和降維。聚類算法包括:K均值聚類(K-Means)、層次聚類(HierarchicalClustering)和混合高斯模型(GaussianMixtureModel)。降維算法包括:主成因分析(PrincipalComponentAnalysis)和線性判別分析(LinearDiscriminantAnalysis)。1.2機器學習1.2.2分類及常見算法按照學習策略的不同可以將機器學習算法分為演繹學習、歸納學習和類比學習等。(1)演繹學習(LearningbyDeduction)學生所用的推理形式為演繹推理。推理從公理出發(fā),經(jīng)過邏輯變換推導出結(jié)論。這種推理是“保真”變換和特化(Specialization)的過程,使學生在推理過程中可以獲取有用的知識。這種學習方法包含宏操作(Macro-Operation)學習、知識編輯和組塊(Chunking)技術(shù)。演繹推理的逆過程是歸納推理。(2)歸納學習(LearningfromInduction)歸納學習是由教師或環(huán)境提供某概念的一些實例或反例,讓學生通過歸納推理得出該概念的一般描述。這種學習的推理工作量遠多于示教學習和演繹學習,因為環(huán)境并不提供一般性概念描述(如公理)。從某種程度上說,歸納學習的推理量也比類比學習大,因為沒有一個類似的概念可以作為“源概念”加以取用。歸納學習是最基本的、發(fā)展也較為成熟的學習方法,在人工智能領(lǐng)域已經(jīng)得到廣泛的研究和應用。(3)類比學習(LearningbyAnalogy)利用兩個不同領(lǐng)域(源域、目標域)中的知識相似性,可以通過類比,從源域的知識(包括相似的特征和其它性質(zhì))推導出目標域的相應知識,從而實現(xiàn)學習。類比學習系統(tǒng)可以使一個已有的計算機應用系統(tǒng)轉(zhuǎn)變?yōu)檫m應于新的領(lǐng)域,來完成原先沒有設(shè)計的相類似的功能。1.3深度學習1.3.1深度學習簡介百度百科對人工智能的描述是:深度學習是機器學習領(lǐng)域中一個新的研究方向,它被引入機器學習使其更接近于最初的目標——人工智能。近年來,深度學習在各種應用領(lǐng)域取得了巨大成功。機器學習已應用于大多數(shù)傳統(tǒng)領(lǐng)域,同時也為許多新領(lǐng)域帶來新機會?;诓煌悇e的學習,人們提出了不同的方法,包括有監(jiān)督、半監(jiān)督和無監(jiān)督學習。實驗結(jié)果表明,在圖像處理、計算機視覺、語音識別、機器翻譯等領(lǐng)域,與傳統(tǒng)的機器學習方法相比,深度學習具有先進的性能。深度學習是學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學習過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。深度學習是機器學習的一個極其重要的分支,而機器學習是人工智能的一個分支。深度學習的研究從近十年才迎來大幅度的發(fā)展。深度學習的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,但是并不完全等于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。不過在叫法上,很多深度學習算法中都會包含“神經(jīng)網(wǎng)絡(luò)”這個詞,比如:卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。所以,深度學習可以說是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的升級,約等于神經(jīng)網(wǎng)絡(luò)。1.3深度學習1.3.2深度學習應用計算機視覺方面:(1)目標檢測目標檢測(ObjectDetection)是當前計算機視覺和機器學習領(lǐng)域的研究熱點之一,核心任務(wù)是篩選出給定圖像中所有感興趣的目標,確定其位置和大小。其中難點便是遮擋、光照、姿態(tài)等造成的像素級誤差,這是目標檢測所要挑戰(zhàn)和避免的問題?,F(xiàn)如今深度學習中一般通過搭建DNN提取目標特征,利用ROI映射和IOU確定閾值以及區(qū)域建議網(wǎng)絡(luò)RPN統(tǒng)一坐標回歸損失和二分類損失來聯(lián)合訓練。(2)語義分割語義分割(SemanticSegmentation)旨在將圖像中的物體作為可解釋的語義類別,該類別將是DNN學習的特征聚類得到。和目標檢測一樣,在深度學習中需要IOU作為評價指標評估設(shè)計的語義分割網(wǎng)絡(luò)。值得注意的是,語義類別對應于不同的顏色,生成的結(jié)果需要和原始的標注圖像相比較,較為一致才能算是一個可分辨不同語義信息的網(wǎng)絡(luò)。1.3深度學習1.3.2深度學習應用(3)超分辨率重建超分辨率重建(SuperResolutionConstruction)的主要任務(wù)是通過軟件和硬件的方法,從觀測到的低分辨率圖像重建出高分辨率圖像,這樣的技術(shù)在醫(yī)療影像和視頻編碼通信中十分重要。該領(lǐng)域一般分為單圖像超分和視頻超分,一般在視頻序列中通過該技術(shù)解決丟幀,幀圖像模糊等問題,而在單圖像在中主要為了提升細節(jié)和質(zhì)感。在深度學習中一般采用殘差形式網(wǎng)絡(luò)學習雙二次或雙三次下采樣帶來的精度損失,以提升大圖細節(jié)。對于視頻超分一般采用光流或者運動補償來解決丟幀圖像的重建任務(wù)。(4)行人重識別行人重識別(PersonRe-identification)也稱行人再識別,是利用計算機視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)。其廣泛被認為是一個圖像檢索的子問題。核心任務(wù)是給定一個監(jiān)控行人圖像,檢索跨設(shè)備下的該行人圖像。現(xiàn)如今一般人臉識別和該技術(shù)進行聯(lián)合,用于在人臉識別的輔助以及人臉識別失效(人臉模糊,人臉被遮擋)時發(fā)揮作用。在深度學習中一般通過全局和局部特征提取以及度量學習對多組行人圖片進行分類和身份查詢。1.3深度學習1.3.2深度學習應用語音識別方面:語音識別(SpeechRecognization)是一門交叉學科,近十幾年進步顯著。它需要用到數(shù)字信號處理、模式識別、概率論等理論知識,深度學習的發(fā)展也使其有了很大幅度的效果提升。深度學習中將聲音轉(zhuǎn)化為比特的目的類似于在計算機視覺中處理圖像數(shù)據(jù)一樣,轉(zhuǎn)換為特征向量,與圖像處理不太一樣的是需要對波(聲音的形式)進行采樣,采樣的方式,采樣點的個數(shù)和坐標也是關(guān)鍵信息。然后對這些數(shù)字信息進行處理,輸入到網(wǎng)絡(luò)中進行訓練,得到一個可以進行語音識別的模型。語音識別的難點有很多,例如克服發(fā)音音節(jié)相似度高進行精準識別,實時語音轉(zhuǎn)寫等,這就需要很多不同人樣本的聲音作為數(shù)據(jù)集來讓深度網(wǎng)絡(luò)具有更強的泛化性,以及需要設(shè)計的網(wǎng)絡(luò)本身的復雜程度是否得當?shù)葪l件。語音助手(圖片來自于網(wǎng)絡(luò))例如,圖1-2是百度的語音助手。百度采用國際領(lǐng)先的流式端到端語音語言一體化建模算法,將語音快速準確識別為文字,支持手機應用語音交互、語音內(nèi)容分析、機器人對話等多個場景。1.3深度學習1.3.2深度學習應用自然語言處理方面:自然語言處理(NLP)是計算機科學和人工智能領(lǐng)域的方向之一,研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。深度學習由于其非線性的復雜結(jié)構(gòu),將低維稠密且連續(xù)的向量表示為不同粒度的語言單元,例如詞、短語、句子和文章,讓計算機可以理解通過網(wǎng)絡(luò)模型參與編織的語言,進而使得人類和計算機進行溝通。此外深度學習領(lǐng)域中研究人員使用循環(huán)、卷積、遞歸等神經(jīng)網(wǎng)絡(luò)模型對不同的語言單元向量進行組合,獲得更大語言單元的表示。不同的向量空間擁有的組合越復雜,計算機越是能處理更加難以理解的語義信息。將人類的文本作為輸入,本身就具有挑戰(zhàn)性,因此得到的自然語言計算機如何處理就更難上加難,而這也是NLP不斷探索的領(lǐng)域。通過深度學習,人們已經(jīng)在AI領(lǐng)域向前邁出一大步,相信人與機器溝通中“信、達、雅”這三個方面終將實現(xiàn)。1.3深度學習1.3.2深度學習應用例如,ChatGPT是一種由OpenAI開發(fā)的人工智能語言模型,如圖1-3所示,它具有強大的自然語言處理能力。它可以理解人類語言輸入,并以準確、流暢的方式生成回應。它的學習基礎(chǔ)涵蓋了廣泛的主題,可以進行對話、回答問題、提供建議、講故事,甚至能夠模仿不同風格的寫作。ChatGPT在虛擬對話中扮演著一個智能伙伴的角色,能夠與用戶進行有意義的交流,為用戶提供信息、娛樂和幫助。無論是進行日常聊天、獲取知識,還是探索創(chuàng)造性的想法,ChatGPT都可以成為一個有用的工具和伙伴。ChatGPT(圖片來自于網(wǎng)絡(luò))1.4常用語言和深度學習框架1.4.1Python語言為什么選擇Python?做深度學習,最重要的是驗證想法,需要在短期內(nèi)跑出多次實驗結(jié)果。其中的難點在于快速出結(jié)果,靜態(tài)語言固然省內(nèi)存,性能好,但修改起來確實不如Python容易,畢竟Python上手門檻很低,十行頂“百行”。Python的深度學習框架多且維護頻繁,方便我們快速入手。大部分深度學習框架對于CPU密集型的功能都做了優(yōu)化,Python的深度學習框架可以看作是各種API的接口而已,真正用起來不見得會慢的讓人難以忍受。況且在性能沒有落下很多的情況下,Python根本不需要考慮垃圾回收,內(nèi)存泄露的情況。Python是膠水語言可以結(jié)合C++,使得寫出來的代碼可以達到C++的效率。一項人工智能的工程可能涉及到多個環(huán)節(jié),而如果選擇使用Python,它可以提供一條龍服務(wù)。1.4常用語言和深度學習框架1.4.1Python語言Python語言簡介Python語言由荷蘭數(shù)學和計算機科學研究學會的吉多·范羅蘇姆于1990年代初設(shè)計,Python提供了高效的高級數(shù)據(jù)結(jié)構(gòu),還能簡單有效地面向?qū)ο缶幊獭ython語法和動態(tài)類型,以及解釋型語言的本質(zhì),使它成為多數(shù)平臺上寫腳本和快速開發(fā)應用的編程語言,隨著版本的不斷更新和語言新功能的添加,逐漸被用于獨立的、大型項目的開發(fā)。Python解釋器易于擴展,可以使用C語言或C++(或者其他可以通過C調(diào)用的語言)擴展新的功能和數(shù)據(jù)類型。Python也可用于可定制化軟件中的擴展程序語言。Python豐富的標準庫,提供了適用于各個主要系統(tǒng)平臺的源碼或機器碼。由于Python語言的簡潔性、易讀性以及可擴展性,在國外用Python做科學計算的研究機構(gòu)日益增多,一些知名大學已經(jīng)采用Python來教授程序設(shè)計課程。在2018年3月,該語言作者在郵件列表上宣布Python2.7將于2020年1月1日終止支持。所以本書除了在Caffe環(huán)境搭建時采用Python2.7版本(因為Caffe框架與Python3在兼容性上有問題),其余部分基本采用的是Python3.6以上版本。關(guān)于Python語言的學習,讀者可自行搜索,本書在編程語言的入門使用上不再做詳細介紹。1.4常用語言和深度學習框架1.4.2深度學習框架為什么要用深度學習框架?深度學習框架(DeepLearningFramework)是指一種能夠支持人工神經(jīng)網(wǎng)絡(luò)進行搭建、訓練、調(diào)試和部署的軟件平臺。它通過提供高效的算法實現(xiàn)、方便的數(shù)據(jù)處理工具、數(shù)據(jù)可視化和調(diào)試工具等方式,簡化了深度學習任務(wù)的實現(xiàn)過程,讓深度學習應用變得更加容易和高效。也就是說,深度學習框架為深度學習提供了一種快捷、可重復和可擴展的開發(fā)環(huán)境,幫助研究者和工程師們更快地研究和開發(fā)出復雜的深度學習模型。如果已經(jīng)掌握了深度學習的核心算法,當然可以從頭開始實現(xiàn)自己的神經(jīng)網(wǎng)絡(luò)模型。但是如果需要實現(xiàn)更復雜的模型,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)時,就會發(fā)現(xiàn)從頭開始實現(xiàn)復雜模型是不切實際的,因此深度學習框架應運而生,它可以輕松實現(xiàn)自己的神經(jīng)網(wǎng)絡(luò)。深度學習框架可以更輕松地構(gòu)建、訓練、測試和部署深度學習模型。使用框架可以使開發(fā)人員專注于模型設(shè)計和實現(xiàn),減少了手動編寫底層代碼的工作量。此外,框架往往具有一系列已經(jīng)實現(xiàn)的算法和模型架構(gòu),可以幫助開發(fā)人員更快地實現(xiàn)模型并進行實驗。另外,框架還可以提供分布式訓練、自動求導、GPU加速等功能,這些功能可以加速訓練速度、縮短模型的設(shè)計和實現(xiàn)時間、加快模型迭代的速度。并且,它不需要手寫CUDA代碼就能跑GPU。最后,它還容易構(gòu)建大的計算圖(ComputationalGraph

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論