人工智能的核心技術(shù)

上傳人：x*** IP屬地：天津上傳時(shí)間：2022-03-07 格式：DOCX 頁數(shù)：8 大小：24.31KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、人工智能的核心技術(shù)是什么？?人工智能標(biāo)準(zhǔn)化白皮書 2022?1 機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí) Machine Learning 是一門涉及統(tǒng)計(jì)學(xué)、系統(tǒng)辨識(shí)、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、電腦科學(xué)、腦科學(xué)等諸多領(lǐng)域的交叉學(xué)科，研究電腦怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識(shí)或技能，重新組織已有的知識(shí) 結(jié)構(gòu)使之不斷改善自身的性能，是人工智能技術(shù)的核心?；跀?shù)據(jù)的機(jī)器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方法之一，研究從觀測數(shù) 據(jù)樣本出發(fā)尋找規(guī)律，利用這些規(guī)律對(duì)未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進(jìn)行預(yù)測。根據(jù)學(xué) 習(xí)模式、學(xué)習(xí)方法以及算法的不同，機(jī)器學(xué)習(xí)存在不同的分類方法。1根據(jù)學(xué)習(xí)模式將機(jī)器學(xué)習(xí)分類為監(jiān)督學(xué)習(xí)、無監(jiān)督

2、學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等。監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)是利用已標(biāo)記的有限訓(xùn)練數(shù)據(jù)集，通過某種學(xué)習(xí)策略 /方法建立一個(gè)模型，實(shí)現(xiàn)對(duì) 新數(shù)據(jù) / 實(shí)例的標(biāo)記分類 /映射，最典型的監(jiān)督學(xué)習(xí)算法包括回歸和分類。監(jiān)督學(xué)習(xí)要求訓(xùn)練樣本的分類標(biāo)簽，分類標(biāo)簽精確度越高，樣本越具有代表性，學(xué)習(xí)模型的準(zhǔn)確度越高。監(jiān)督學(xué)習(xí)在自然語言處理、信息檢索、文本挖掘、手寫體辨識(shí)、垃圾郵件偵測等領(lǐng)域獲得了廣泛應(yīng)用。無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)是利用無標(biāo)記的有限數(shù)據(jù)描述隱藏在未標(biāo)記數(shù)據(jù)中的結(jié)構(gòu)/ 規(guī)律，最典型的非監(jiān)督學(xué)習(xí)算法包括單類密度估計(jì)、單類數(shù)據(jù)降維、聚類等。無監(jiān)督學(xué) 習(xí)不需要訓(xùn)練樣本和人工標(biāo)注數(shù)據(jù)，便于壓縮數(shù)據(jù)存儲(chǔ)、減少計(jì)算量、提升

3、算法速度，還可以防止正、負(fù)樣本偏移引起的分類錯(cuò)誤問題。主要用于經(jīng)濟(jì)預(yù)測、異常檢測、數(shù)據(jù)挖掘、圖像處理、模式識(shí)別等領(lǐng)域，例如組織大型電腦集群、社交網(wǎng)絡(luò)分析、市場分割、天文數(shù)據(jù)分析等。強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使強(qiáng)化信號(hào)函數(shù)值最大。由于外部環(huán)境提供的信息很少，強(qiáng)化學(xué)習(xí)系統(tǒng)必須靠自身的經(jīng)歷進(jìn)行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)從環(huán) 境狀態(tài)到行為的映射，使得智能體選擇的行為能夠獲得環(huán) 境最大的獎(jiǎng)賞，使得外部環(huán)境對(duì) 學(xué)習(xí)系統(tǒng)在某種意義下的評(píng)價(jià)為最正確。其在機(jī)器人控制、無人駕駛、下棋、工業(yè)控制等領(lǐng)域獲得成功應(yīng)用。2根據(jù)學(xué)習(xí)方法可以將機(jī)器學(xué)習(xí)分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。

4、傳統(tǒng)機(jī)器學(xué)習(xí)傳統(tǒng)機(jī)器學(xué)習(xí)從一些觀測訓(xùn)練樣本出發(fā)，試圖發(fā)現(xiàn)不能通過原理分析獲得的規(guī)律，實(shí) 現(xiàn)對(duì)未來數(shù)據(jù)行為或趨勢的準(zhǔn)確預(yù)測。相關(guān)算法包括邏輯回歸、隱馬爾科夫方法、支持向量機(jī)方法、 K 近鄰方法、三層人工神經(jīng)網(wǎng)絡(luò)方法、 Adaboost 算法、貝葉斯方法以及決策樹方法等。傳統(tǒng)機(jī)器學(xué)習(xí)平衡了學(xué)習(xí)結(jié)果的有效性與學(xué)習(xí)模型的可解釋性，為解決有限樣本的學(xué)習(xí)問題提供了一種框架，主要用于有限樣本情況下的模式分類、回歸分析、概率密度估計(jì)等。傳統(tǒng)機(jī)器學(xué)習(xí)方法共同的重要理論根底之一是統(tǒng)計(jì)學(xué)，在自然語言處理、語音識(shí) 別、圖像識(shí)別、信息檢索和生物信息等許多電腦領(lǐng)域獲得了廣泛應(yīng)用。深度學(xué)習(xí)深度學(xué)習(xí)是建立

5、深層結(jié)構(gòu)模型的學(xué)習(xí)方法，典型的深度學(xué)習(xí)算法包括深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò)等。深度學(xué)習(xí)又稱為深度神經(jīng)網(wǎng)絡(luò)指層數(shù)超過 3 層的神經(jīng)網(wǎng)絡(luò) 。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究中的一個(gè)新興領(lǐng)域，由 Hinton 等人于 2006 年提出。深度學(xué)習(xí)源于多層神經(jīng)網(wǎng)絡(luò)，其實(shí) 質(zhì)是給出了一種將特征表示和學(xué)習(xí)合二為一的方式。深度學(xué)習(xí)的特點(diǎn)是放棄了可解釋性，單純追求學(xué)習(xí)的有效性。經(jīng)過多年的摸索嘗試和研究，已經(jīng)產(chǎn)生了諸多深度神經(jīng)網(wǎng)絡(luò)的模型，其中卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)是兩類典型的模型。卷積神經(jīng)網(wǎng)絡(luò)常被應(yīng)用于空間性分布數(shù)據(jù)；循環(huán)神經(jīng)網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)中引入了記憶和反應(yīng)，

6、常被應(yīng)用于時(shí)間性分布數(shù)據(jù)。深度學(xué)習(xí)框架是進(jìn)行深度學(xué)習(xí)的根底底層框架，一般包含主流的神經(jīng)網(wǎng)絡(luò)算法模型，提供穩(wěn)定的深度學(xué)習(xí)API，支持訓(xùn)練模型在效勞器和 GPU、TPU 間的分布式學(xué)習(xí)，局部框架還具備在包括移動(dòng)設(shè)備、云平臺(tái)在內(nèi)的多種平臺(tái)上運(yùn)行的移植能力，從而為深度學(xué)習(xí)算法帶來前所未有的運(yùn)行速度和實(shí)用性。目前主流的開源算法框架有 TensorFlow 、 Caffe/Caffe2 、 CNTK、 MXNet 、 Paddle-paddle 、 Torch/PyTorch、Theano 等。3此外，機(jī)器學(xué)習(xí)的常見算法還包括遷移學(xué)習(xí)、主動(dòng)學(xué)習(xí)和演化學(xué)習(xí)等。遷移學(xué)習(xí)遷移學(xué)習(xí)是指當(dāng)在某些領(lǐng)域無法取得

7、足夠多的數(shù)據(jù)進(jìn)行模型訓(xùn)練時(shí)，利用另一領(lǐng)域數(shù)據(jù)獲得的關(guān)系進(jìn)行的學(xué)習(xí)。遷移學(xué)習(xí)可以把已訓(xùn)練好的模型參數(shù)遷移到新的模型指導(dǎo)新模型訓(xùn)練，可以更有效的學(xué)習(xí)底層規(guī)那么、減少數(shù)據(jù)量。目前的遷移學(xué)習(xí)技術(shù)主要在變量有限的小規(guī)模應(yīng)用中使用，如基于傳感器網(wǎng)絡(luò)的定位，文字分類和圖像分類等。未來遷移學(xué)習(xí)將被廣泛應(yīng)用于解決更有挑戰(zhàn)性的問題，如視頻分類、社交網(wǎng)絡(luò)分析、邏輯推理等。主動(dòng)學(xué)習(xí)主動(dòng)學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本，并交由專家進(jìn)行標(biāo)記，然后用查詢到的樣本訓(xùn)練分類模型來提高模型的精度。主動(dòng)學(xué)習(xí)能夠選擇性地獲取知識(shí)，通過較少的訓(xùn)練樣本獲得高性能的模型，最常用的策略是通過不確定性準(zhǔn)那么和差異性準(zhǔn)那么選取有效

8、的樣本。演化學(xué)習(xí) 演化學(xué)習(xí)對(duì)優(yōu)化問題性質(zhì)要求極少，只需能夠評(píng)估解的好壞即可，適用于求解復(fù)雜的優(yōu)化問題，也能直接用于多目標(biāo)優(yōu)化。演化算法包括粒子群優(yōu)化算法、多目標(biāo)演化算法等。目前針對(duì)演化學(xué)習(xí)的研究主要集中在演化數(shù)據(jù)聚類、對(duì)演化數(shù)據(jù)更有效的分類，以及提供某種自適應(yīng)機(jī)制以確定演化機(jī)制的影響等。2 知識(shí)圖譜知識(shí)圖譜本質(zhì)上是結(jié)構(gòu)化的語義知識(shí)庫，是一種由節(jié)點(diǎn)和邊組成的圖數(shù)據(jù)結(jié) 構(gòu)，以符號(hào)形式描述物理世界中的概念及其相互關(guān)系，其根本組成單位是 “實(shí)體關(guān)系實(shí)體三元組，以及實(shí)體及其相關(guān)“屬性值對(duì)。不同實(shí)體之間通過關(guān)系相互聯(lián)結(jié)，構(gòu)成網(wǎng)狀的知識(shí)結(jié) 構(gòu)。在知識(shí)圖譜中，每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界的 “

9、實(shí)體，每條邊為實(shí)體與實(shí)體之間的 “關(guān)系。通俗地講，知識(shí)圖譜就是把所有不同種類的信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)，提供了從“關(guān)系的角度去分析問題的能力。知識(shí)圖譜可用于反欺詐、不一致性驗(yàn)證、組團(tuán)欺詐等公共平安保障領(lǐng)域，需要用到異常分析、靜態(tài)分析、動(dòng)態(tài)分析等數(shù)據(jù)挖掘方法。特別地，知識(shí)圖譜在搜索引擎、可視化展示和精準(zhǔn)營銷方面有很大的優(yōu)勢，已成為業(yè)界的熱門工具。但是，知識(shí)圖譜的開展還有很大的挑戰(zhàn)，如數(shù)據(jù)的噪聲問題，即數(shù)據(jù)本身有錯(cuò)誤或者數(shù)據(jù)存在冗余。隨著知識(shí)圖譜應(yīng)用的不斷深入，還有一系列關(guān)鍵技術(shù)需要突破。3 自然語言處理自然語言處理是電腦科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向，

10、研究能實(shí)現(xiàn)人與電腦之間用自然語言進(jìn)行有效通信的各種理論和方法，涉及的領(lǐng)域較多，主要包括機(jī)器翻譯、機(jī) 器閱讀理解和問答系統(tǒng)等。1機(jī)器翻譯機(jī)器翻譯技術(shù)是指利用電腦技術(shù)實(shí)現(xiàn)從一種自然語言到另外一種自然語言的翻譯過程?；?于統(tǒng)計(jì)的機(jī)器翻譯方法突破了之前基于規(guī)那么和實(shí)例翻譯方法的局限性，翻譯性能取得巨大提升?；谏疃壬窠?jīng)網(wǎng)絡(luò)的機(jī)器翻譯在日?？谡Z等一些場景的成功應(yīng)用已經(jīng)顯現(xiàn)出了巨大的潛力。隨著上下文的語境表征和知識(shí)邏輯推理能力的開展，自然語言知識(shí)圖譜不斷擴(kuò)充，機(jī)器翻譯將會(huì)在多輪對(duì)話翻譯及篇章翻譯等領(lǐng)域取得更大進(jìn)展。目前非限定領(lǐng)域機(jī)器翻譯中性能較佳的一種是統(tǒng)計(jì)機(jī)器翻譯，包括訓(xùn)練及解

11、碼兩個(gè)階段。訓(xùn)練階段的目標(biāo)是獲得模型參數(shù)，解碼階段的目標(biāo)是利用所估計(jì)的參數(shù)和給定的優(yōu)化目標(biāo)，獲取待翻譯語句的最正確翻譯結(jié)果。統(tǒng)計(jì)機(jī)器翻譯主要包括語料預(yù)處理、詞對(duì)齊、短語抽取、短語概率計(jì)算、最大熵調(diào)序等步驟。基于神經(jīng)網(wǎng)絡(luò)的端到端翻譯方法不需要針對(duì)雙語句子專門設(shè)計(jì)特征模型，而是直接把源語言句子的詞串送入神經(jīng)網(wǎng)絡(luò)模型，經(jīng)過神經(jīng)網(wǎng)絡(luò) 的運(yùn)算，得到目標(biāo)語言句子的翻譯結(jié)果。在基于端到端的機(jī)器翻譯系統(tǒng)中，通常采用遞歸神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng) 網(wǎng)絡(luò)對(duì)句子進(jìn)行表征建模，從海量訓(xùn)練數(shù)據(jù)中抽取語義信息，與基于短語的統(tǒng)計(jì) 翻譯相比，其翻譯結(jié)果更加流暢自然，在實(shí)際應(yīng)用中取得了較好的效果。2語義理解語義

12、理解技術(shù)是指利用電腦技術(shù)實(shí)現(xiàn)對(duì)文本篇章的理解，并且答復(fù)與篇章相關(guān)問題的過程。語義理解更注重于對(duì)上下文的理解以及對(duì)答案精準(zhǔn)程度的把控。隨著 MCTest 數(shù)據(jù)集的發(fā) 布，語義理解受到更多關(guān)注，取得了快速開展，相關(guān)數(shù) 據(jù)集和對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)模型層出不窮。語義理解技術(shù)將在智能客服、產(chǎn)品自動(dòng)問答等相關(guān)領(lǐng)域發(fā)揮重要作用，進(jìn)一步提高問答與對(duì)話系統(tǒng)的精度。在數(shù)據(jù)采集方面，語義理解通過自動(dòng)構(gòu)造數(shù)據(jù)方法和自動(dòng)構(gòu)造填空型問題的方法來有效擴(kuò) 充數(shù)據(jù)資源。為了解決填充型問題，一些基于深度學(xué)習(xí)的方法相繼提出，如基于注意力的神經(jīng)網(wǎng)絡(luò)方法。當(dāng)前主流的模型是利用神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)篇章、問題建模，對(duì)答案的開始和

13、終止位置進(jìn)行預(yù)測，抽取出篇章片段。對(duì)于進(jìn)一步泛化的答案，處理難度進(jìn)一步提升，目前的語義理解技術(shù)仍有較大的提升空間。3問答系統(tǒng)問答系統(tǒng)分為開放領(lǐng)域的對(duì)話系統(tǒng)和特定領(lǐng)域的問答系統(tǒng)。問答系統(tǒng)技術(shù)是指讓電腦像人類一樣用自然語言與人交流的技術(shù)。人們可以向問答系統(tǒng)提交用自然語言表達(dá)的問題，系統(tǒng)會(huì)返回關(guān)聯(lián)性較高的答案。盡管問答系統(tǒng)目前已經(jīng)有了不少應(yīng)用產(chǎn)品出現(xiàn)，但大多是在實(shí)際信息效勞系統(tǒng)和智能助手等領(lǐng)域中的應(yīng)用，在問答系統(tǒng)魯棒性方面仍然存在著問題和挑戰(zhàn)。自然語言處理面臨四大挑戰(zhàn)：一是在詞法、句法、語義、語用和語音等不同層面存在不確定性；二是新的詞匯、術(shù)語、語義和語法導(dǎo)致未知語言現(xiàn)象

14、的不可預(yù)測性；三是數(shù)據(jù)資源的不充分使其難以覆蓋復(fù)雜的語言現(xiàn)象；四是語義知識(shí)的模糊性和錯(cuò)綜復(fù)雜的關(guān)聯(lián)性難以用簡單的數(shù)學(xué)模型描述，語義計(jì)算需要參數(shù)龐大的非線性計(jì)算。4 人機(jī)交互人機(jī)交互主要研究人和電腦之間的信息交換，主要包括人到電腦和計(jì)算機(jī)到人的兩局部信息交換，是人工智能領(lǐng)域的重要的外圍技術(shù)。人機(jī)交互是與認(rèn)知心理學(xué)、人機(jī)工程學(xué)、多媒體技術(shù)、虛擬現(xiàn)實(shí)技術(shù)等密切相關(guān)的綜合學(xué)科。傳統(tǒng)的人與電腦之間的信息交換主要依靠交互設(shè)備進(jìn)行，主要包括鍵盤、鼠標(biāo)、操縱桿、數(shù)據(jù)服裝、眼動(dòng)跟蹤器、位置跟蹤器、數(shù)據(jù) 手套、壓力筆等輸入設(shè)備，以及打印機(jī)、繪圖儀、顯示器、頭盔式顯示器、音箱等輸

15、出設(shè)備。人機(jī)交互技術(shù) 除了傳統(tǒng)的根本交互和圖形交互外，還包括語音交互、情感交互、體感交互及腦機(jī)交互等技術(shù)，以下對(duì)后四種與人工智能關(guān)聯(lián)密切的典型交互手段進(jìn)行介紹。1語音交互語音交互是一種高效的交互方式，是人以自然語音或機(jī)器合成語音同電腦進(jìn)行交互的綜合性技術(shù)，結(jié)合了語言學(xué)、心理學(xué)、工程和電腦技術(shù)等領(lǐng)域的知識(shí)。語音交互不僅要對(duì)語音識(shí)別和語音合成進(jìn)行研究，還要對(duì)人在語音通道下的交互機(jī)理、行為方式等進(jìn)行研究。語音交互過程包括四局部：語音采集、語音識(shí) 別、語義理解和語音合成。語音采集完成音頻的錄入、采樣及編碼；語音識(shí)別完成語音信息到機(jī)器可識(shí)別的文本信息的轉(zhuǎn)化；語義理解根據(jù)語音識(shí)別轉(zhuǎn)

16、換后的文本字符或命令完成相應(yīng)的操作；語音合成完成文本信息到聲音信息的轉(zhuǎn)換。作為人類溝通和獲取信息最自然便捷的手段，語音交互比其他交互方式具備更多優(yōu)勢，能為人機(jī)交互帶來根本性變革，是大數(shù)據(jù)和認(rèn)知計(jì)算時(shí)代未來開展的制高點(diǎn)，具有廣闊的開展前景和應(yīng)用前景。2情感交互情感是一種高層次的信息傳遞，而情感交互是一種交互狀態(tài)，它在表達(dá)功能和信息時(shí)傳遞情感，勾起人們的記憶或內(nèi)心的情愫。傳統(tǒng)的人機(jī)交互無法理解和適應(yīng)人的情緒或心境，缺乏情感理解和表達(dá)能力，電腦難以具有類似人一樣的智能，也難以通過人機(jī)交互做到真正的和諧與自然。情感交互就是要賦予電腦類似于人一樣的觀察、理解和生成各種情感

17、的能力，最終使電腦像人一樣能進(jìn) 行自然、親切和生動(dòng)的交互。情感交互已經(jīng)成為人工智能領(lǐng)域中的熱點(diǎn)方向，旨在讓人機(jī)交互變得更加自然。目前，在情感交互信息的處理方式、情感描述方式、情感數(shù)據(jù)獲取和處理過程、情感表達(dá)方式等方面還有諸多技術(shù)挑戰(zhàn)。3體感交互體感交互是個(gè)體不需要借助任何復(fù)雜的控制系統(tǒng)，以體感技術(shù)為根底，直接通過肢體動(dòng)作與周邊數(shù)字設(shè)備裝置和環(huán)境進(jìn)行自然的交互。依照體感方式與原理的不同，體感技術(shù)主要分為三類：慣性感測、光學(xué)感測以及光學(xué)聯(lián)合感測。體感交互通常由運(yùn)動(dòng)追蹤、手勢識(shí)別、運(yùn)動(dòng)捕捉、面部表情識(shí)別等一系列技術(shù)支撐。與其他交互手段相比，體感交互技術(shù)無論是硬件

18、還是軟件方面都有了較大的提升，交互設(shè)備向小型化、便攜化、使用方便化等方面開展，大大降低了對(duì)用戶的約束，使得交互過程更加自然。目前，體感交互在游戲娛樂、醫(yī)療輔助與康復(fù)、全自動(dòng) 三維建模、輔助購物、眼動(dòng)儀等領(lǐng)域有了較為廣泛的應(yīng)用。4腦機(jī)交互腦機(jī)交互又稱為腦機(jī)接口，指不依賴于外圍神經(jīng)和肌肉等神經(jīng)通道，直接實(shí) 現(xiàn)大腦與外界信息傳遞的通路。腦機(jī)接口系統(tǒng)檢測中樞神經(jīng)系統(tǒng)活動(dòng)，并將其轉(zhuǎn) 化為人工輸出指令，能夠替代、修復(fù)、增強(qiáng)、補(bǔ)充或者改善中樞神經(jīng)系統(tǒng)的正常輸出，從而改變中樞神經(jīng)系統(tǒng)與內(nèi)外環(huán)境之間的交互作用。腦機(jī)交互通過對(duì)神經(jīng) 信號(hào)解碼，實(shí)現(xiàn)腦信號(hào)到機(jī)器指令的轉(zhuǎn)化，一般包括信號(hào)采集、

19、特征提取和命令輸出三個(gè)模塊。從腦電信號(hào)采集的角度，一般將腦機(jī) 接口分為侵入式和非侵入式兩大類。除此之外，腦機(jī)接口還有其他常見的分類方式：按照信號(hào)傳輸方向可以分為腦到機(jī)、機(jī)到腦和腦機(jī)雙向接口；按照信號(hào)生成的類型，可分為自發(fā)式腦機(jī) 接口和誘發(fā)式腦機(jī)接口；按照信號(hào)源的不同還可分為基于腦電的腦機(jī)接口、基于功能性核磁共振的腦機(jī)接口以及基于近紅外光譜分析的腦機(jī)接口。5 電腦視覺電腦視覺是使用電腦模仿人類視覺系統(tǒng)的科學(xué)，讓電腦擁有類似人類提取、處理、理解和分析圖像以及圖像序列的能力。自動(dòng)駕駛、機(jī)器人、智能醫(yī) 療等領(lǐng)域均需要通過電腦視覺技術(shù)從視覺信號(hào)中提取并處理信息。近來隨著深度學(xué)習(xí)的開

20、展，預(yù)處理、特征提取與算法處理漸漸融合，形成端到端的人工智能算法技術(shù)。根據(jù)解決的問題，電腦視覺可分為計(jì)算成像學(xué)、圖像理解、三維視覺、動(dòng)態(tài)視覺和視頻編解碼五大類。1計(jì)算成像學(xué)計(jì)算成像學(xué)是探索人眼結(jié)構(gòu)、相機(jī)成像原理以及其延伸應(yīng)用的科學(xué)。在相機(jī) 成像原理方面，計(jì)算成像學(xué)不斷促進(jìn)現(xiàn)有可見光相機(jī)的完善，使得現(xiàn)代相機(jī)更加輕便，可以適用于不同場景。同時(shí)計(jì)算成像學(xué)也推動(dòng)著新型相機(jī)的產(chǎn)生，使相機(jī) 超出可見光的限制。在相機(jī)應(yīng)用科學(xué)方面，計(jì)算成像學(xué)可以提升相機(jī)的能力，從而通過后續(xù)的算法處理使得在受限條件下拍攝的圖像更加完善，例如圖像去噪、去模糊、暗光增強(qiáng)、去霧霾等，以及實(shí)現(xiàn)新的功能，例如全景圖、

21、軟件虛化、超分辨率等。2圖像理解圖像理解是通過用電腦系統(tǒng)解釋圖像，實(shí)現(xiàn)類似人類視覺系統(tǒng)理解外部世界的一門科學(xué)。通常根據(jù)理解信息的抽象程度可分為三個(gè)層次：淺層理解，包括圖像邊緣、圖像特征點(diǎn)、紋理元素等；中層理解，包括物體邊界、區(qū)域與平面等；高層理解，根據(jù)需要抽取的高層語義信息，可大致分為識(shí)別、檢測、分割、姿態(tài) 估計(jì)、圖像文字說明等。目前高層圖像理解算法已逐漸廣泛應(yīng)用于人工智能系統(tǒng)，如刷臉支付、智慧安防、圖像搜索等。3三維視覺三維視覺即研究如何通過視覺獲取三維信息三維重建以及如何理解所獲取的三維信息的科學(xué)。三維重建可以根據(jù)重建的信息來源，分為單目圖像重建、多目圖像重建和深度

22、圖像重建等。三維信息理解，即使用三維信息輔助圖像理解或者直接理解三維信息。三維信息理解可分為，淺層：角點(diǎn)、邊緣、法向量等；中層：平面、立方體等；高層：物體檢測、識(shí)別、分割等。三維視覺技術(shù)可以廣泛應(yīng)用于機(jī)器人、無人駕駛、智慧工廠、虛擬/ 增強(qiáng)現(xiàn)實(shí)等方向。4動(dòng)態(tài)視覺動(dòng)態(tài)視覺即分析視頻或圖像序列，模擬人處理時(shí)序圖像的科學(xué)。通常動(dòng)態(tài)視覺問題可以定義為尋找圖像元素，如像素、區(qū)域、物體在時(shí)序上的對(duì)應(yīng)，以及提取其語義信息的問題。動(dòng)態(tài)視覺研究被廣泛應(yīng)用在視頻分析以及人機(jī)交互等方面。5視頻編解碼視頻編解碼是指通過特定的壓縮技術(shù)，將視頻流進(jìn)行壓縮。視頻流傳輸中最為重要的編解碼標(biāo)準(zhǔn)有國際電聯(lián)

23、的 H.261、H.263、H.264、H.265、M-JPEG 和 MPEG 系列標(biāo)準(zhǔn)。視頻壓縮編碼主要分為兩大類：無損壓縮和有損壓縮。無損壓縮指使用壓縮后的數(shù)據(jù)進(jìn)行重構(gòu)時(shí)，重構(gòu)后的數(shù)據(jù)與原來的數(shù)據(jù)完全相同，例如磁盤文件的壓縮。有損壓縮也稱為不可逆編碼，指使用壓縮后的數(shù)據(jù)進(jìn)行重構(gòu)時(shí)，重構(gòu)后的數(shù)據(jù)與原來的數(shù)據(jù)有差異，但不會(huì)影響人們對(duì) 原始資料所表達(dá)的信息產(chǎn) 生誤解。有損壓縮的應(yīng)用范圍廣泛，例如視頻會(huì)議、可視、視頻播送、視頻監(jiān)控等。目前，電腦視覺技術(shù)開展迅速，已具備初步的產(chǎn)業(yè)規(guī)模。未來電腦視覺技術(shù)的開展主要面臨以下挑戰(zhàn)：一是如何在不同的應(yīng)用領(lǐng)域和其他技術(shù)更好的結(jié) 合

24、，電腦視覺在解決某些問題時(shí)可以廣泛利用大數(shù)據(jù)，已經(jīng)逐漸成熟并且可以超過人類，而在某些問題上卻無法到達(dá) 很高的精度；二是如何降低電腦視覺算法的開發(fā)時(shí)間和人力本錢，目前電腦視覺算法需要大量的數(shù)據(jù)與人工標(biāo)注，需要較長的研發(fā)周期以到達(dá)應(yīng)用領(lǐng)域所要求的精度與耗時(shí)；三是如何加快新型算法的設(shè)計(jì)開發(fā)，隨著新的成像硬件與人工智能芯片的出現(xiàn)，針對(duì)不同芯片與數(shù)據(jù)采集設(shè)備的電腦視覺算法的設(shè)計(jì)與開發(fā)也是挑戰(zhàn)之一。6 生物特征識(shí)別生物特征識(shí)別技術(shù)是指通過個(gè)體生理特征或行為特征對(duì)個(gè)體身份進(jìn)行識(shí)別認(rèn)證的技術(shù)。從應(yīng)用流程看，生物特征識(shí)別通常分為注冊和識(shí)別兩個(gè)階段。注冊階段通過傳感器對(duì)人體的生物表征信息

25、進(jìn)行采集，如利用圖像傳感器對(duì)指紋和人臉等光學(xué)信息、麥克風(fēng)對(duì)說話聲等聲學(xué)信息進(jìn)行采集，利用數(shù)據(jù)預(yù)處理以及特征提取技術(shù)對(duì)采集的數(shù)據(jù)進(jìn)行處理，得到相應(yīng) 的特征進(jìn)行存儲(chǔ)。識(shí)別過程采用與注冊過程一致的信息采集方式對(duì)待識(shí)別人進(jìn)行信息采集、數(shù)據(jù)預(yù)處理和特征提取，然后將提取的特征與存儲(chǔ)的特征進(jìn)行比對(duì)分析，完成識(shí)別。從應(yīng) 用任務(wù)看，生物特征識(shí)別一般分為識(shí)別與確認(rèn)兩種任務(wù)，識(shí)別是指從存儲(chǔ)庫中確定待識(shí)別人身份的過程，是一對(duì)多的問題；確認(rèn)是指將待識(shí)別人信息與存儲(chǔ)庫中特定單人信息進(jìn) 行比對(duì)，確定身份的過程，是一對(duì)一的問題。生物特征識(shí)別技術(shù)涉及的內(nèi)容十分廣泛，包括指紋、掌紋、人臉、虹膜、指靜脈

26、、聲紋、步態(tài)等多種生物特征，其識(shí)別過程涉及到圖像處理、電腦視覺、語音識(shí)別、機(jī)器學(xué)習(xí)等多項(xiàng)技術(shù)。目前生物特征識(shí)別作為重要的智能化身份認(rèn)證技術(shù)，在金融、公共平安、教育、交通等領(lǐng)域得到廣泛的應(yīng)用。下面將對(duì)指紋識(shí) 別、人臉識(shí)別、虹膜識(shí)別、指靜脈識(shí)別、聲紋識(shí)別以及步態(tài)識(shí)別等技術(shù)進(jìn)行介紹。1指紋識(shí)別指紋識(shí)別過程通常包括數(shù)據(jù)采集、數(shù)據(jù)處理、分析判別三個(gè)過程。數(shù)據(jù)采集通過光、電、力、熱等物理傳感器獲取指紋圖像；數(shù)據(jù)處理包括預(yù)處理、畸變校正、特征提取三個(gè)過程；分析判別是對(duì)提取的特征進(jìn)行分析判別的過程。2人臉識(shí)別人臉識(shí)別是典型的電腦視覺應(yīng)用，從應(yīng)用過程來看，可將人臉識(shí)別技術(shù)劃分為

27、檢測定位、面部特征提取以及人臉確認(rèn)三個(gè)過程。人臉識(shí)別技術(shù)的應(yīng)用主要受到光照、拍攝角度、圖像遮擋、年齡等多個(gè)因素的影響，在約束條件下人臉識(shí) 別技術(shù)相對(duì)成熟，在自由條件下人臉識(shí)別技術(shù)還在不斷改進(jìn)。3虹膜識(shí)別虹膜識(shí)別的理論框架主要包括虹膜圖像分割、虹膜區(qū)域歸一化、特征提取和識(shí)別四個(gè)局部，研究工作大多是基于此理論框架開展而來。虹膜識(shí)別技術(shù)應(yīng)用的主要難題包含傳感器和光照影響兩個(gè)方面：一方面，由于虹膜尺寸小且受黑色素遮擋，需在近紅外光源下采用高分辨圖像傳感器才可清晰成像，對(duì)傳感器質(zhì)量和穩(wěn)定性要求比擬高；另一方面，光照的強(qiáng)弱變化會(huì)引起瞳孔縮放，導(dǎo)致虹膜紋理產(chǎn)生復(fù)雜形變，增加了匹配的難度。4指靜脈識(shí)別指靜脈識(shí)別是利用了人體靜脈血管中的脫氧血紅蛋白對(duì)特定波長范圍內(nèi)的近紅外線有很好的吸收作用這一特性，采用近紅外光對(duì)指靜脈進(jìn)行成像與識(shí)別的技術(shù)。由于指靜脈血管分布隨機(jī)性很強(qiáng)，其網(wǎng)絡(luò)特征具有很好的唯一性，且屬于人體內(nèi)部特征，不受到外界影響，因此模態(tài)特性十分穩(wěn)定。指靜脈識(shí)別技術(shù)應(yīng)用面臨的主要難題來自于成像單元。5聲紋識(shí)別聲紋識(shí)別是指根據(jù)待識(shí)別語音的聲紋特征識(shí)別說話人的技術(shù)。聲紋識(shí)別技術(shù)通常可以分為前端處理和建模分析兩個(gè)階段。聲紋識(shí)別

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能的核心技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

人工智能的核心技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔