




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
語料庫語言學(xué)提綱1什么是語料庫
2語料庫的發(fā)展簡史
3語料庫的設(shè)計(jì)
4語料庫的加工
5語料庫的應(yīng)用語料庫與語料庫語言學(xué)傳統(tǒng)上認(rèn)為語料庫就是存放語言材料的倉庫(或數(shù)據(jù)庫)。語料庫語言學(xué)主要包括兩方面的內(nèi)容:一是對(duì)自然語料進(jìn)行加工、標(biāo)注;二是用已經(jīng)標(biāo)注好的語料進(jìn)行語言研究和應(yīng)用開發(fā)。1什么是語料庫在今天,僅僅將語料庫視為存放語言材料的倉庫,是令人無法忍受的觀點(diǎn)。新一代的兆億級(jí)的大規(guī)模語料庫可以作為語言模型的訓(xùn)練和測試手段,來評(píng)價(jià)一個(gè)語言模型的質(zhì)量;此外,諸如困惑度之類的統(tǒng)計(jì)方法也可利用語料庫來評(píng)估一個(gè)語法模型對(duì)語料的解釋能力?!狦eoffreyLeech,TheStateofTheArtinCorpusLinguistics,1991,InAijmar,K.andAltenberg,B.,eds.,EnglishCorpusLinguistics:StudiesinHonorofJanSvartvik,London:Longman,1991.關(guān)于語料庫的三點(diǎn)基本認(rèn)識(shí)1.語料庫中存放的是在語言的實(shí)際使用中真實(shí)出現(xiàn)過的語言材料;
2.語料庫是以電子計(jì)算機(jī)為載體承載語言知識(shí)的基礎(chǔ)資源;
3.真實(shí)語料需要經(jīng)過加工(分析和處理),才能成為有用的資源;語料庫示例(一)北京大學(xué)計(jì)算語言所富士通人民日?qǐng)?bào)標(biāo)注語料庫樣例:歷史/n將/d銘記/v這個(gè)/r坐標(biāo)/n:/w北緯/b41.1/m度/q、/w東經(jīng)/b114.3/m度/q;/w人們/n將/d銘記/v這/r一/m時(shí)刻/n:/w1998年/t1月/t10日/t11時(shí)/t50分/t。/w……[中國/ns政府/n]nt順利/ad恢復(fù)/v對(duì)/p香港/ns行使/v主權(quán)/n,/w并/c按照/p“/w一國兩制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方針/n保持/v香港/ns的/u繁榮/an穩(wěn)定/an。/w語料庫示例(二)London-Lund英語口語語料庫樣例^whata_boutacigar\ette#./*((4sylls))*/*I^w\on'thaveoneth/anks#*---/^aren'tyou.goingtositd/own#-/^[/\m]#-/^havemy_coffeeinp=eace#---/^quiteanice.roomto!s\itin((actually))#/*^\isn't*it#/*^y/\es#*---/轉(zhuǎn)引自TonyMcEnery&AndrewWilson,1996,CorpusLinguistics,p55。語料庫與語言知識(shí)庫語言知識(shí)庫(LinguisticDatabase)語料庫(corpora/corpus)2語料庫發(fā)展簡史早期語料庫語言學(xué)(20世紀(jì)50年代中期以前,喬提出轉(zhuǎn)換生成語法理論之前的所有基于語言材料的語言研究)(語言習(xí)得:方言學(xué);語言教學(xué);句法和語義;音系研究)20世紀(jì)50年代Chomsky的影響(1.喬認(rèn)為基于語料庫得研究方法有誤,提倡理性主義;2.語料的不充分性,短語結(jié)構(gòu)具有遞歸性)第一代(1970-80年代)
第二代(1980-90年代)
第三代(1990年代-)第一代語料庫Brown語料庫
LOB語料庫百萬詞級(jí)以語言研究為導(dǎo)向
LLC語料庫第二代語料庫COBUILD語料庫?千萬詞級(jí)詞典編纂-應(yīng)用導(dǎo)向Longman語料庫第三代語料庫ACL/DCI語料庫(上億詞級(jí))
標(biāo)準(zhǔn)編碼體系UPenn樹庫
深度標(biāo)注/多語種LDC超大規(guī)模NLP應(yīng)用3語料庫的設(shè)計(jì)語料庫的編碼體系SGML(標(biāo)準(zhǔn)置標(biāo)語言)/MarkUp/SGML/XML(可擴(kuò)展的置標(biāo)語言)/TR/REC-xmlTEI(文檔編碼計(jì)劃)http://www.tei-/CES(語料庫編碼標(biāo)準(zhǔn))/Applications/index-co02.html馮志偉,1998,《標(biāo)準(zhǔn)通用置標(biāo)語言SGML及其在自然語言處理中的應(yīng)用》,載《當(dāng)代語言學(xué)》1998年第4期。CES標(biāo)準(zhǔn)(CorpusEncodingStandard)語料庫/n標(biāo)記/n應(yīng)該/v有/v規(guī)范/n
<sample_corpora>…
語料庫A:不符合CES<p>
<s><wPOS="n">語料庫</w>
語料庫B:符合CES<wPOS="n">標(biāo)記</w><wPOS="v">應(yīng)該</w><wPOS="v">有</w><wPOS="n">規(guī)范</w></s></p>…</sample_corpora>4語料庫的加工語料庫標(biāo)注(Annotation)1)詞性標(biāo)記(Part-of-speechtagging)2)句法層次和范疇標(biāo)記(Grammaticalparsing)3)詞義標(biāo)記(Wordsensetagging)4)篇章指代標(biāo)記(Anaphoricannotation)5)韻律標(biāo)記(Prosodicannotation)……p.lancs.ac.uk/computing/research/ucrel/annotation.html語料庫加工工具雙語語料庫(BilingualCorpora)加工段落對(duì)齊
句子對(duì)齊
詞對(duì)齊
短語對(duì)齊雙語句子對(duì)齊基于長度(length-based)的對(duì)齊方法Gale&Church(1993)純粹基于句子的長度來估計(jì)對(duì)齊可能性資源要求少,算法效率相對(duì)較高
基于詞(word-based)的對(duì)齊方法一般要依賴詞典資源,算法效率相對(duì)較低雙語句子對(duì)齊示例雙語句子對(duì)齊問題5語料庫應(yīng)用1.支持自然語言處理應(yīng)用系統(tǒng)開發(fā)
2.支持語言學(xué)研究和語言教學(xué)研究語料庫對(duì)NLP的支持基于大規(guī)模語料庫的語音識(shí)別;
基于大規(guī)模語料庫的音字轉(zhuǎn)換技術(shù)(中文輸入);基于大規(guī)模語料庫的自動(dòng)文本校對(duì)技術(shù);
利用語料庫訓(xùn)練HMM模型進(jìn)行分詞,詞性標(biāo)注,詞義標(biāo)注,等等;
基于語料庫的句法分析;
基于語料庫的機(jī)器翻譯;
基于機(jī)器學(xué)習(xí)技術(shù),通過語料庫獲取語言知識(shí),包括搭配特征,句法規(guī)則,等等;
基于語料庫的語言模型訓(xùn)練和語法模型評(píng)價(jià);中文音字轉(zhuǎn)換基于語料庫的語言研究Concordance(索引——相關(guān)集列)Collocation(搭配的定量研究)CobuildConcordanceandCollocationsSamplerhttp://titania.cobuild.collins.co.uk/form.html臺(tái)灣“中研院”現(xiàn)代漢語平衡語料庫http://www.sinica.edu.tw/ftms-bin/kiwi.sh
孫茂松等,1997,《漢語搭配定量分析初探》,載《中國語文》1997年第1期。pp29-38。關(guān)于搭配的定義搭配是重復(fù)出現(xiàn)的;
“大手筆”——“大文科”/“大歷史”
搭配是不可類推的;(自由組合——受限組合)
“吃豆腐”——“吃白菜”——“喝西北風(fēng)”
搭配一般具有正常的句法結(jié)構(gòu);
“戴高帽”——?“戴高”——“風(fēng)馬牛不相及”
搭配通常與領(lǐng)域相關(guān);
“語言習(xí)得”——“學(xué)說話”“風(fēng)險(xiǎn)投資”其他研究風(fēng)格學(xué)研究
抽取詞表(單語,雙語)
統(tǒng)計(jì)字頻、詞頻,編寫語言教材
詞典編纂
句法結(jié)構(gòu)研究
句型研究
……小結(jié)語料庫對(duì)NLP和語言研究與教學(xué)都有非常重要的意義;語料庫的建設(shè)是非常昂貴的;要利用好語料庫,應(yīng)該盡量打好統(tǒng)計(jì)基礎(chǔ);進(jìn)一步閱讀文獻(xiàn)Gale,W.&Church,K.,Aprogramforaligningsentenceinbilingualcorpora,InComputationallinguistics,Vol.19,No.1,1993.
劉昕,周明,黃昌寧,1995,《基于長度算法的中英雙語文本對(duì)齊的試驗(yàn)》,載陳力為等主編《計(jì)算語言學(xué)進(jìn)展與應(yīng)用》,清華大學(xué)出版社1995年版。
孫宏林,1997,《從標(biāo)注語料庫中歸納語法規(guī)則:“V+N”序列試驗(yàn)分析》,載陳力為、袁琦主編《語言工程》,清華大學(xué)出版社1997年版,pp157-163。
《當(dāng)代語言學(xué)》1998年第1期,語料庫語言學(xué)???。
GraemeKennedy,1998,AnIntroduction
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廠級(jí)員工安全培訓(xùn)考試試題附完整答案(易錯(cuò)題)
- 2025年職工安全培訓(xùn)考試試題附答案【綜合題】
- 2024-2025公司級(jí)安全培訓(xùn)考試試題含下載答案可打印
- 2024-2025公司項(xiàng)目負(fù)責(zé)人安全培訓(xùn)考試試題【典優(yōu)】
- 25年公司廠級(jí)安全培訓(xùn)考試試題附答案【B卷】
- 2025項(xiàng)目部管理人員安全培訓(xùn)考試試題附答案(培優(yōu)B卷)
- 2024-2025廠級(jí)安全培訓(xùn)考試試題答案a4版
- 遼寧冶金職業(yè)技術(shù)學(xué)院《波譜學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江蘇警官學(xué)院《園林工程》2023-2024學(xué)年第二學(xué)期期末試卷
- 新疆農(nóng)業(yè)大學(xué)科學(xué)技術(shù)學(xué)院《外刊選讀》2023-2024學(xué)年第二學(xué)期期末試卷
- 斷親協(xié)議書模板
- TD/T 1061-2021 自然資源價(jià)格評(píng)估通則(正式版)
- 水利安全生產(chǎn)風(fēng)險(xiǎn)防控“六項(xiàng)機(jī)制”右江模式經(jīng)驗(yàn)分享
- 級(jí)進(jìn)模具畢業(yè)設(shè)計(jì)說明書
- 兒童呼吸機(jī)基本使用
- 手術(shù)替代治療方案
- 建筑工程項(xiàng)目管理績效評(píng)價(jià)指標(biāo)體系
- T-CNPPA 3025-2023 藥包材質(zhì)量協(xié)議管理指南
- 家庭教育講座活動(dòng)流程
- 大學(xué)《思想道德與法治》期末考試復(fù)習(xí)題庫(含答案)
- 麥肯錫入職培訓(xùn)第一課在線閱讀
評(píng)論
0/150
提交評(píng)論