



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
語(yǔ)料庫(kù)語(yǔ)言學(xué)維基百科語(yǔ)料庫(kù)語(yǔ)言學(xué)(英語(yǔ):corpuslinguistics)是基于語(yǔ)言運(yùn)用的實(shí)例(即語(yǔ)料庫(kù))的語(yǔ)言討論。語(yǔ)料庫(kù)語(yǔ)言學(xué)可以對(duì)自然語(yǔ)言進(jìn)行語(yǔ)法與句法分析,還可以討論它與其他語(yǔ)言的關(guān)系。語(yǔ)料庫(kù)最初由手工完成,而現(xiàn)在主要是由計(jì)算機(jī)自動(dòng)完成。語(yǔ)料庫(kù)語(yǔ)言學(xué)家信任,牢靠的語(yǔ)言分析需建立在新奇的語(yǔ)料、自然的語(yǔ)言環(huán)境,和最小的試驗(yàn)干擾之上。在語(yǔ)料庫(kù)語(yǔ)言學(xué)中,語(yǔ)料標(biāo)注的意義眾說(shuō)紛紜,從約翰?辛克萊⑴主見(jiàn)最少量的標(biāo)注,并允許文本“為自己說(shuō)話",至『英語(yǔ)用法調(diào)杳組”(設(shè)在倫敦高校學(xué)院)[2]鼓舞更多的標(biāo)注,并認(rèn)為它是通向更完備和嚴(yán)謹(jǐn)?shù)恼Z(yǔ)言理解的道路。名目1歷史2方法3參考文獻(xiàn)o3.1引用o3.2期刊o3.3書(shū)籍4外部鏈接5參見(jiàn)歷史[編輯]現(xiàn)代語(yǔ)料庫(kù)語(yǔ)言學(xué)的一個(gè)里程碑是亨利?庫(kù)切拉和W.納爾遜弗朗西斯在1967年出版的《當(dāng)代美語(yǔ)的計(jì)算分析》(ComputationalAnalysisofPresent-DayAmericanEnglish)一書(shū)。該項(xiàng)工作基于對(duì)布朗語(yǔ)料庫(kù)的分析,布朗語(yǔ)料庫(kù)是一個(gè)細(xì)心編制的美國(guó)英語(yǔ)語(yǔ)料庫(kù),規(guī)模約有一百萬(wàn)詞次。庫(kù)切拉和弗朗西斯將這些語(yǔ)料用于各種計(jì)算分析,獲得了豐富和多樣化的成果,該成果結(jié)合了語(yǔ)言學(xué)、語(yǔ)言教、心理學(xué)、統(tǒng)計(jì)學(xué)、和社會(huì)學(xué)元素。另一關(guān)鍵出版物是1960年倫道夫?夸克的《當(dāng)代英語(yǔ)語(yǔ)法》(TowardsadescriptionofEnglishUsage)口】,在這本書(shū)中他介紹了"英語(yǔ)用法調(diào)杳”項(xiàng)目(TheSurveyofEnglishUsage)°此后不久,波士頓出版商霍頓米夫林邀請(qǐng)庫(kù)切拉為其新的美國(guó)傳統(tǒng)英語(yǔ)字典供應(yīng)百萬(wàn)詞次,三線引文的來(lái)進(jìn)行詞典編纂。《美國(guó)傳統(tǒng)英語(yǔ)字典》創(chuàng)新地將規(guī)定性元素(應(yīng)如何使用語(yǔ)言)和描述性元素(語(yǔ)言實(shí)際上是如何被使用)結(jié)合在了一起。其他出版社紛紛效仿。英國(guó)出版商柯林斯COBUILD單語(yǔ)學(xué)習(xí)詞典,就是為非英語(yǔ)母語(yǔ)者學(xué)習(xí)英語(yǔ)而出版的,它使用了“英語(yǔ)銀行"(BankofEnglish)語(yǔ)料庫(kù)?!坝⒄Z(yǔ)用法調(diào)查”語(yǔ)料庫(kù)被用于由夸克等人編著的《綜合英語(yǔ)語(yǔ)法》(AComprehensiveGrammaroftheEnglishLanguage)中。布朗語(yǔ)料庫(kù)也催生了類似的語(yǔ)料庫(kù):LOB語(yǔ)料庫(kù)(Lancaster-Oslo-BergenCorpus,20世紀(jì)60年月英國(guó)英語(yǔ)),科爾哈帕(Kolhapur,印度英語(yǔ)),惠靈頓(Wellington,新西蘭英語(yǔ)),澳大利亞英語(yǔ)語(yǔ)料庫(kù)(AustralianCorpusofEnglish,澳大利亞英語(yǔ)),皺眉語(yǔ)料庫(kù)(FrownCorpus,20世紀(jì)90年月初,美國(guó)英語(yǔ)),以及FLOB語(yǔ)料庫(kù)(FLOBCorpus,20世紀(jì)90年月,英國(guó)英語(yǔ))。其他語(yǔ)料庫(kù)包括國(guó)際英語(yǔ)語(yǔ)料庫(kù)(InternationalCorpusofEnglish),和英國(guó)我國(guó)語(yǔ)料庫(kù)(BiitishNationalCorpus,收集了1億詞次的口頭和書(shū)面語(yǔ)料,在20世紀(jì)90年月時(shí)由出版商、牛津高校、蘭卡斯特高校和大英圖書(shū)館創(chuàng)建)。至于說(shuō)到當(dāng)代的美國(guó)英語(yǔ),現(xiàn)已有了美國(guó)我國(guó)語(yǔ)料庫(kù)(英語(yǔ):AmericanNationalCorpus),以及可以在線訪問(wèn)的4億多詞次的美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)(英語(yǔ):CorpusofContemporaryAmericanEnglish,1990年倉(cāng)犍)。第一個(gè)電腦轉(zhuǎn)錄口語(yǔ)語(yǔ)料庫(kù),建于1971年蒙特利爾法語(yǔ)項(xiàng)目(MontrealFrenchProject),【用有一億詞次,這一項(xiàng)目還啟發(fā)了夏娜?帕普拉克建立了規(guī)模更大的渥太華-赫爾地區(qū)法語(yǔ)口語(yǔ)語(yǔ)料庫(kù)({{lang-en|CorpusofspokenFrenchintheOttawa-Hullarea)。⑶語(yǔ)料庫(kù)除了收集現(xiàn)存語(yǔ)言,也收集古代語(yǔ)言。比如20世紀(jì)70年月建立的希伯來(lái)文圣經(jīng)的安徒生福布斯數(shù)據(jù)庫(kù)(英語(yǔ):Andersen-ForbesdatabaseoftheHebrewBible,數(shù)據(jù)庫(kù)的每個(gè)子句的語(yǔ)法分析都使用了多達(dá)七級(jí)語(yǔ)構(gòu)的圖表,每一部分都標(biāo)注了七個(gè)方面的信息。⑹⑺古蘭經(jīng)阿拉伯語(yǔ)語(yǔ)料庫(kù)(英語(yǔ):QuranicArabicCorpus)是古典的阿拉伯文《古蘭經(jīng)》的標(biāo)注語(yǔ)料庫(kù)。它包含多層次的標(biāo)注,包括形態(tài)分割,詞性標(biāo)注,以及使用依存語(yǔ)法進(jìn)行的句法分析。網(wǎng)方法[編輯]語(yǔ)料庫(kù)語(yǔ)言學(xué)已經(jīng)有了一大批討論方法,這些討論方法都試圖找到從數(shù)據(jù)到理論的解決方案。瓦利斯和尼爾森⑼最先介紹了他們的3A觀點(diǎn)(英語(yǔ):3Aperspective):注釋(英語(yǔ):Annotation),抽象(英語(yǔ):Abstraction)和分析(英語(yǔ):Analysis)o注釋包括語(yǔ)料的數(shù)據(jù)庫(kù)方案。注釋可能包括結(jié)構(gòu)標(biāo)注,詞性標(biāo)注,句法分析和其他形式。抽象包括該方案在理論上的啟發(fā)式模型或數(shù)據(jù)集中的翻譯(映射)。抽象通常包括面對(duì)語(yǔ)言學(xué)家的定向搜尋,但也可能包括句法討論者的句法規(guī)章學(xué)習(xí)。分析包括統(tǒng)計(jì)學(xué)探測(cè),操縱和對(duì)數(shù)據(jù)集的歸納概括。分析可能包括統(tǒng)計(jì)學(xué)評(píng)估,規(guī)章庫(kù)優(yōu)化和學(xué)問(wèn)探究方法。如今大多數(shù)詞匯語(yǔ)料庫(kù)采納詞性標(biāo)注(英語(yǔ):part-of-speech-tagged)。然而,即使是采納未標(biāo)注語(yǔ)料的語(yǔ)料庫(kù)語(yǔ)言學(xué)家也無(wú)疑會(huì)使用一些方法來(lái)從句子中隔離出他們感愛(ài)好的詞。在這種狀況下,注釋和抽象在詞匯搜素中結(jié)合起來(lái)了。發(fā)布標(biāo)注語(yǔ)料庫(kù)的優(yōu)點(diǎn)是其他用戶可以在語(yǔ)料庫(kù)中進(jìn)行討論與試驗(yàn)。語(yǔ)言學(xué)家與其他相關(guān)人士就可以采用語(yǔ)料庫(kù)來(lái)工作通過(guò)數(shù)據(jù)共享,語(yǔ)料庫(kù)語(yǔ)言學(xué)家能將語(yǔ)料庫(kù)視為語(yǔ)言研討的核心,而不是學(xué)問(wèn)的源泉。CorpuslinguisticsFromWikipedia,thefreeencyclopediaCorpuslinguisticsisthestudyoflanguageasexpressedinsamples(corpora)of“realworld"text.Thismethodrepresentsadigestiveapproachtoderivingasetofabstractrulesbywhichanaturallanguageisgovernedorelserelatestoanotherlanguage.Originallydonebyhand,corporaarenowlargelyderivedbyanautomatedprocess.Corpuslinguisticsadherentsbelievethatreliablelanguageanalysisbestoccursonfield-collectedsamples,innaturalcontextsandwithminimalexperimentalinterference.Withincorpuslinguisticstherearedivergentviewsastothevalueofcorpusannotation,fromJohnSinclair^advocatingminimalannotationandallowingtextsto'speakforthemselves',toothers,suchastheSurveyofEnglishUsageteam(basedinUniversityCollege,London)@advocatingannotationasapathtogreaterlinguisticunderstandingandrigour.LinguisticsTheoreticalCognitiveGenerativeQuantitative?FunctionaltheoriesofgrammarPhonologyMorphology*MorphophonologySyntaxLexisSemanticsPragmaticsGraphcmicsOrthographySemioticsDescriptiveAnthropologicalComparative?HistoricalEtymologyGraphetics?PhoneticsSociolinguisticsAppliedandexperimentalComputational
Contrastive?Evolutionar}'ForensicInternetLanguageacquisitionSecond-languageacquisitionLanguageassessmentLanguagedevelopmentLanguageeducationLinguisticanthropology
Neurolinguistics
PsycholinguisticsRelatedarticlesHistoryoflinguisticsLinguisticprescription
Listoflinguists
UnsolvedlinguisticsproblemsLinguisticsportalContents
[hide]1History2MethodsSeealsoReferenceso4.1Journalso4.2Bookserieso4.3OtherExternallinksHistory[edit]Someoftheearliesteffortsatgrammaticaldescriptionwerebasedatleastinpartoncorporaofparticularreligiousorculturalsignificance.Forexample,PratisakhyaliteraturedescribedthesoundpatternsofSanskritasfoundintheVedas,andPanini'sgrammarofclassicalSanskritwasbasedatleastinpartonanalysisofthatsamecorpus.Similarly,theearlyArabicarammarianspaidparticularattentiontothelanguageoftheQuran.IntheWesternEuropeantradition,scholarspreparedconcordancestoallowdetailedstudyofthelanguageoftheBibleandothercanonicaltexts.AlandmarkinmoderncorpuslinguisticswasthepublicationbyHenryKuceraandW.NelsonFrancisofComputationalAnalysisofPresent-DayAmericanEnglishin1967,aworkbasedontheanalysisoftheBrownCorpus,acarefullycompiledselectionofcurrentAmericanEnglish,totallingaboutamillionwordsdrawnfromawidevarietyofsources.KuceraandFrancissubjectedittoavarietyofcomputationalanalyses,fromwhichtheycompiledarichandvariegatedopus,combiningelementsoflinguistics,languageteaching,psychology,statistics,andsociology.AfurtherkeypublicationwasRandolphQuirk's'TowardsadescriptionofEnglishUsage'(I960)團(tuán)inwhichheintroducedTheSurveyofEnglishUsage.Shortlythereafter,BostonpublisherHoughton-MifflinapproachedKuceratosupplyamillionword,three-linecitationbaseforitsnewAmericanHeritageDictionary,thefirstdictionarytobecompiledusingcorpuslinguistics.TheAHDtooktheinnovativestepofcombiningprescriptiveelements(howlanguageshouldbeused)withdescriptiveinformation(howitactuallyisused).Otherpublishersfollowedsuit.TheBritishpublisherCollins*COBUILDmonolinguallearner'sdictionary,designedforuserslearningEnglishasaforeignlanguage,wascompiledusingtheBankofEnglish.TheSurveyofEnglishUsageCorpuswasusedinthedevelopmentofoneofthemostimportantCorpus-basedGrammars,theComprehensiveGrammarofEnglish(Quirketal.1985).圖TheBrownCorpushasalsospawnedanumberofsimilarlystructuredcorpora:theLOBCorpus(1960sBritishEnglish),Kolhapur(IndianEnglish),Wellington(NewZealandEnglish),AustralianCorpusofEnglish(AustralianEnglish),theFrownCorpus(early1990sAmericanEnglish),andtheFLOBCorpus(1990sBritishEnglish).Othercorporarepresentmanylanguages,varietiesandmodes,andincludetheInternationalCorpusofEnglish,andtheBritishNationalCorpus,a100millionwordcollectionofarangeofspokenandwrittentexts,createdinthe1990sbyaconsortiumofpublishers,universities(OxfordandLancaster)andtheBritishLibrary.ForcontemporaryAmericanEnglish,workhasstalledontheAmericanNationalCorpus,butthe400+millionwordCorpusofContemporaryAmericanEnglish(1990-present)isnowavailablethroughawebinterface.Thefirstcomputerizedcorpusoftranscribedspokenlanguagewasconstructedin1971bytheMontrealFrenchProject,囪containingonemillionwords,whichinspiredShanaPoplack'smuchlargercorpusofspokenFrenchintheOttawa-Hullarea.?Besidesthesecorporaoflivinglanguages,computerizedcorporahavealsobeenmadeofcollectionsoftextsinancientlanguages.AnexampleistheAndersen-ForbesdatabaseoftheHebrewBible,developedsincethe1970s,inwhicheveryclauseisparsedusinggraphsrepresentinguptosevenlevelsofsyntax,andeverysegmenttaggedwithsevenfieldsofinformation.^TheQuranicArabicCorpusisanannotatedcorpusfortheClassicalArabiclanguageoftheQuran.Thisisarecentprojectwithmultiplelayersofannotationincludingmorphologicalsegmentation,part-of-speechtagging,andsyntacticanalysisusingdependencygrammar.倒Methods[edit]CorpusLinguisticshasgeneratedanumberofresearchmethods,attemptingtotraceapathfromdatatotheory.WallisandNelson(2001)3firstintroducedwhattheycalledthe3Aperspective:Annotation,AbstractionandAnalysis.Annotationconsistsoftheapplicationofaschemetotexts.Annotationsmayincludestructuralmarkup,part-of-speechtagging,parsing,andnumerousotherrepresentations.Abstractionconsistsofthetranslation(mapping)oftermsintheschemetotermsinatheoreticallymotivatedmodelordataset.Abstractiontypicallyincludeslinguist-directedsearchbutmayincludee.g.,rule-learningforparsers.Analysisconsistsofstatisticallyprobing,manipulatingandgeneralisi
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 保育員考試題庫(kù)及答案
- 保安考試題及答案2019
- 安全知識(shí)測(cè)評(píng)試題及答案
- 安全員b試題及答案
- 安全試題及答案春節(jié)
- 2025年廢棄礦井資源再利用技術(shù)路徑與產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟研究報(bào)告
- 2025年婦幼醫(yī)療保健服務(wù)體系建設(shè)中的社會(huì)影響力評(píng)估報(bào)告001
- 安全急救常識(shí)試題及答案
- 2025年深遠(yuǎn)海風(fēng)電場(chǎng)建設(shè)標(biāo)準(zhǔn)報(bào)告:海上風(fēng)能資源評(píng)估與工程規(guī)范
- 特殊路基設(shè)計(jì)培訓(xùn)課件
- 安全防汛培訓(xùn)課件
- 醫(yī)藥運(yùn)輸配送員培訓(xùn)
- 戰(zhàn)略合作框架協(xié)議
- 藥品經(jīng)營(yíng)使用和質(zhì)量監(jiān)督管理辦法2024年宣貫培訓(xùn)課件
- DB11T 1445-2017 民用建筑工程室內(nèi)環(huán)境污染控制規(guī)程
- 35kV線路工程電桿組立施工方案
- 走進(jìn)西方音樂(lè)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 《ISO 55013-2024 資產(chǎn)管理-數(shù)據(jù)資產(chǎn)管理指南》解讀和實(shí)施指導(dǎo)材料(雷澤佳編制-2024)
- 初中生物中考全四冊(cè)復(fù)習(xí)知識(shí)點(diǎn)總結(jié)
- 2024年陜西省中考生物真題(含解析)
- 2023年特種設(shè)備監(jiān)督管理題庫(kù)
評(píng)論
0/150
提交評(píng)論