讓中文信息處理與世界同步.docx_第1頁
讓中文信息處理與世界同步.docx_第2頁
讓中文信息處理與世界同步.docx_第3頁
讓中文信息處理與世界同步.docx_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

讓中文信息處理與世界同步專訪海量科技前言:四十人的公司中有近十人從事基礎(chǔ)研究,他們研究的漢語自動分詞技術(shù)取得突破性進展,在北大人民日報一千多萬漢字的人工語料上測試,分詞準(zhǔn)確率達到99.5以上。原美國朗訊科技總公司副總裁葉祖禹博士以個人身份投資入股并出任公司董事,原Intel中國研究中心周富秋博士出任公司董事。這些都來自于一家天津的軟件公司海量科技?!叭绻形哪芟裼⑽囊粯釉~之間也有空格,那我們公司也就不存在了?!焙A靠萍伎偨?jīng)理郝璽龍口中說這句話的時候,他顯得輕松。然而,就是這樣一個看似簡單的問題卻給中文處理帶來了巨大的包袱,使得中文處理很難達到英文那樣易用、精確的水平,并制約著很多中文應(yīng)用領(lǐng)域,從中文智能信息處理到檢索、分類,甚至到中文輸入法,分詞都成為了最大的絆腳石?!皼]有中文分詞,其他一切深入的中文信息處理都無從談起。”一位專家這樣說。正因為如此,國家投入了大量的人力物力研究中文分詞技術(shù)。然而幾十年過去了,中文分詞準(zhǔn)確率仍然在97%以下徘徊,而這3%的差誤率便讓很多中文信息智能處理的下一步工作無法開展。2001年10月的一天,在Intel中國研究中心會議室,當(dāng)中心副主任周富秋博士看到海量的分詞演示效果時,非常驚訝。周博士是世界上著名的自然語言理解科學(xué)家,手下有來自多所著名學(xué)府的不同學(xué)術(shù)流派的博士。其中多項研究都是基于中文分詞的應(yīng)用技術(shù),他深知該技術(shù)的難度。2002年,周富秋博士成為海量科技董事會董事。雖然現(xiàn)在他已經(jīng)擔(dān)任中興通訊主管軟件的副總裁,但只要一有機會,周富秋博士就指點海量智能計算技術(shù)的基礎(chǔ)研究。初步研究分詞技術(shù)到底海量科技是如何起步,瞄上中文分詞技術(shù)的呢?這要從海量的總經(jīng)理郝璽龍說起。郝璽龍上大學(xué)時學(xué)的是情報專業(yè),畢業(yè)后在一家上市公司作投資分析工作。1997年他開始構(gòu)思自己的證券情報咨詢服務(wù),他知道分析工作必須基于龐大情報數(shù)據(jù)庫。然而,實際操作中他發(fā)現(xiàn)中文情報資料庫無法實現(xiàn)有效的查找,細(xì)究根源,竟然發(fā)現(xiàn)分詞技術(shù)是整個中文信息處理的瓶頸。 在看過一些相關(guān)的資料和實例后,郝璽龍覺得有些思路,便開始在家里嘗試。隨著研究的深入,他逐漸意識到中文分詞技術(shù)的價值遠(yuǎn)高于情報咨詢。當(dāng)時的中文分詞技術(shù)一般都是通過與詞典的對比來區(qū)分詞,而郝璽龍手頭沒有一個數(shù)字化的詞典,打字速度也不快,于是他決定從另外的角度出發(fā),研究沒有詞典的分詞技術(shù)。當(dāng)然這個研究開始并不順利。不過,一個偶然的機會,電視上播放原教育部副部長韋玨談中國基因技術(shù)取得突破并申請專利的節(jié)目。韋玨舉了一個例子:把基因片段從一個完整的DNA序列中分離出來,很難去切割,因為對一個基因序列來說,既沒有尺,又沒有刀。而中國的研究者提出了一種方法,將基因片段按照基本單元堆積,然后進行校驗,使整體上分割的基因達到一個動態(tài)的最優(yōu)。相當(dāng)于假設(shè)很多片段,雖然它們之間有交迭,但每個片段都有獨立性和完整性。最后再進行模型校驗,從整體上判斷是否具有完整性。通過這種方法證明每個基因的排列都是恰當(dāng)?shù)?,實現(xiàn)基因片段的正確分割。聽到這里,郝璽龍有些激動,因為這與在一個句子中如何判斷和分詞是異曲同工。采用這種理論,又經(jīng)過了長時間研究,他們創(chuàng)建了自己的中文分詞算法。不過,在測試的過程發(fā)現(xiàn)了一個問題,這就是一些很難識別的詞可能識別很準(zhǔn)確,但容易識別的詞卻識別不對。于是,他們又引入了詞典,并創(chuàng)建了一個動態(tài)分析的算法,叫無縫分析。這時他們的中文分詞準(zhǔn)確率一下就提升到了滿意的效果。有了這些突破,郝璽龍和其他兩位創(chuàng)始人在1999年10月份注冊了海量科技公司,主要以研究中文分詞技術(shù)并實現(xiàn)應(yīng)用化為主。分詞也是工程問題郝璽龍表示,他們是以技術(shù)為核心的公司,核心團隊盡管都不是專業(yè)出身,沒有在學(xué)校進行過這方面的研究,但這也讓它們擺脫了以前各種思想的束縛。難理解的是,做中文分詞卻要擺脫“詞”的束縛。郝璽龍表示,因為在漢語中“詞”并沒有一個準(zhǔn)確的定義,有時候很難說這是不是一個詞。其實分詞是一種底層技術(shù),其目的不是只為分詞,而是為了如何更好應(yīng)用。如果思想只限制在“詞”這個層次,那一定會被“什么是詞”這個無法得到答案的問題所束縛和迷惑。舉個例子:雞蛋、鴨蛋、照明、照亮這些詞語,用戶和專家的看法就不一樣。在海量內(nèi)部的理論研究小組,早就不叫分詞,他們用更嚴(yán)格的叫法:切分單位的描述與識別。至于什么被定為單位就由應(yīng)用來確定。就像笑傲江湖中令狐沖“無招勝有招”一樣,當(dāng)我們還在沉迷于“招式”奇妙的時候,又如何能夠體會到武學(xué)的真諦呢!擺脫了學(xué)術(shù)上的束縛,思想便得到了解放。海量科技在切分單位處理問題上提出了獨特的看法:在不同應(yīng)用中應(yīng)該有不同的分詞標(biāo)準(zhǔn)。首先,各種應(yīng)用對分詞要求的顆粒度(切分單位的細(xì)致程度)是不同的。比如自動分類、關(guān)鍵詞抽取比搜索需要的分詞顆粒度要大,因為這樣表示文本語義特征時效果會更好,而檢索有一個查全率的要求,就需要把分詞單位做的更為細(xì)致,不然就會造成漏查。到現(xiàn)在為止,海量已經(jīng)做了五種類型的分詞標(biāo)準(zhǔn),分別是:檢索、自動分類、聚類、自動摘要和關(guān)鍵詞抽取。新詞的識別也是海量科技取得的重要突破。外來語音譯詞的識別一直是中文分詞技術(shù)的難關(guān),比如“摩托羅拉”這樣的詞匯,詞典中根本沒有,也不會收錄,但如果分成“摩托”和“羅拉”,在應(yīng)用中就會出現(xiàn)很多麻煩。而這種詞匯在漢語中大量存在,而且每天都在出現(xiàn)。海量科技開發(fā)了一套人機互動的半人工學(xué)習(xí)體系來解決新詞識別的問題。這套體系可以學(xué)習(xí),可以由人告訴計算機哪些分詞可能是錯誤,并人為修正這種錯誤。系統(tǒng)再進行學(xué)習(xí)之后,會自動完善算法,分詞的準(zhǔn)確率就會不斷提升。這也符合現(xiàn)代人工智能系統(tǒng)理論,就是用半自動代替全自動,通過自上而下的灌輸,不斷的學(xué)習(xí),依靠人的智慧來提升系統(tǒng)的智能程度。不過,以上都是單點的突破。分詞不是一個算法所能描述的,它涉及了多個難點,比如交叉、組合歧義的分析、新詞的識別、還有復(fù)合詞的分析與識別,而這些識別之間又相互影響和干擾。在近三十年的分詞研究中,很多高校的學(xué)者往往關(guān)注某一個難點的算法,例如交叉歧義,姓名識別等等,所以分詞總體的準(zhǔn)確率很難達到理想的效果。隨著海量科技對中文分詞技術(shù)的深入研究,借助自身的某些單點算法突破和前人優(yōu)秀的算法思想,郝璽龍和他的研究團隊提出了中文分詞技術(shù)的“復(fù)方概念”。復(fù)方是中藥的術(shù)語,因為有些病很復(fù)雜,很多處方之間最后需要調(diào)理達到一個平衡。根據(jù)復(fù)方理論,把各種算法不拘泥于是統(tǒng)計算法還是基于規(guī)則,最后在一個評測層面上進行平衡,使之達到最好的分詞效果,現(xiàn)在海量已經(jīng)把分詞中的部分技術(shù)注冊了專利。當(dāng)郝璽龍總結(jié)海量分詞的技術(shù)特點時,他說:“海量中文分詞技術(shù)的核心特點是復(fù)方概念的應(yīng)用,以及系統(tǒng)的半人工學(xué)習(xí)架構(gòu)。該架構(gòu)的設(shè)立使海量的分詞準(zhǔn)確率每天都在進步。因此中文分詞不僅僅是個技術(shù)問題,也應(yīng)該是一個工程問題?!敝形姆衷~技術(shù)研究經(jīng)驗做了這么多年中文分詞和相關(guān)技術(shù)研究和開發(fā),郝璽龍總結(jié)了一些經(jīng)驗。好的評測帶來滿意研究成果。不管進行那一項研究,都首先需要建立一個能夠量化的評測體系。郝璽龍認(rèn)為,如果沒有三年時間建立的分詞量化的評測體系,不可能有今天海量的成就。因為評測體系可以使任何的算法改進得到直觀體現(xiàn)。同時,評測也是衡量研究人員工作成果的標(biāo)準(zhǔn)。建立一個評測體系,一點不比研究本身簡單。首先要定準(zhǔn)確率標(biāo)準(zhǔn)、語料的標(biāo)準(zhǔn)、不同的應(yīng)用、分詞的不同詞典、不同復(fù)合詞構(gòu)造標(biāo)準(zhǔn)和不同的語料。在標(biāo)準(zhǔn)的建立過程中,海量科技投入了巨大的人力物力。不管是基礎(chǔ)技術(shù)還是應(yīng)用技術(shù),中文智能計算的任何一個問題都是復(fù)雜問題,因此要專注。郝璽龍非常驕傲的是,他們的研究核心團隊從創(chuàng)建之初到現(xiàn)在,沒有人員流失。他說:“做這種事情會經(jīng)歷幾個階段,開始有一個突破,但會有一個停滯期,可能會徘徊很多年。這中間有誘惑,也有苦難。有人選擇轉(zhuǎn)變,有人選擇放棄,而我們選擇了專注和艱苦。公司的核心智能計算研究中心始終做基礎(chǔ)研究,不承擔(dān)任何項目的壓力,從來不和客戶打交道,考核他們就是看創(chuàng)新的成果和評測的指標(biāo)。對于一個四十多人的小公司,有近十個人做基礎(chǔ)性的研究工作,這不是普通公司所能做到的。”第三點就是細(xì)致,細(xì)致是研究員必須的素質(zhì)。郝璽龍說:“做基礎(chǔ)研究工作需要像繡花般細(xì)致的工作。我們把幾十萬個中文詞,反復(fù)整理,人工加注各種屬性,嘗試進行各種分類,這是細(xì)致而智力水平又很高的體力勞動,沒有繡花的精神很難做到?!?未來公司技術(shù)的發(fā)展郝璽龍認(rèn)為,在分詞技術(shù)取得突破的基礎(chǔ)上,基于語義的智能計算技術(shù)將會有革命性的發(fā)展。同時應(yīng)用技術(shù)的發(fā)展也必將推動分詞的深入研究。下一個階段的分詞研究不是難點和特例的研究,而是分成什么樣的形態(tài)和屬性才能更好的滿足不同的實際應(yīng)用。郝璽龍和他的同事們一直有個理想,這就是在未來幾十年中,所有進行中文信息處理的計算機的底層系統(tǒng)上都運行著中文分詞程序,在語義層面進行中文處理,讓中文處理更智能、更高效。郝璽龍說:“語言、文字是一個國家、民族文化的載體,世界上很多曾經(jīng)興盛一時的民族,因為語言文字的失傳而從世界文化之林中消失。如果國外的某個公司在這方面注冊了專利,中國人每進行一次中文處理,還需要向別人付專利費,這是一件非??尚筒荒芙邮艿氖虑?。到那時,我們就會受制于他人,中文處理水平會落后于其他語言。我們一定要讓最好的中文分詞技術(shù)掌握在中國人自己的手中,讓中文信息處理與世界同步?!本C述:自從中國有了第一臺計算機,中文技術(shù)就成為了關(guān)注的焦點。從最初的漢卡到后來的CCDOS,從五筆字型的發(fā)明到各種各樣的中文輸入法,從四通打字機到WPS,都在力圖幫助中國人更好的使用計算機,進行中文信息處理。而當(dāng)時的這些技術(shù)也催生了中國第一代的軟件英雄。然而,隨著微軟推出中文操作系統(tǒng),很多中文技術(shù)被無情的吞沒了,人去樓空。中文化技術(shù)還有沒有市場,還有沒有必要做中文化技術(shù),哪些領(lǐng)域是我們可以做的?海量科技的例子給了我們很好的啟示。應(yīng)該說,.之前中文化技術(shù)還是在I/O層面上,比如中文輸入、輸出等輔助性技術(shù),這種技術(shù)壁壘不高,容易被操作系統(tǒng)所集成而失去市場。在這種情況下,中文化技術(shù)的發(fā)展開始逐漸向系統(tǒng)更高層面,和中文本身更深層次的研究發(fā)展了。中文的特點就是具有“音”、“形”、“義”,這些本質(zhì)內(nèi)容決定了中文與英文的差別所在,海量科技所研究的技術(shù)主要集中在了“義”這個范疇上并取得了成績,漢王或者紫光這樣的公司研究手寫輸入或者OCR技術(shù)是在“形”上做了很好的文章,而諸如科大訊飛這樣做中文語音合成的公司更多的技

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論