中國古代史研究數(shù)字化文獻(xiàn)資源與利用.doc_第1頁
中國古代史研究數(shù)字化文獻(xiàn)資源與利用.doc_第2頁
中國古代史研究數(shù)字化文獻(xiàn)資源與利用.doc_第3頁
中國古代史研究數(shù)字化文獻(xiàn)資源與利用.doc_第4頁
中國古代史研究數(shù)字化文獻(xiàn)資源與利用.doc_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中國古代史研究數(shù)字化文獻(xiàn)資源與利用中國古代史研究數(shù)字化文獻(xiàn)資源與利用 【作 者】袁林查閱文獻(xiàn)、摘抄卡片、添加批注、排比整理,是歷史學(xué)者搜集、處理所需原始資料的常用方式。學(xué)者的首要任務(wù)是進(jìn)行創(chuàng)造性思維,但資料工作花費(fèi)了他們一半以上的時(shí)間與精力,大大縮短了其學(xué)術(shù)生命,這是史學(xué)研究中的最大浪費(fèi)。隨著社會(huì)信息化進(jìn)程的加快,中文古典文獻(xiàn)數(shù)字化程度迅速提高,給歷史研究提供了全新的手段與工具,對(duì)幾千萬字文獻(xiàn)的查詢和摘抄可在數(shù)秒之內(nèi)完成,非常有利于改變現(xiàn)狀。本文試圖對(duì)中國古代史研究數(shù)字化工作作一些介紹。一、已建成和正在建設(shè)的中文古籍全文數(shù)據(jù)庫近十?dāng)?shù)年來,海內(nèi)外有關(guān)機(jī)構(gòu)和人士紛紛著手中文電子古籍全文數(shù)據(jù)庫的建設(shè),其中比較大的有如下一些。(一)漢籍電子文獻(xiàn)。臺(tái)灣中研院建設(shè)。最早稱史籍自動(dòng)化計(jì)劃,曾改稱漢籍全文資料庫。該庫可在國際互聯(lián)網(wǎng)上使用(注:網(wǎng)址為:.tw/ftms-bin/ftmsw3。)。該庫所收文獻(xiàn)依該院人員研究需要而選定。目前已建成并公開投入使用的古籍約12,000余萬字,主要有:二十五史、 十三經(jīng)(3種(注:為十三經(jīng)注疏、斷句十三經(jīng)經(jīng)文、點(diǎn)校四書章句集注。)、諸子(43種(注:為抱樸子、莊子集釋、法言義疏、東觀漢記、墨子城守各篇簡(jiǎn)注、潛夫論箋、國語、莊子集解、莊子集解內(nèi)篇補(bǔ)正、古本竹書紀(jì)年輯校、墨子間詁、列子集釋、晏子春秋集釋、管子輕重篇新詮、點(diǎn)校四書章句集注、新語校注、戰(zhàn)國策、八家后漢書、老子校釋、莊子、老子、墨子、荀子、韓非子、呂氏春秋、商君書、管子、晏子春秋、孫子、吳子、尉繚子、六韜、司馬法、公孫龍子、燕丹子、新書、新語、春秋繁露、淮南子、新序、說苑、列女傳、鹽鐵論。)、古籍十八種(注:為唐令拾遺、新校搜神記、齊民要術(shù)校釋、世說新語箋疏、典論、申鑒、中論、漢官六種、洛陽伽藍(lán)記校注、九家舊晉書輯本、顏氏家訓(xùn)集解、荊楚歲時(shí)記、唐律疏議、山海經(jīng)校注、通典、風(fēng)俗通義校注、唐會(huì)要、后漢經(jīng)校注。)、古籍三十四種(注:為鄧析子、關(guān)尹子、太平經(jīng)合校、鬼谷子、尹文子、慎子、孔子家語、鹖冠子、通玄真經(jīng)、孔叢子、藝文類聚、論衡校釋、金匱要略、難經(jīng)本義新解、傷寒論、黃帝內(nèi)經(jīng)、前漢紀(jì)、漢魏南北朝墓、九章算經(jīng)點(diǎn)校、周髀算經(jīng)、越絕書、釋名、方言校箋、穆天子傳、西京雜記、吳越春秋、逸周書、文獻(xiàn)通考、朱子語類、楚辭補(bǔ)注、敦煌變文集新書、文選、華陽國志校補(bǔ)圖注、古小說鉤沈。)、大正新修大藏經(jīng)(收入22卷(注:為第14、817、2225、28、49、50、 52卷,其中有些卷只收入了部分內(nèi)容。)、臺(tái)灣方志、檔案、文獻(xiàn)(132 種(注:為小琉球漫志、中復(fù)堂選集、平臺(tái)紀(jì)略、巡臺(tái)退思錄等。)、文心雕龍(3種(注:為文心雕龍義、文心雕龍考異、文心雕龍法。)、清代經(jīng)世文編、姚際恒著作集、新清史本紀(jì)、樂府詩集、閩南語俗曲唱本歌仔冊(cè)。又從上述數(shù)據(jù)庫抽出部分內(nèi)容,建成上古漢語語料庫(3,200余萬字)、 人文資料師生版(約4,700萬字)。 此外還建成簡(jiǎn)帛金石資料庫(注:網(wǎng)址為:.tw/ wenwu/bib.htm #2。收入各種資料的全文41種、書目3種。其主要有中山懷王墓文子校文、包山二號(hào)楚墓、曾候乙墓、云夢(mèng)龍6 號(hào)秦簡(jiǎn)釋文、天水放馬灘秦簡(jiǎn)甲種日書釋文、睡虎地秦墓竹簡(jiǎn)、居延新簡(jiǎn)、居延漢簡(jiǎn)甲乙編、居延漢簡(jiǎn)釋文合校、疏勒河流域出土漢簡(jiǎn)、敦煌漢簡(jiǎn)、敦煌漢簡(jiǎn)釋文、散見簡(jiǎn)牘合輯、漢簡(jiǎn)奏讞書釋文、秦漢金文錄、馬王堆帛書及銀崔山漢墓竹簡(jiǎn)孫子兵法等、馬王堆五十二病方等、武威漢代醫(yī)簡(jiǎn)、張家山漢簡(jiǎn)引書釋文、脈書、兩漢鏡銘集錄、中國古代磚文、墓券、漢代石刻集成、秦漢南北朝官印徵存、漢印文字徵及補(bǔ)遺、漢碑集釋、江蘇東??h尹灣漢墓簡(jiǎn)牘釋文選、臺(tái)灣圖書館藏居延漢簡(jiǎn)、 羅布淖爾漢簡(jiǎn)釋文、漢簡(jiǎn)書目(1995.12)、石刻題跋索引(漢隋)、新出石刻資料目錄。)。以上內(nèi)容除諸子、古籍十八種、古籍三十四種、大正新修大藏經(jīng)外,均已免費(fèi)向社會(huì)開放。除上述已公開投入使用者外,目前已完成輸入,正在校對(duì)建成或已在內(nèi)部投入使用者共2億余字,為便于介紹, 人為粗略劃分如下:歷史類文獻(xiàn)45種(注:為世本八種、全上古三代秦漢三國六朝文、全唐文、太平御覽、資治通鑒、續(xù)資治通鑒長(zhǎng)編、續(xù)資治通鑒、建炎以來系年要錄、三朝北盟會(huì)編、宋人軼事匯編、宋稗類鈔、夢(mèng)溪筆談、揮麈錄、能改齋漫錄、宋朝事實(shí)類苑、宋大詔令集、建炎以來朝野雜記、契丹國志、大金國志校證、大元圣政國朝典章、元代法律資料輯存、吏學(xué)指南、廟學(xué)典禮、秘書監(jiān)志、通制條格、元代白話碑集錄、明實(shí)錄(含附錄、??庇洠?、續(xù)文獻(xiàn)通考、清朝文獻(xiàn)通考、清朝續(xù)文獻(xiàn)通考、清實(shí)錄、清會(huì)典事例、亭林文集、日知錄、朱子語類、宋論、讀通鑒論、白虎通疏證、讀四書大全說、祖堂集、熹廟諒陰記事、劉宗周全集、泉翁大全集。),歷代史料筆記116種(注:為中華書局新版歷代史料筆記叢刊全套。), 臺(tái)灣歷史文獻(xiàn)137種(注:為平臺(tái)紀(jì)事本末、臺(tái)灣鄭氏紀(jì)事、 赤嵌集等。),醫(yī)藥類文獻(xiàn)27種(注:為肘后備急方、外臺(tái)秘要、醫(yī)心方、巢氏諸病源候總論、太平圣惠方、普濟(jì)方、醫(yī)方類聚、名醫(yī)別錄、東垣醫(yī)集、丹溪醫(yī)集、赤水玄珠全集、遵生八箋、名醫(yī)類案、續(xù)名醫(yī)類案、脈經(jīng)、甲乙經(jīng)、太平惠民和劑局方、子和醫(yī)集、瘟疫論、神農(nóng)本草經(jīng)、千金翼方、婦人大全良方、諸源候論校注、衛(wèi)生家寶產(chǎn)科備要、千金要方、洗冤集錄校譯、本草綱目。),文學(xué)類文獻(xiàn)37種(注:為先秦漢魏南北朝詩、水滸全傳、繡像金瓶梅詞話、西游記、紅樓夢(mèng)校注、兒女英雄傳、儒林外史、蒲松齡集、四庫輯本別集拾遺、二刻拍案驚奇、三遂平妖傳、初刻拍案驚奇、歧路燈、喻世明言、醒世恒言、警世通言、大唐三藏取經(jīng)詩話、入唐求法巡禮行記、五代史平話、元刊雜劇三十種、王梵志詩、永樂大典戲文三種、樸通事諺解、老乞大諺解、型世言、桃花扇、訓(xùn)世評(píng)話、敦煌變文集新書、游仙窟、新刊大宋宣和遺事、醒世姻緣、鏡花緣、關(guān)漢卿戲曲集、世說新語、四存編、亭林詩集、藝文類聚。),宗教經(jīng)典20種(注:為長(zhǎng)阿含經(jīng)、增一阿含經(jīng)、五分律、摩訶僧只律、五燈會(huì)元、六祖壇經(jīng)、神會(huì)語錄、無上秘要、三洞珠囊、上清道類事相、真誥、云笈七簽、道樞、道教義樞、正統(tǒng)道藏第1、3、5 、43、56、57冊(cè)。)。其中歷代史料筆記、明實(shí)錄、清實(shí)錄等大型文獻(xiàn)全文數(shù)據(jù)庫建設(shè)對(duì)中國古代史研究尤為重要。目前,該古籍?dāng)?shù)據(jù)庫仍以每年輸入約5,000萬字的速度繼續(xù)發(fā)展。 該系統(tǒng)使用BIG5 碼編碼字集,已編碼漢字13,051個(gè),可造字碼位5,809個(gè),已造4,555字。因有造字,故要更好使用,必須下載造字庫文件。 鑒于可造字碼位非常有限,而古籍用字?jǐn)?shù)量龐大,該庫今后采用構(gòu)字式解決缺字問題。他們用3個(gè)組字符號(hào)#p#分頁標(biāo)題#e#分別表示橫連、直連、包含, 另用8個(gè)方便符號(hào)分別表示相同漢字部件如符合所示位置的排列。例如 :澀可用表示等等(注:參見謝清俊電子古籍中的缺字問題,第一屆中國文字學(xué)會(huì)學(xué)術(shù)研討會(huì)(天津),1996年;莊德明:漢字印刷字形的整理,電子古籍中的文字問題研討會(huì)(臺(tái)北),1999年。)。該古籍?dāng)?shù)據(jù)庫采用瀚典全文檢索系統(tǒng),可選擇庫中全部或部分文獻(xiàn)進(jìn)行檢索,檢索條件可由一個(gè)或多個(gè)檢索詞組成,其間關(guān)系以邏輯運(yùn)算符號(hào)和括弧予以確定。邏輯運(yùn)算符號(hào)包含或(or)運(yùn)算符,且(and)運(yùn)算符,且非(and not)運(yùn)算符!。與!優(yōu)先順序相同,次之,括號(hào)()則可以調(diào)整優(yōu)先順序。運(yùn)算符號(hào)與檢索詞之間必須插入空格。另外,檢索詞前后可附加排除字集,以括號(hào)為標(biāo)志,以下為兩個(gè)檢索條件實(shí)例。有學(xué)者為研究漢代賑災(zāi)政策,提出如下檢索條件:減免減免除)(租田租口賦),這樣,凡是段落內(nèi)出現(xiàn)減、免、減免、除四者之一與租、田租、口賦三者之一,即被檢索出來。有學(xué)者試圖搜集與氣象有關(guān)之風(fēng)的資料,提出了如下檢索條件:國扶遺鄉(xiāng)承歌八移風(fēng)伯后師土俗教刺諫喻,檢索中風(fēng)前后若發(fā)現(xiàn)中的任一字,便被排除,如國風(fēng)、扶風(fēng)、風(fēng)伯等無關(guān)詞匯便不會(huì)出現(xiàn)。檢索結(jié)構(gòu)可以三種方式顯示。檢索條列,顯示被檢到的文獻(xiàn)篇目及頁碼。檢索報(bào)表,連續(xù)顯示被檢到的全部段落。全段顯示,分段顯示被檢到的全部段落。以上顯示結(jié)果均可打印輸出。如果選定文本塊并予復(fù)制,則可粘貼于Word或記事本、寫字板文件之中,形成電腦文本文件。(二)、二十五史。陜西師范大學(xué)歷史系、古籍整理研究所袁林等人建設(shè),收入二十五史紀(jì)、志、表、傳等全部?jī)?nèi)容,共約4, 000萬字。已于1999年11月正式向社會(huì)推出(注:該軟件演示版可在中國歷史資訊網(wǎng)()和陜西師范大學(xué)(/ftp)自由下載試用,正式版可與陜西師范大學(xué)歷史系聯(lián)系。)。該系統(tǒng)漢字采用GBK國家標(biāo)準(zhǔn),共20,902個(gè)漢字。 為適應(yīng)大陸學(xué)界目前使用電腦現(xiàn)狀,盡量使用簡(jiǎn)體字。缺字用拼字方法解決。使用該系統(tǒng),可選擇二十五史全部或部分書籍,對(duì)正文和注釋中任意字或字串進(jìn)行檢索,同時(shí)統(tǒng)計(jì)命中文獻(xiàn)數(shù)與檢索對(duì)象出現(xiàn)總數(shù)。檢索條件可按如下邏輯運(yùn)算聯(lián)結(jié):或運(yùn)算(+)、與運(yùn)算()、非運(yùn)算()、同段運(yùn)算()、同句運(yùn)算()、 靠近運(yùn)算(n,即在檢索者要求的n個(gè)字符間隔內(nèi)兩個(gè)字串同時(shí)存在),或、與、 非運(yùn)算均以卷為單位??蓪?duì)以前的檢索結(jié)果進(jìn)行再檢索,系統(tǒng)可保留選定的此前若干步檢索條件。檢索完成后可選擇標(biāo)題、全卷、段落等方式查看。檢索結(jié)果可以純文本文件輸出,也可打印輸出。亦可用鼠標(biāo)點(diǎn)開某書某卷的方式進(jìn)行瀏覽。全文數(shù)據(jù)庫保留原文正文大字和注釋小字區(qū)別、保留原有表格。瀏覽時(shí)可將有關(guān)內(nèi)容剪貼到自己的論文或書稿中。該系統(tǒng)在設(shè)計(jì)伊始,就考慮到史學(xué)研究的多種需要。目前它可管理和檢索各種歷史資料,包括文本、圖形、影像和聲音,除一般歷史文獻(xiàn)外,也適合于各種文物及其他資料,如簡(jiǎn)牘、青銅器、甲骨圖形與文字等等??紤]到古籍中漢字?jǐn)?shù)量龐大,該系統(tǒng)將設(shè)計(jì)基礎(chǔ)置于將來的全漢字平臺(tái)之上,目前已可實(shí)現(xiàn)在9.5萬漢字字集條件下的顯示、 打印等功能。另外,陜西師范大學(xué)歷史系、古籍整理研究所最近將有更大規(guī)模的中文古籍全文檢索系統(tǒng)推向社會(huì)。(三)文淵閣四庫全書。由香港迪志文化出版公司投資,該公司與上海人民出版社合作出版,香港迪威多媒體公司與北京書同文電腦公司主持技術(shù)開發(fā)和工程實(shí)施。目前已基本完成,2000年中推向市場(chǎng)。該電子古籍收入文淵閣四庫全書,分兩個(gè)版本。一是原文及標(biāo)題檢索版,共168張光盤,可檢索書名、卷名、卷內(nèi)標(biāo)題、作者, 可顯示及打印輸出原書頁圖像。一是原文及全文檢索版,將原書約7. 5億字轉(zhuǎn)變?yōu)殡娔X編碼文字并實(shí)現(xiàn)全文檢索,與原文圖像相結(jié)合,大約共有175張光盤。其全文檢索版可檢索正文或注釋中的任意字串, 亦可限定檢索范圍(如按四庫分類、書名條件、著者條件等)。檢索結(jié)果可按需要進(jìn)行打印輸出或文本文件輸出。全文版部分內(nèi)容已可在互聯(lián)網(wǎng)上檢索試用(注:網(wǎng)址為:/。)。該電子古籍目前雖未完成,但其全文檢索版有一些值得注意的技術(shù)進(jìn)步。一是在字集使用上。初期文本輸入以GBK為基礎(chǔ), 但最終字集采用UCS與Unicode之CJK、CJK_A及其可造字空間(詳見第二節(jié)), 共有34,378個(gè)漢字碼位可用,目前來看,這是最全面采用漢字編碼國際標(biāo)準(zhǔn)的系統(tǒng)。一是檢索中漢字關(guān)聯(lián)技術(shù)的采用。即檢索一字時(shí)同時(shí)檢索相關(guān)異體字(廣義概念,含異體、繁簡(jiǎn)、通假、古今等等)和形近異義字(如已己巳、刺剌等等),例如檢索商鞅變法一詞,同時(shí)檢索商商、鞅、 変變、法灋等各字的組合,共18組;檢索自己一詞,同時(shí)檢索自己、自巳。這樣,原文中的異體字,因采用OCR 技術(shù)而必然產(chǎn)生的辨識(shí)錯(cuò)誤,都不致于干擾檢索,使漏檢的可能性大大降低。(四)先秦兩漢一切傳世文獻(xiàn)電腦化資料庫、魏晉南北朝一切傳世文獻(xiàn)電腦化資料庫、竹簡(jiǎn)帛書出土文獻(xiàn)電腦資料庫(注:網(wǎng)址為:/scripts/main.asp。)。 香港中文大學(xué)中國文化研究所建立。其中先秦兩漢資料庫共收入103種文獻(xiàn), 約900萬字,至1991年已全部輸入電腦, 目前以光盤形式出版或近一兩年內(nèi)將出版者有90種(注:為戰(zhàn)國策、禮記、商君書、新序、韓詩外傳、大戴禮記、孔子家語、說苑、淮南子、文子、孫子、尉繚子、吳子、司馬法、逸周書、周禮、古列女傳、晏子春秋、吳越春秋、越絕書、漢官六種、東觀漢記、尚書大傳、春秋繁露、山海經(jīng)、穆天子傳、燕丹子、呂氏春秋、儀禮、賈誼新書、鹽鐵論、周易、尚書、毛詩、春秋左傳、春秋公羊傳、春秋谷梁傳、論語、孟子、爾雅、孝經(jīng)、潛夫論、申鑒、中論、新語、法言、太玄經(jīng)、京氏易傳、焦氏易林、白虎通、論衡、風(fēng)俗通義、老子、列子、荀子、六韜、鬻子、鹖冠子、文始真經(jīng)、鬼谷子、申培詩說、世本四種、古三墳、竹書紀(jì)年、尹文子、孔叢子、公孫龍子、鄧析子、蔡中郎集、忠經(jīng)、國語、管子、太平經(jīng)、韓非子、慎子、申子、尸子、前漢紀(jì)、墨子、莊子、楚辭、難經(jīng)、金匱要略、傷寒論、周髀算經(jīng)、九章算術(shù)、說文解字、釋名、急就篇、方言。)。魏晉南北朝資料庫共收入近千種文獻(xiàn),約2,400萬字,至1995年已全部輸入電腦, 目前上網(wǎng)文獻(xiàn)有45種(注:為宋書、后漢書(附續(xù)漢志)、三國志(附校記)、南齊書、魏書、魏晉南北朝子部釋家類文獻(xiàn)38種、文心雕龍、曹植集。)。竹簡(jiǎn)帛書資料庫收入竹簡(jiǎn)帛書12種, 共約140萬字,已全部輸入電腦,目前以光盤形式出版者有9 種(注:為馬王堆漢墓帛書(一)、馬王堆漢墓帛書(三)、馬王堆漢墓帛書(四)、武威漢簡(jiǎn)、睡虎地秦墓竹簡(jiǎn)、銀雀山漢墓竹簡(jiǎn)(一)、居延漢簡(jiǎn)釋文合校、武威漢代醫(yī)簡(jiǎn)、散見簡(jiǎn)牘合輯。)。字集使用BIG5碼,缺字用造字方式解決。均可全文檢索。#p#分頁標(biāo)題#e#(五)續(xù)資治通鑒長(zhǎng)編。河北大學(xué)電子與信息工程系、宋史研究所合作研制。收入續(xù)資治通鑒長(zhǎng)編全文共720萬字, 漢字標(biāo)準(zhǔn)采用GB13000標(biāo)準(zhǔn),缺字使用造字方式解決,可以全文檢索。(六)大正新修大藏經(jīng)。目前有兩個(gè)機(jī)構(gòu)正在進(jìn)行全面建設(shè)。一是臺(tái)灣地區(qū)中華電子佛典協(xié)會(huì),已完成第117、2232冊(cè)。 以光盤和網(wǎng)絡(luò)兩種形式發(fā)行,可全篇自由下載(注:網(wǎng)址為: .tw/cbeta/cbeta.htm。)。可以字或字串檢索并輸出。使用字集為BIG5碼,缺字以組字方式解決,方法與漢籍電子文獻(xiàn)類似(注:其組字符號(hào)含義為:*,橫向連接;, 縱向連接;,包含;,去掉某部分;+,去掉某部分而以另一部分代替;?,尚未找到合適表示者;(、),運(yùn)算分隔符;、,組字前后分隔符。)。一是日本大藏經(jīng)原典資料庫研究會(huì),目前已完成20 余部佛經(jīng), 亦可全篇自由下載(注:其BIG5碼網(wǎng)址為:http:/www.l.u-tokyo.ac.jp/sat/big-5/down.html, Shift- JIS 碼網(wǎng)址為: http: /www. l. u- tokyo. ac.jp/ sat/japan/down.html。)。有兩個(gè)版本,使用字集分別為Shift-JIS碼和BIG5碼,缺字使用文字鏡字庫(詳見第二節(jié))。兩佛典機(jī)構(gòu)間有一定合作關(guān)系。計(jì)劃先完成前85冊(cè),然后再完成第86100 冊(cè)之圖像部、目錄部資料庫。(七)網(wǎng)路展書讀。臺(tái)灣地區(qū)元智大學(xué)羅鳳珠等人所建,可在國際互聯(lián)網(wǎng)上自由使用(注:網(wǎng)址為:.tw/。)。包含詩經(jīng)、全唐詩、宋詩、唐宋詞、紅樓夢(mèng)等??扇臋z索,檢索條件可以或(or)、與(and)、 非(not)等邏輯運(yùn)算相聯(lián)結(jié)。使用字集為BIG5碼, 缺字用組字等方式解決。(八)全唐詩電子檢索系統(tǒng)。北京大學(xué)中文系李鐸主持開發(fā),可在國際互聯(lián)網(wǎng)上使用(注:網(wǎng)址為:http: //ang/。)。該系統(tǒng)可檢索唐詩原文,亦可按作者、體裁進(jìn)行瀏覽。使用字集為GBK碼,原文采用繁體字形。(九)其他。除上述中文古籍全文數(shù)據(jù)庫外,還有一些系統(tǒng)值得注意。1.甲骨文全文檢索及全文影像系統(tǒng),臺(tái)灣成功大學(xué)圖書館所建,但網(wǎng)上檢索系統(tǒng)目前尚未完成(注:網(wǎng)址為:http:/www. lib. .tw/cgi-bin/ttsweb。)。2.數(shù)位化金文資料庫,臺(tái)灣中研院史語所鐘伯生等人所建,目前正在建設(shè)之中(注:鐘伯生、季旭昇、黃銘崇數(shù)位化金文資料庫及其所遇到的文字問題,電子古籍中的文字問題研討會(huì)(臺(tái)北)論文,1999年。)。3.四庫全書原文查閱系統(tǒng),由山東濟(jì)南開發(fā)區(qū)匯文科技開發(fā)中心建設(shè),武漢大學(xué)出版社出版,共150張光盤。可按書名、 作者進(jìn)行檢索,查閱文淵閣四庫全書原文圖象,不能檢索內(nèi)容,可打印輸出。目前在國際互聯(lián)網(wǎng)上亦有主頁(注:網(wǎng)址為:/skqs/skbig5.html。)。二、相關(guān)可利用資料與工具利用上述中文古籍全文數(shù)據(jù)庫,必須使用一些工具,此外還有一些相關(guān)資源可以利用,下面予以介紹。(一)關(guān)于跨語境使用漢字?jǐn)?shù)據(jù)。目前漢字交換碼不統(tǒng)一,使用較多的有簡(jiǎn)體中文(GB碼及擴(kuò)展的GBK碼)、繁體中文(BIG5碼)、 日文漢字(Shift-JIS碼、EUC碼)、韓文漢字(KSC碼), 這種狀況給瀏覽、檢索和使用有關(guān)數(shù)據(jù)造成了很大麻煩。以前都要加裝輔助漢字系統(tǒng),如四通利方(Richwin)、南極星(NJwin)、 漢字通(Kanjiweb)等,通過代碼頁轉(zhuǎn)換來解決,但由于其簡(jiǎn)體中文大多以GB碼為基礎(chǔ),因此瀏覽時(shí)總會(huì)出現(xiàn)缺字,而且,利用有關(guān)數(shù)據(jù)時(shí)必須另用專門軟件把繁體字轉(zhuǎn)變?yōu)楹?jiǎn)體字,十分不便。微軟公司近年在軟件開發(fā)中采用了Single Data策略, 即系統(tǒng)以國際標(biāo)準(zhǔn)UCS(注:ISO/IEC 10646.1信息技術(shù):UCS 通用多八位編碼字符集體系結(jié)構(gòu)與基本多文種平面,1993年。 )、 工業(yè)標(biāo)準(zhǔn)Unicode為基礎(chǔ),保持基本程序不變,在此基礎(chǔ)上開發(fā)各種語言環(huán)境, 也即所謂多平臺(tái)、跨語境技術(shù),這一技術(shù)為我們使用基于多種交換碼的數(shù)字化中文古籍提供了很大方便。以Internet Explorer 4. 0以上各簡(jiǎn)體中文版來說,只要補(bǔ)充安裝繁體中文、日文、韓文等多種語文支持工具,即可瀏覽和利用以GB、GBK、BIG5、Shift-JIS、ECU、KSC等交換碼為基礎(chǔ)的漢字?jǐn)?shù)據(jù)。 Windows 95 以上版本和InternetExplorer 4.0以上版本的簡(jiǎn)體中文版,均采用GBK漢字交換碼,而GBK完全兼容于國際標(biāo)準(zhǔn)UCS之CJK和工業(yè)標(biāo)準(zhǔn)Unicode2.0,另增收漢字(含偏旁)101個(gè)、圖形符號(hào)232個(gè)。GB、BIG5、Shift-JIS、KSC等交換碼都只是CJK和Unicode2.0編碼字集的子集, 因此以這些交換碼為基礎(chǔ)的數(shù)據(jù)都可以不經(jīng)過轉(zhuǎn)換而在GBK基礎(chǔ)上加以利用。瀏覽時(shí), 可通過選擇編碼(或語言)中的簡(jiǎn)體中文、繁體中文、日文、朝鮮文,即可瀏覽相關(guān)文件,這不僅適應(yīng)于超文本(HTML)文件,也適應(yīng)于其他文件。需輸入漢字時(shí),只要確定語言種類后直接輸入即可,當(dāng)然,繁體字不能用簡(jiǎn)體字取代。需使用有關(guān)漢字信息時(shí),只需選定內(nèi)容,復(fù)制于剪貼板,然后再粘貼于Word或記事本、寫字板文件之中,即形成以GBK碼為基礎(chǔ)的漢字文件,且繁簡(jiǎn)字形不改變。(二)關(guān)于多種內(nèi)碼及繁簡(jiǎn)字漢字文件的轉(zhuǎn)換。以前通常使用四通利方等專門軟件來進(jìn)行多種內(nèi)碼漢字文件的轉(zhuǎn)換,其缺陷與瀏覽時(shí)相同,會(huì)出現(xiàn)缺字,繁體字被轉(zhuǎn)變?yōu)楹?jiǎn)體字。使用InternetExplorer4.0以上簡(jiǎn)體中文版時(shí),則可以更方便地進(jìn)行轉(zhuǎn)換。各種非GBK漢字文件,只要可以在瀏覽器或電子郵件中打開,且選擇適當(dāng)語言使用正確顯示,通過選塊復(fù)制再粘貼于Word或記事本、寫字板文件之中,便被轉(zhuǎn)換為GBK漢字文件,且繁簡(jiǎn)字形與原形統(tǒng)一。#p#分頁標(biāo)題#e#由于GBK中大約有近4,000字以繁簡(jiǎn)兩種字形出現(xiàn),BIG5、Shift JIS、KSC碼漢字文件轉(zhuǎn)換為GBK碼文件時(shí),許多字仍以繁體出現(xiàn), 有時(shí)使用不便。另外,有時(shí)也需要將簡(jiǎn)體漢字文件轉(zhuǎn)換為繁體漢字文件。目前筆者只見到中、日、韓大字符集漢字系統(tǒng)AW97之兩岸通繁簡(jiǎn)自動(dòng)轉(zhuǎn)換系統(tǒng)(LAT)可敷使用。當(dāng)需要將繁體轉(zhuǎn)換為簡(jiǎn)體時(shí), 由于其間為一對(duì)一關(guān)系,故自動(dòng)進(jìn)行,當(dāng)需要將簡(jiǎn)體轉(zhuǎn)換為繁體時(shí),由于有一多對(duì)應(yīng)關(guān)系,故需人工選擇。其繁簡(jiǎn)字對(duì)照表為dbf文件, 可根據(jù)情況進(jìn)行調(diào)整和修改。該輔助軟件LAT可脫離原有漢字平臺(tái),在Windows之DOS窗口運(yùn)行。(三)關(guān)于缺字問題。對(duì)數(shù)字化中文文獻(xiàn)、特別是古籍來說,缺字是重要瓶頸。目前使用較廣泛的幾種漢字交換碼,已編碼漢字和可造字空間總量都十分有限:GB碼8,154字,BIG5碼18,860字,GBK碼20,902字,顯然不敷使用。在此背景之下,很多數(shù)字化中文文獻(xiàn)采用組字方式,如前述漢籍電子文獻(xiàn)、二十五史全文檢索系統(tǒng)等,但是,組字畢竟是一種有缺陷的過渡性措施,最終出路只能是全漢字編碼字集。這一時(shí)代正在來臨,文史工作者應(yīng)予以充分注意。一方面,全漢字交換碼編碼空間從理論和標(biāo)準(zhǔn)上已經(jīng)解決。1993年通過的國際標(biāo)準(zhǔn)ISOIEC 10646.1(UCS )提供了一個(gè)全新的字符編碼空間。其容量高達(dá)21億多個(gè)碼位,即使加上甲骨文、金文等歷史文字,漢字也不過10余萬字,完全可以容納其中。如果考慮到技術(shù)方面的障礙,以雙字節(jié)作為漢字表示基本方式,局限于基本多文種平臺(tái)之內(nèi),該平臺(tái)本身有65,536個(gè)碼位,再根據(jù)有關(guān)國際組織1996年通過的UTF 16轉(zhuǎn)換格式,另加1,048,576個(gè)碼位,100多萬個(gè)碼位, 應(yīng)當(dāng)說已完全足以應(yīng)付漢字及世界上所有文字的編碼需要。另一方面,全漢字交換碼國際標(biāo)準(zhǔn)的編制接近完成。1993年批準(zhǔn)的中日韓統(tǒng)一漢字(CJK Unified ldeographs, 簡(jiǎn)稱CJK )編入20,902個(gè)漢字,1998年批準(zhǔn)的中日韓統(tǒng)一漢字?jǐn)U充字集A(CJKUnified ldeographs Extension A,簡(jiǎn)稱CJK_A)編入6,582 個(gè)漢字和康熙部首及中日韓部首補(bǔ)充330個(gè)。中日韓統(tǒng)一漢字?jǐn)U充字集B(CJK Unified ldeographs Extension B,簡(jiǎn)稱CJK_B)1999年5 月已通過第3稿,計(jì)劃2001年之前正式頒布,其中編入40,749個(gè)漢字, 以上總計(jì)編入68,563個(gè)漢字(含偏旁部首)。至此,康熙字典、漢語大字典(注:康熙字典收入47,035個(gè)漢字,漢語大字典收入54,678個(gè)漢字。)所收漢字,中、日、韓、越和臺(tái)港地區(qū)正式標(biāo)準(zhǔn)所收漢字均被囊括其中,因此全漢字交換碼標(biāo)準(zhǔn)的編制已接近完成。中日韓統(tǒng)一漢字?jǐn)U充字集C(CJK Unified ldeographs Extension C, 簡(jiǎn)稱,CJK_C)目前已經(jīng)開始搜集字源。與此相應(yīng),國際標(biāo)準(zhǔn)UCS 也持續(xù)向工業(yè)標(biāo)準(zhǔn)過渡,1993年頒布的Unicode 2.0版包含了CJK全部漢字,最近將頒布Unicode 3.0版,其中將包含CJK和CJK_A (注:高天助ISO 10646與Unicode標(biāo)準(zhǔn)發(fā)展現(xiàn)況, 電子古籍中的文字問題研討會(huì)(臺(tái)北)論文,1999年。)。這一標(biāo)準(zhǔn)更新必然很快在軟件領(lǐng)域表現(xiàn)出來。對(duì)于以上情況,中國古代史研究者及其他

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論