中國古代史研究數(shù)字化文獻資源與利用.doc_第1頁
中國古代史研究數(shù)字化文獻資源與利用.doc_第2頁
中國古代史研究數(shù)字化文獻資源與利用.doc_第3頁
中國古代史研究數(shù)字化文獻資源與利用.doc_第4頁
中國古代史研究數(shù)字化文獻資源與利用.doc_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中國古代史研究數(shù)字化文獻資源與利用中國古代史研究數(shù)字化文獻資源與利用 【作 者】袁林查閱文獻、摘抄卡片、添加批注、排比整理,是歷史學者搜集、處理所需原始資料的常用方式。學者的首要任務(wù)是進行創(chuàng)造性思維,但資料工作花費了他們一半以上的時間與精力,大大縮短了其學術(shù)生命,這是史學研究中的最大浪費。隨著社會信息化進程的加快,中文古典文獻數(shù)字化程度迅速提高,給歷史研究提供了全新的手段與工具,對幾千萬字文獻的查詢和摘抄可在數(shù)秒之內(nèi)完成,非常有利于改變現(xiàn)狀。本文試圖對中國古代史研究數(shù)字化工作作一些介紹。一、已建成和正在建設(shè)的中文古籍全文數(shù)據(jù)庫近十數(shù)年來,海內(nèi)外有關(guān)機構(gòu)和人士紛紛著手中文電子古籍全文數(shù)據(jù)庫的建設(shè),其中比較大的有如下一些。(一)漢籍電子文獻。臺灣中研院建設(shè)。最早稱史籍自動化計劃,曾改稱漢籍全文資料庫。該庫可在國際互聯(lián)網(wǎng)上使用(注:網(wǎng)址為:.tw/ftms-bin/ftmsw3。)。該庫所收文獻依該院人員研究需要而選定。目前已建成并公開投入使用的古籍約12,000余萬字,主要有:二十五史、 十三經(jīng)(3種(注:為十三經(jīng)注疏、斷句十三經(jīng)經(jīng)文、點校四書章句集注。)、諸子(43種(注:為抱樸子、莊子集釋、法言義疏、東觀漢記、墨子城守各篇簡注、潛夫論箋、國語、莊子集解、莊子集解內(nèi)篇補正、古本竹書紀年輯校、墨子間詁、列子集釋、晏子春秋集釋、管子輕重篇新詮、點校四書章句集注、新語校注、戰(zhàn)國策、八家后漢書、老子校釋、莊子、老子、墨子、荀子、韓非子、呂氏春秋、商君書、管子、晏子春秋、孫子、吳子、尉繚子、六韜、司馬法、公孫龍子、燕丹子、新書、新語、春秋繁露、淮南子、新序、說苑、列女傳、鹽鐵論。)、古籍十八種(注:為唐令拾遺、新校搜神記、齊民要術(shù)校釋、世說新語箋疏、典論、申鑒、中論、漢官六種、洛陽伽藍記校注、九家舊晉書輯本、顏氏家訓集解、荊楚歲時記、唐律疏議、山海經(jīng)校注、通典、風俗通義校注、唐會要、后漢經(jīng)校注。)、古籍三十四種(注:為鄧析子、關(guān)尹子、太平經(jīng)合校、鬼谷子、尹文子、慎子、孔子家語、鹖冠子、通玄真經(jīng)、孔叢子、藝文類聚、論衡校釋、金匱要略、難經(jīng)本義新解、傷寒論、黃帝內(nèi)經(jīng)、前漢紀、漢魏南北朝墓、九章算經(jīng)點校、周髀算經(jīng)、越絕書、釋名、方言校箋、穆天子傳、西京雜記、吳越春秋、逸周書、文獻通考、朱子語類、楚辭補注、敦煌變文集新書、文選、華陽國志校補圖注、古小說鉤沈。)、大正新修大藏經(jīng)(收入22卷(注:為第14、817、2225、28、49、50、 52卷,其中有些卷只收入了部分內(nèi)容。)、臺灣方志、檔案、文獻(132 種(注:為小琉球漫志、中復(fù)堂選集、平臺紀略、巡臺退思錄等。)、文心雕龍(3種(注:為文心雕龍義、文心雕龍考異、文心雕龍法。)、清代經(jīng)世文編、姚際恒著作集、新清史本紀、樂府詩集、閩南語俗曲唱本歌仔冊。又從上述數(shù)據(jù)庫抽出部分內(nèi)容,建成上古漢語語料庫(3,200余萬字)、 人文資料師生版(約4,700萬字)。 此外還建成簡帛金石資料庫(注:網(wǎng)址為:.tw/ wenwu/bib.htm #2。收入各種資料的全文41種、書目3種。其主要有中山懷王墓文子校文、包山二號楚墓、曾候乙墓、云夢龍6 號秦簡釋文、天水放馬灘秦簡甲種日書釋文、睡虎地秦墓竹簡、居延新簡、居延漢簡甲乙編、居延漢簡釋文合校、疏勒河流域出土漢簡、敦煌漢簡、敦煌漢簡釋文、散見簡牘合輯、漢簡奏讞書釋文、秦漢金文錄、馬王堆帛書及銀崔山漢墓竹簡孫子兵法等、馬王堆五十二病方等、武威漢代醫(yī)簡、張家山漢簡引書釋文、脈書、兩漢鏡銘集錄、中國古代磚文、墓券、漢代石刻集成、秦漢南北朝官印徵存、漢印文字徵及補遺、漢碑集釋、江蘇東海縣尹灣漢墓簡牘釋文選、臺灣圖書館藏居延漢簡、 羅布淖爾漢簡釋文、漢簡書目(1995.12)、石刻題跋索引(漢隋)、新出石刻資料目錄。)。以上內(nèi)容除諸子、古籍十八種、古籍三十四種、大正新修大藏經(jīng)外,均已免費向社會開放。除上述已公開投入使用者外,目前已完成輸入,正在校對建成或已在內(nèi)部投入使用者共2億余字,為便于介紹, 人為粗略劃分如下:歷史類文獻45種(注:為世本八種、全上古三代秦漢三國六朝文、全唐文、太平御覽、資治通鑒、續(xù)資治通鑒長編、續(xù)資治通鑒、建炎以來系年要錄、三朝北盟會編、宋人軼事匯編、宋稗類鈔、夢溪筆談、揮麈錄、能改齋漫錄、宋朝事實類苑、宋大詔令集、建炎以來朝野雜記、契丹國志、大金國志校證、大元圣政國朝典章、元代法律資料輯存、吏學指南、廟學典禮、秘書監(jiān)志、通制條格、元代白話碑集錄、明實錄(含附錄、校勘記)、續(xù)文獻通考、清朝文獻通考、清朝續(xù)文獻通考、清實錄、清會典事例、亭林文集、日知錄、朱子語類、宋論、讀通鑒論、白虎通疏證、讀四書大全說、祖堂集、熹廟諒陰記事、劉宗周全集、泉翁大全集。),歷代史料筆記116種(注:為中華書局新版歷代史料筆記叢刊全套。), 臺灣歷史文獻137種(注:為平臺紀事本末、臺灣鄭氏紀事、 赤嵌集等。),醫(yī)藥類文獻27種(注:為肘后備急方、外臺秘要、醫(yī)心方、巢氏諸病源候總論、太平圣惠方、普濟方、醫(yī)方類聚、名醫(yī)別錄、東垣醫(yī)集、丹溪醫(yī)集、赤水玄珠全集、遵生八箋、名醫(yī)類案、續(xù)名醫(yī)類案、脈經(jīng)、甲乙經(jīng)、太平惠民和劑局方、子和醫(yī)集、瘟疫論、神農(nóng)本草經(jīng)、千金翼方、婦人大全良方、諸源候論校注、衛(wèi)生家寶產(chǎn)科備要、千金要方、洗冤集錄校譯、本草綱目。),文學類文獻37種(注:為先秦漢魏南北朝詩、水滸全傳、繡像金瓶梅詞話、西游記、紅樓夢校注、兒女英雄傳、儒林外史、蒲松齡集、四庫輯本別集拾遺、二刻拍案驚奇、三遂平妖傳、初刻拍案驚奇、歧路燈、喻世明言、醒世恒言、警世通言、大唐三藏取經(jīng)詩話、入唐求法巡禮行記、五代史平話、元刊雜劇三十種、王梵志詩、永樂大典戲文三種、樸通事諺解、老乞大諺解、型世言、桃花扇、訓世評話、敦煌變文集新書、游仙窟、新刊大宋宣和遺事、醒世姻緣、鏡花緣、關(guān)漢卿戲曲集、世說新語、四存編、亭林詩集、藝文類聚。),宗教經(jīng)典20種(注:為長阿含經(jīng)、增一阿含經(jīng)、五分律、摩訶僧只律、五燈會元、六祖壇經(jīng)、神會語錄、無上秘要、三洞珠囊、上清道類事相、真誥、云笈七簽、道樞、道教義樞、正統(tǒng)道藏第1、3、5 、43、56、57冊。)。其中歷代史料筆記、明實錄、清實錄等大型文獻全文數(shù)據(jù)庫建設(shè)對中國古代史研究尤為重要。目前,該古籍數(shù)據(jù)庫仍以每年輸入約5,000萬字的速度繼續(xù)發(fā)展。 該系統(tǒng)使用BIG5 碼編碼字集,已編碼漢字13,051個,可造字碼位5,809個,已造4,555字。因有造字,故要更好使用,必須下載造字庫文件。 鑒于可造字碼位非常有限,而古籍用字數(shù)量龐大,該庫今后采用構(gòu)字式解決缺字問題。他們用3個組字符號#p#分頁標題#e#分別表示橫連、直連、包含, 另用8個方便符號分別表示相同漢字部件如符合所示位置的排列。例如 :澀可用表示等等(注:參見謝清俊電子古籍中的缺字問題,第一屆中國文字學會學術(shù)研討會(天津),1996年;莊德明:漢字印刷字形的整理,電子古籍中的文字問題研討會(臺北),1999年。)。該古籍數(shù)據(jù)庫采用瀚典全文檢索系統(tǒng),可選擇庫中全部或部分文獻進行檢索,檢索條件可由一個或多個檢索詞組成,其間關(guān)系以邏輯運算符號和括弧予以確定。邏輯運算符號包含或(or)運算符,且(and)運算符,且非(and not)運算符!。與!優(yōu)先順序相同,次之,括號()則可以調(diào)整優(yōu)先順序。運算符號與檢索詞之間必須插入空格。另外,檢索詞前后可附加排除字集,以括號為標志,以下為兩個檢索條件實例。有學者為研究漢代賑災(zāi)政策,提出如下檢索條件:減免減免除)(租田租口賦),這樣,凡是段落內(nèi)出現(xiàn)減、免、減免、除四者之一與租、田租、口賦三者之一,即被檢索出來。有學者試圖搜集與氣象有關(guān)之風的資料,提出了如下檢索條件:國扶遺鄉(xiāng)承歌八移風伯后師土俗教刺諫喻,檢索中風前后若發(fā)現(xiàn)中的任一字,便被排除,如國風、扶風、風伯等無關(guān)詞匯便不會出現(xiàn)。檢索結(jié)構(gòu)可以三種方式顯示。檢索條列,顯示被檢到的文獻篇目及頁碼。檢索報表,連續(xù)顯示被檢到的全部段落。全段顯示,分段顯示被檢到的全部段落。以上顯示結(jié)果均可打印輸出。如果選定文本塊并予復(fù)制,則可粘貼于Word或記事本、寫字板文件之中,形成電腦文本文件。(二)、二十五史。陜西師范大學歷史系、古籍整理研究所袁林等人建設(shè),收入二十五史紀、志、表、傳等全部內(nèi)容,共約4, 000萬字。已于1999年11月正式向社會推出(注:該軟件演示版可在中國歷史資訊網(wǎng)()和陜西師范大學(/ftp)自由下載試用,正式版可與陜西師范大學歷史系聯(lián)系。)。該系統(tǒng)漢字采用GBK國家標準,共20,902個漢字。 為適應(yīng)大陸學界目前使用電腦現(xiàn)狀,盡量使用簡體字。缺字用拼字方法解決。使用該系統(tǒng),可選擇二十五史全部或部分書籍,對正文和注釋中任意字或字串進行檢索,同時統(tǒng)計命中文獻數(shù)與檢索對象出現(xiàn)總數(shù)。檢索條件可按如下邏輯運算聯(lián)結(jié):或運算(+)、與運算()、非運算()、同段運算()、同句運算()、 靠近運算(n,即在檢索者要求的n個字符間隔內(nèi)兩個字串同時存在),或、與、 非運算均以卷為單位??蓪σ郧暗臋z索結(jié)果進行再檢索,系統(tǒng)可保留選定的此前若干步檢索條件。檢索完成后可選擇標題、全卷、段落等方式查看。檢索結(jié)果可以純文本文件輸出,也可打印輸出。亦可用鼠標點開某書某卷的方式進行瀏覽。全文數(shù)據(jù)庫保留原文正文大字和注釋小字區(qū)別、保留原有表格。瀏覽時可將有關(guān)內(nèi)容剪貼到自己的論文或書稿中。該系統(tǒng)在設(shè)計伊始,就考慮到史學研究的多種需要。目前它可管理和檢索各種歷史資料,包括文本、圖形、影像和聲音,除一般歷史文獻外,也適合于各種文物及其他資料,如簡牘、青銅器、甲骨圖形與文字等等??紤]到古籍中漢字數(shù)量龐大,該系統(tǒng)將設(shè)計基礎(chǔ)置于將來的全漢字平臺之上,目前已可實現(xiàn)在9.5萬漢字字集條件下的顯示、 打印等功能。另外,陜西師范大學歷史系、古籍整理研究所最近將有更大規(guī)模的中文古籍全文檢索系統(tǒng)推向社會。(三)文淵閣四庫全書。由香港迪志文化出版公司投資,該公司與上海人民出版社合作出版,香港迪威多媒體公司與北京書同文電腦公司主持技術(shù)開發(fā)和工程實施。目前已基本完成,2000年中推向市場。該電子古籍收入文淵閣四庫全書,分兩個版本。一是原文及標題檢索版,共168張光盤,可檢索書名、卷名、卷內(nèi)標題、作者, 可顯示及打印輸出原書頁圖像。一是原文及全文檢索版,將原書約7. 5億字轉(zhuǎn)變?yōu)殡娔X編碼文字并實現(xiàn)全文檢索,與原文圖像相結(jié)合,大約共有175張光盤。其全文檢索版可檢索正文或注釋中的任意字串, 亦可限定檢索范圍(如按四庫分類、書名條件、著者條件等)。檢索結(jié)果可按需要進行打印輸出或文本文件輸出。全文版部分內(nèi)容已可在互聯(lián)網(wǎng)上檢索試用(注:網(wǎng)址為:/。)。該電子古籍目前雖未完成,但其全文檢索版有一些值得注意的技術(shù)進步。一是在字集使用上。初期文本輸入以GBK為基礎(chǔ), 但最終字集采用UCS與Unicode之CJK、CJK_A及其可造字空間(詳見第二節(jié)), 共有34,378個漢字碼位可用,目前來看,這是最全面采用漢字編碼國際標準的系統(tǒng)。一是檢索中漢字關(guān)聯(lián)技術(shù)的采用。即檢索一字時同時檢索相關(guān)異體字(廣義概念,含異體、繁簡、通假、古今等等)和形近異義字(如已己巳、刺剌等等),例如檢索商鞅變法一詞,同時檢索商商、鞅、 変變、法灋等各字的組合,共18組;檢索自己一詞,同時檢索自己、自巳。這樣,原文中的異體字,因采用OCR 技術(shù)而必然產(chǎn)生的辨識錯誤,都不致于干擾檢索,使漏檢的可能性大大降低。(四)先秦兩漢一切傳世文獻電腦化資料庫、魏晉南北朝一切傳世文獻電腦化資料庫、竹簡帛書出土文獻電腦資料庫(注:網(wǎng)址為:/scripts/main.asp。)。 香港中文大學中國文化研究所建立。其中先秦兩漢資料庫共收入103種文獻, 約900萬字,至1991年已全部輸入電腦, 目前以光盤形式出版或近一兩年內(nèi)將出版者有90種(注:為戰(zhàn)國策、禮記、商君書、新序、韓詩外傳、大戴禮記、孔子家語、說苑、淮南子、文子、孫子、尉繚子、吳子、司馬法、逸周書、周禮、古列女傳、晏子春秋、吳越春秋、越絕書、漢官六種、東觀漢記、尚書大傳、春秋繁露、山海經(jīng)、穆天子傳、燕丹子、呂氏春秋、儀禮、賈誼新書、鹽鐵論、周易、尚書、毛詩、春秋左傳、春秋公羊傳、春秋谷梁傳、論語、孟子、爾雅、孝經(jīng)、潛夫論、申鑒、中論、新語、法言、太玄經(jīng)、京氏易傳、焦氏易林、白虎通、論衡、風俗通義、老子、列子、荀子、六韜、鬻子、鹖冠子、文始真經(jīng)、鬼谷子、申培詩說、世本四種、古三墳、竹書紀年、尹文子、孔叢子、公孫龍子、鄧析子、蔡中郎集、忠經(jīng)、國語、管子、太平經(jīng)、韓非子、慎子、申子、尸子、前漢紀、墨子、莊子、楚辭、難經(jīng)、金匱要略、傷寒論、周髀算經(jīng)、九章算術(shù)、說文解字、釋名、急就篇、方言。)。魏晉南北朝資料庫共收入近千種文獻,約2,400萬字,至1995年已全部輸入電腦, 目前上網(wǎng)文獻有45種(注:為宋書、后漢書(附續(xù)漢志)、三國志(附校記)、南齊書、魏書、魏晉南北朝子部釋家類文獻38種、文心雕龍、曹植集。)。竹簡帛書資料庫收入竹簡帛書12種, 共約140萬字,已全部輸入電腦,目前以光盤形式出版者有9 種(注:為馬王堆漢墓帛書(一)、馬王堆漢墓帛書(三)、馬王堆漢墓帛書(四)、武威漢簡、睡虎地秦墓竹簡、銀雀山漢墓竹簡(一)、居延漢簡釋文合校、武威漢代醫(yī)簡、散見簡牘合輯。)。字集使用BIG5碼,缺字用造字方式解決。均可全文檢索。#p#分頁標題#e#(五)續(xù)資治通鑒長編。河北大學電子與信息工程系、宋史研究所合作研制。收入續(xù)資治通鑒長編全文共720萬字, 漢字標準采用GB13000標準,缺字使用造字方式解決,可以全文檢索。(六)大正新修大藏經(jīng)。目前有兩個機構(gòu)正在進行全面建設(shè)。一是臺灣地區(qū)中華電子佛典協(xié)會,已完成第117、2232冊。 以光盤和網(wǎng)絡(luò)兩種形式發(fā)行,可全篇自由下載(注:網(wǎng)址為: .tw/cbeta/cbeta.htm。)??梢宰只蜃执畽z索并輸出。使用字集為BIG5碼,缺字以組字方式解決,方法與漢籍電子文獻類似(注:其組字符號含義為:*,橫向連接;, 縱向連接;,包含;,去掉某部分;+,去掉某部分而以另一部分代替;?,尚未找到合適表示者;(、),運算分隔符;、,組字前后分隔符。)。一是日本大藏經(jīng)原典資料庫研究會,目前已完成20 余部佛經(jīng), 亦可全篇自由下載(注:其BIG5碼網(wǎng)址為:http:/www.l.u-tokyo.ac.jp/sat/big-5/down.html, Shift- JIS 碼網(wǎng)址為: http: /www. l. u- tokyo. ac.jp/ sat/japan/down.html。)。有兩個版本,使用字集分別為Shift-JIS碼和BIG5碼,缺字使用文字鏡字庫(詳見第二節(jié))。兩佛典機構(gòu)間有一定合作關(guān)系。計劃先完成前85冊,然后再完成第86100 冊之圖像部、目錄部資料庫。(七)網(wǎng)路展書讀。臺灣地區(qū)元智大學羅鳳珠等人所建,可在國際互聯(lián)網(wǎng)上自由使用(注:網(wǎng)址為:.tw/。)。包含詩經(jīng)、全唐詩、宋詩、唐宋詞、紅樓夢等。可全文檢索,檢索條件可以或(or)、與(and)、 非(not)等邏輯運算相聯(lián)結(jié)。使用字集為BIG5碼, 缺字用組字等方式解決。(八)全唐詩電子檢索系統(tǒng)。北京大學中文系李鐸主持開發(fā),可在國際互聯(lián)網(wǎng)上使用(注:網(wǎng)址為:http: //ang/。)。該系統(tǒng)可檢索唐詩原文,亦可按作者、體裁進行瀏覽。使用字集為GBK碼,原文采用繁體字形。(九)其他。除上述中文古籍全文數(shù)據(jù)庫外,還有一些系統(tǒng)值得注意。1.甲骨文全文檢索及全文影像系統(tǒng),臺灣成功大學圖書館所建,但網(wǎng)上檢索系統(tǒng)目前尚未完成(注:網(wǎng)址為:http:/www. lib. .tw/cgi-bin/ttsweb。)。2.數(shù)位化金文資料庫,臺灣中研院史語所鐘伯生等人所建,目前正在建設(shè)之中(注:鐘伯生、季旭昇、黃銘崇數(shù)位化金文資料庫及其所遇到的文字問題,電子古籍中的文字問題研討會(臺北)論文,1999年。)。3.四庫全書原文查閱系統(tǒng),由山東濟南開發(fā)區(qū)匯文科技開發(fā)中心建設(shè),武漢大學出版社出版,共150張光盤??砂磿?、 作者進行檢索,查閱文淵閣四庫全書原文圖象,不能檢索內(nèi)容,可打印輸出。目前在國際互聯(lián)網(wǎng)上亦有主頁(注:網(wǎng)址為:/skqs/skbig5.html。)。二、相關(guān)可利用資料與工具利用上述中文古籍全文數(shù)據(jù)庫,必須使用一些工具,此外還有一些相關(guān)資源可以利用,下面予以介紹。(一)關(guān)于跨語境使用漢字數(shù)據(jù)。目前漢字交換碼不統(tǒng)一,使用較多的有簡體中文(GB碼及擴展的GBK碼)、繁體中文(BIG5碼)、 日文漢字(Shift-JIS碼、EUC碼)、韓文漢字(KSC碼), 這種狀況給瀏覽、檢索和使用有關(guān)數(shù)據(jù)造成了很大麻煩。以前都要加裝輔助漢字系統(tǒng),如四通利方(Richwin)、南極星(NJwin)、 漢字通(Kanjiweb)等,通過代碼頁轉(zhuǎn)換來解決,但由于其簡體中文大多以GB碼為基礎(chǔ),因此瀏覽時總會出現(xiàn)缺字,而且,利用有關(guān)數(shù)據(jù)時必須另用專門軟件把繁體字轉(zhuǎn)變?yōu)楹嗴w字,十分不便。微軟公司近年在軟件開發(fā)中采用了Single Data策略, 即系統(tǒng)以國際標準UCS(注:ISO/IEC 10646.1信息技術(shù):UCS 通用多八位編碼字符集體系結(jié)構(gòu)與基本多文種平面,1993年。 )、 工業(yè)標準Unicode為基礎(chǔ),保持基本程序不變,在此基礎(chǔ)上開發(fā)各種語言環(huán)境, 也即所謂多平臺、跨語境技術(shù),這一技術(shù)為我們使用基于多種交換碼的數(shù)字化中文古籍提供了很大方便。以Internet Explorer 4. 0以上各簡體中文版來說,只要補充安裝繁體中文、日文、韓文等多種語文支持工具,即可瀏覽和利用以GB、GBK、BIG5、Shift-JIS、ECU、KSC等交換碼為基礎(chǔ)的漢字數(shù)據(jù)。 Windows 95 以上版本和InternetExplorer 4.0以上版本的簡體中文版,均采用GBK漢字交換碼,而GBK完全兼容于國際標準UCS之CJK和工業(yè)標準Unicode2.0,另增收漢字(含偏旁)101個、圖形符號232個。GB、BIG5、Shift-JIS、KSC等交換碼都只是CJK和Unicode2.0編碼字集的子集, 因此以這些交換碼為基礎(chǔ)的數(shù)據(jù)都可以不經(jīng)過轉(zhuǎn)換而在GBK基礎(chǔ)上加以利用。瀏覽時, 可通過選擇編碼(或語言)中的簡體中文、繁體中文、日文、朝鮮文,即可瀏覽相關(guān)文件,這不僅適應(yīng)于超文本(HTML)文件,也適應(yīng)于其他文件。需輸入漢字時,只要確定語言種類后直接輸入即可,當然,繁體字不能用簡體字取代。需使用有關(guān)漢字信息時,只需選定內(nèi)容,復(fù)制于剪貼板,然后再粘貼于Word或記事本、寫字板文件之中,即形成以GBK碼為基礎(chǔ)的漢字文件,且繁簡字形不改變。(二)關(guān)于多種內(nèi)碼及繁簡字漢字文件的轉(zhuǎn)換。以前通常使用四通利方等專門軟件來進行多種內(nèi)碼漢字文件的轉(zhuǎn)換,其缺陷與瀏覽時相同,會出現(xiàn)缺字,繁體字被轉(zhuǎn)變?yōu)楹嗴w字。使用InternetExplorer4.0以上簡體中文版時,則可以更方便地進行轉(zhuǎn)換。各種非GBK漢字文件,只要可以在瀏覽器或電子郵件中打開,且選擇適當語言使用正確顯示,通過選塊復(fù)制再粘貼于Word或記事本、寫字板文件之中,便被轉(zhuǎn)換為GBK漢字文件,且繁簡字形與原形統(tǒng)一。#p#分頁標題#e#由于GBK中大約有近4,000字以繁簡兩種字形出現(xiàn),BIG5、Shift JIS、KSC碼漢字文件轉(zhuǎn)換為GBK碼文件時,許多字仍以繁體出現(xiàn), 有時使用不便。另外,有時也需要將簡體漢字文件轉(zhuǎn)換為繁體漢字文件。目前筆者只見到中、日、韓大字符集漢字系統(tǒng)AW97之兩岸通繁簡自動轉(zhuǎn)換系統(tǒng)(LAT)可敷使用。當需要將繁體轉(zhuǎn)換為簡體時, 由于其間為一對一關(guān)系,故自動進行,當需要將簡體轉(zhuǎn)換為繁體時,由于有一多對應(yīng)關(guān)系,故需人工選擇。其繁簡字對照表為dbf文件, 可根據(jù)情況進行調(diào)整和修改。該輔助軟件LAT可脫離原有漢字平臺,在Windows之DOS窗口運行。(三)關(guān)于缺字問題。對數(shù)字化中文文獻、特別是古籍來說,缺字是重要瓶頸。目前使用較廣泛的幾種漢字交換碼,已編碼漢字和可造字空間總量都十分有限:GB碼8,154字,BIG5碼18,860字,GBK碼20,902字,顯然不敷使用。在此背景之下,很多數(shù)字化中文文獻采用組字方式,如前述漢籍電子文獻、二十五史全文檢索系統(tǒng)等,但是,組字畢竟是一種有缺陷的過渡性措施,最終出路只能是全漢字編碼字集。這一時代正在來臨,文史工作者應(yīng)予以充分注意。一方面,全漢字交換碼編碼空間從理論和標準上已經(jīng)解決。1993年通過的國際標準ISOIEC 10646.1(UCS )提供了一個全新的字符編碼空間。其容量高達21億多個碼位,即使加上甲骨文、金文等歷史文字,漢字也不過10余萬字,完全可以容納其中。如果考慮到技術(shù)方面的障礙,以雙字節(jié)作為漢字表示基本方式,局限于基本多文種平臺之內(nèi),該平臺本身有65,536個碼位,再根據(jù)有關(guān)國際組織1996年通過的UTF 16轉(zhuǎn)換格式,另加1,048,576個碼位,100多萬個碼位, 應(yīng)當說已完全足以應(yīng)付漢字及世界上所有文字的編碼需要。另一方面,全漢字交換碼國際標準的編制接近完成。1993年批準的中日韓統(tǒng)一漢字(CJK Unified ldeographs, 簡稱CJK )編入20,902個漢字,1998年批準的中日韓統(tǒng)一漢字擴充字集A(CJKUnified ldeographs Extension A,簡稱CJK_A)編入6,582 個漢字和康熙部首及中日韓部首補充330個。中日韓統(tǒng)一漢字擴充字集B(CJK Unified ldeographs Extension B,簡稱CJK_B)1999年5 月已通過第3稿,計劃2001年之前正式頒布,其中編入40,749個漢字, 以上總計編入68,563個漢字(含偏旁部首)。至此,康熙字典、漢語大字典(注:康熙字典收入47,035個漢字,漢語大字典收入54,678個漢字。)所收漢字,中、日、韓、越和臺港地區(qū)正式標準所收漢字均被囊括其中,因此全漢字交換碼標準的編制已接近完成。中日韓統(tǒng)一漢字擴充字集C(CJK Unified ldeographs Extension C, 簡稱,CJK_C)目前已經(jīng)開始搜集字源。與此相應(yīng),國際標準UCS 也持續(xù)向工業(yè)標準過渡,1993年頒布的Unicode 2.0版包含了CJK全部漢字,最近將頒布Unicode 3.0版,其中將包含CJK和CJK_A (注:高天助ISO 10646與Unicode標準發(fā)展現(xiàn)況, 電子古籍中的文字問題研討會(臺北)論文,1999年。)。這一標準更新必然很快在軟件領(lǐng)域表現(xiàn)出來。對于以上情況,中國古代史研究者及其他

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論