




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、(三)數(shù)字化加工部分26.1. 需求分析與總結26.2. 參考的國家標準及技術規(guī)范26.3. 數(shù)字化加工實施細則3本項的掃描加工流程36.9.1. 生產流程有以下幾個主要的步驟組成:4檔案整理56.9.2. 著錄標引6紙件掃描76.9.3. 圖像處理8質量檢驗106.9.4. 檔案還原裝訂10數(shù)據(jù)存儲與備份126.9.5. 檔案電子數(shù)據(jù)與XXXXXX煙草檔案系統(tǒng)的無縫掛接126.4.項目所采用的OCR處理技術介紹12OCR(光學字符識別)技術126.10.1. 所采用的OCR及雙層PDF生產流程13生產流程邏輯示意圖146.5.XXXXXX檔案數(shù)字化服務特點15自動化程度高156.11.1.
2、標準化程度高15嚴格的質量控制156.11.2. 文檔安全性高15標準的格式156.11.3. 方便存儲與管理16圖像格式:TIFF、JPG儲存空間:B5或A4,20-30KB/頁質量檢驗對掃描處理完成后的圖像頁進行檢驗,對檔案拆分、掃描、修正、去污、文本流程圖的處理、插圖、照片的處理以及文本和圖像頁的匹配進行檢驗等質量進行全面檢驗。對文本域錄入與文本錄入域的標引、文件的頁號及頁數(shù)進行對比,對掃描前的圖像頁的標引與掃描后的圖像頁的編號與頁數(shù)進行對比,發(fā)現(xiàn)不合格的登記清單并退回上一流程重新處理。697. 檔案還原裝訂檔案整理工作嚴格按照中央檔案館進館標準規(guī)定的相關標準和XXXXXX煙草的實際情況
3、進行有序的整理,XXXXXXXXXXXX檔案數(shù)字化中心安排專人負責案卷合并與整理。6.9.8.1.原件合并把掃描時挑出的頁面插入到原來的頁面位置中去,將掃描時展開的超大頁面還原到掃描前的原樣,把數(shù)字化中挑出的不要的多余頁面提出。6.9.8.2.全卷整理將每卷文件按形成的時間、順序、文件類別進行整理。6.9.8.3. 編寫頁號按重新整理頁面上按順序統(tǒng)一的編寫頁號。6.9.8.4.案卷目錄和卷內目錄按順序將一個項目文件的合并到一卷中,并按中央檔案館進館標準和XXXXXX煙草特有字段組成案卷目錄和卷內目錄。6.9. 8.5.打印案卷封面和卷內目錄對案卷目錄和卷內目錄與卷內文件進行匹配后打印案卷目錄和
4、卷內目錄以備裝訂使用。6.9.8.6.裝訂嚴格按照中央檔案館進館標準和XXXXXX煙草的要求將每卷檔案的封面、卷內目錄、卷內文件、左下角對齊打成三孔一線裝訂還原檔案。6.9.8.7.案卷分盒按年度、案卷、類別、機構等有規(guī)則地按順序裝入定制的檔案盒。6.9.8.8.打印裝箱單按年度、箱號、盒號、卷號、總頁數(shù)打印裝箱清單?;虬礄n案檔案館的要求制作打印裝箱單。6.9.8.9.按順序裝箱按箱子編號、年度、箱內盒數(shù)、案卷數(shù)與總頁數(shù)裝箱,參照國家檔案館的要求結合XXXXXX煙草的實際情況按序裝箱。6.9.8.10.編制目錄(年度目錄)制作出XXXXXX煙草檔案裝箱目錄,合并各箱清單,統(tǒng)一編制頁碼,形成裝箱
5、目錄,并按通用格式存儲裝箱目錄的電子文件,以便檢索與查找,或按檔案館進館要求編制。699擻據(jù)存儲與備份在生產過程中,XXXXXX掃描加工中心是一個基于網(wǎng)絡化流程化生產管理系統(tǒng),我們在掃描的同時就同時產生兩份備原始圖像數(shù)據(jù)的備份數(shù)據(jù)。在經(jīng)過生產系統(tǒng)質量驗收合格的電子文件后,我們將把掃描的成品數(shù)據(jù)與XXXXXX煙草的檔案管理系統(tǒng)掛接,將按規(guī)則生產原始圖像光盤及具備單盤檢索的數(shù)據(jù)光盤。6.9.10.檔案電子數(shù)據(jù)與XXXXXX煙草檔案系統(tǒng)的無縫掛接文本域錄入和掃描處理檢驗后的圖像成品,按年度進行文字圖像與系統(tǒng)的掛接,不需手工掛接即可實現(xiàn)文本與圖像頁與系統(tǒng)的掛接。掛接到XXXXXX煙草檔案管理系統(tǒng)中后,
6、進行再次的成品驗收,對各種使用習慣逐頁進行檢驗,驗收合格后移交到由XXXXXX煙草專家組成的驗收小組驗收。6.9.10.1.確保完美無縫掛接因為XXXXXX煙草檔案管理系統(tǒng)是采用XXXXXX軟件的檔案管理軟件系統(tǒng),XXXXXX檔案掃描加工系統(tǒng)和XXXXXX檔案管理系統(tǒng)可以實現(xiàn)自動批量掛接,無需人工干預即可實施目錄數(shù)據(jù)與原文電子數(shù)據(jù)的無縫掛接。6.4.項目所采用的OCR處理技術介紹OCR(光學字符識別)技術OCR是英文OpticalCharacterRecognition的縮寫,中文意思就是通過光學技術對文字進行識別。OCR概念的產生是在1929年,德國的科學家Taushcck首先提出了OCR的
7、概念,并且申請了專利。兒年后,美國科學家Handel也提出了利用技術對文字進行識別的想法。但這種夢想直到計算機的誕生才變成了現(xiàn)實?,F(xiàn)在這一技術已經(jīng)由計算機來實現(xiàn),OCR的意思就演變成為利用光學技術對文字和字符進行掃描識別,轉化成計算機內碼。6.10.1. 所采用的OCR及雙層PDF生產流程2.1.識別模塊具有超強的識別核心.可以識別簡、繁體漢字2萬多,識別的語言包括中文簡、繁體、英文、日文、韓文,自動版面分析能力大大增強.最大限度減少手工操作量。6.10.2.2.縱向校對模塊可以將成百上千張圖像一起校對將識別成同一個字的圖像集中在一個窗家家家家家家家家家家家家家家口內,先標記錯誤,再自動與橫校
8、進行合并,后統(tǒng)一改正,校對工作量減少80%,錯誤率可控制在萬分之一。6.10.2.2.1. 版面恢復模塊通過版面恢復編輯器,可以將原始圖像的所有信息恢復過來。比如:字體、顏色、花邊tvG河Irr攻停r皿仙nrxrt等。6.10. 2.3.雙層PDF生成模塊可直接在程序中進行后臺PDF處理,無需在Acrobat中生成,方便而快捷??梢赃x擇生成多種PDF格式:雙層PDF文檔包括圖文擇生成多種PDF格式:雙層PDF文檔包括圖文混排的PDF、圖在文上的PDF、圖在文下的PDF等。6.10. 2.4.自動處理模塊可以實現(xiàn)圖像文件到PDF文件的自動轉換,生成的PDF文件能夠實現(xiàn)全文檢索,可以復制貼貼,也可
9、以對某個指定目錄進行長期監(jiān)視,真正實現(xiàn)無人操作。6.10.2. 生產流程邏輯示意圖6.5.XXXXXX檔案數(shù)字化服務特點6.11.1. 自動化程度高XXXXXX利用先進的文檔掃描系統(tǒng),實現(xiàn)網(wǎng)絡化操作,自動批量處理,在掃描的同時由系統(tǒng)自己進行圖像處理,自動去除圖像黑邊、傾斜校對、去斑點等,利用XXXXXXOCR(光學字符識別)技術識別索引字段并能轉換為多種格式,所生成的文件格式能夠方便地導入、導出多種標準格式。6.11.2. 標準化程度高完全符合檔案管理要求和使用習慣,符合國家計算機光盤檔案存儲標準,符合國家檔案局頒發(fā)的檔案電子文檔標準。6.11.3. 嚴格的質量控制采用先進的質量控制軟件,網(wǎng)絡
10、化流水作業(yè),整個流程由軟件控制,前后工序緊密結合,次工序在完成本項操作的同時檢查上一工序的質量是否合格,做到質量不合格隨時返回,并有嚴格的員工操作記錄,控制員工操作中的每一步,系統(tǒng)自動生成數(shù)據(jù)記錄操作過程,隨時檢查任何工序的質量及完成情況,確保一次性達到成品質量要求。6.11.4. 文檔安全性高從接收原始文檔的拆分、掃描、文字錄入、校對等流程都有隨機的記錄和管理,確保文檔在掃描過程中不被損毀,每天上下班對文檔質量及數(shù)量的實行嚴格核對與交接,認真填寫作業(yè)清單和交結清單。6.11.5. 標準的格式我們從掃描、圖像處理、文字錄入到生成圖像壓縮格式,在保證圖像質量的同時,使圖像的所占的空間最小化并能同
11、各種檔案管理系統(tǒng)完美結合,方便歸檔及遠程查詢。6.11.6. 方便存儲與管理可將掃描的電子文檔方便存儲于光盤中及其它存儲器,按照國際標準TIFF格式,A4幅面二值圖像,平均每頁大小30K左右。每一張CD光盤可容納萬余張A4大小文件影像,可方便地統(tǒng)計、保存、快速、有效、系統(tǒng)地調閱,根據(jù)電子文檔本身的特性,建立相應的檢索目錄,并與影像地址對應,在數(shù)秒鐘內即可查詢到任何一幅電子文檔影像信息。(三)數(shù)字化加工部分需求分析與總結此次項目是將中國煙草總公司XXXXXX省公司及所屬11個市煙草公司的約183萬頁紙質檔案進行數(shù)字化加工并將成品數(shù)據(jù)掛接到檔案管理系統(tǒng)中,紙質檔案的折分整理、掃描與圖像處理、數(shù)據(jù)的
12、掛接與光盤備份都將嚴格按照國家檔案局相關標準及XXXXXX省檔案局相關規(guī)定,結合XXXXXX煙草檔案現(xiàn)狀定制加工技術規(guī)范與生產加工流程。據(jù)上述現(xiàn)狀,具體人員安排,項目實施周期,采用標準及實施細則如下。6.2.參考的國家標準及技術規(guī)范紙質檔案數(shù)字化技術規(guī)范(DA/T31-2005)連續(xù)色調靜態(tài)圖像的數(shù)字壓縮及編碼(GB/T17235.1-1998)電子文件歸檔與管理規(guī)范(GB/T18894-2002)中央檔案館接收檔案的標準OXXXXX省檔案接收和收集管理相關規(guī)定歸檔文件整理規(guī)則(DA/T22-2000)檔案著錄規(guī)則(DA/T18-1999)無酸檔案卷皮卷盒用紙及紙板(DA/T24-2000)檔
13、案修裱技術規(guī)范(DA/T25-2000)axxxxxxxxxxx檔案數(shù)字化技術規(guī)范XXXXXX煙草檔案數(shù)字化技術規(guī)范6.9.1.本項的掃描加工流程檔案原件整理檔案原件整理分解檔案校對頁號ft質檢系統(tǒng)圖像掃描和處理質呆檢測檔案管理系統(tǒng)服務器S壁入系紹檔案還原co刻錄機錄入質呆檢測全面質檢則6.9.2. 生產流程有以下幾個主要的步驟組成:紙質檔案的整理從檔案室進行檔案提卷,并記錄提卷的內容,接著拆卷,并進行去污、平整化,并依據(jù)檔案紙張的大小和厚薄分類。檔案的整理工作主要是為了以后檔案的掃描做準備。6.9.2.1.掃描及圖像處理根據(jù)不同檔案紙張的大小和厚薄,選擇不同的掃描儀,較為規(guī)整的選擇快速掃描儀
14、,較薄、較厚和不規(guī)整的用平板掃描儀,這樣既能達到保護檔案(高速掃描儀會發(fā)生卷紙,損壞檔案)的目的,也能提高檔案數(shù)字化加工的速度。查重查漏在掃描的過程中,難免會發(fā)生重復掃描和漏掃的現(xiàn)象,人工的再次校對能夠發(fā)現(xiàn)檔案數(shù)字化過程中出現(xiàn)的情況,并即使糾正。數(shù)據(jù)項錄入依據(jù)檔案著錄規(guī)范或者依據(jù)客戶檔案的實際著錄項,錄入標題、責任者、歸檔時間、檔號等各種信息。6.9.2.2.質量檢測對掃描圖像和著錄的標引數(shù)據(jù)進行檢驗,圖像主要是檢驗其掃描和凈化處理質量,數(shù)據(jù)項的質量檢測主要是檢測其錄入正確率。6.9.2.3.檔案還原完成檔案數(shù)字化后,要把原先的檔案原件還原成原樣。6.9.3. 檔案整理6.9.3.1.檔案交接
15、檔案按年度、案卷提檔,提檔時數(shù)字化實施方的提卷人員對每卷的所有頁面進行統(tǒng)一的編號,全卷所有文件頁號編寫完成后,再依據(jù)XXXXXX煙草的要求抽出不需要掃描的文件頁,然后再次按序編寫需要掃描的文件頁號,頁號編寫完成后,按實際文件頁數(shù)填寫詳細的紙質檔案交按清單,并由雙方主管人員簽字。6.9.3.2.檔案拆分檔案拆分前要對檔案進行統(tǒng)一的編號,編制總頁號后,要從中選中需要掃描的頁面。再一次編制所需掃描的頁號,兩個頁號需用鉛筆的顏色或位置區(qū)分,以確保檔案還原時能夠清楚區(qū)別和核時頁數(shù)。6.9.3.3.目錄數(shù)據(jù)準備按照檔案著錄規(guī)則(DA/T18)等的要求,規(guī)范檔案中的目錄內容。包括確定檔案目錄的著錄項、字段長
16、度和內容要求。如有錯誤或不規(guī)范的案卷題名、文件名、責任者、起止頁號和頁數(shù)等,應進行修改。6.9.3.4.拆除裝訂在不去除裝訂物情況下,影響掃描工作進行的檔案,應拆除裝訂物。拆除裝訂物時應注意保護檔案不受損害。6.9.3.5.區(qū)分掃描件和非掃描件按要求把同一案卷中的掃描件和非掃描件區(qū)分開。普發(fā)性文件區(qū)分的原則是:無關和重份的文件要剔除,有正式件的文件可以不掃描原稿。6.9.3.6.頁面修整破損嚴重、無法直接進行掃描的檔案,應先進行技術修復,折皺不平影響掃描質量的原件應先進行相應處理(壓平或熨平等)后再進行掃描。6.9.3.7.檔案整理登記制作并填寫紙質檔案數(shù)字化加工過程交接登記表單,詳細記錄檔案
17、整理后每份文件的起始頁號和頁數(shù)。6.9.4. 著錄標引6.9.4.1,標引著錄標引著錄為了方便查閱與管理,打印制作檔案目錄及檔案封面,對文字錄入的準確性要求較高,但要錄的文本域并不是完全統(tǒng)一的在某一頁面上,一些文本域要在多個文件中選擇,所以錄入時需要相關學部專家進行指導,確保文本域錄入的準確率。對所需錄入的文木進行標引、或對不同類別的檔案錄入特征制作相應的文字錄入工作說明書,供錄入員和校對人員參考。6.9.4.2.錄入方式由于文本類型不一,有印刷體、手寫體、有表格內的也有表格外的文本信息,所以采用手工錄入和OCR(光學字符識別)軟件相結合的方式錄入。即手寫體或不清晰的印刷體采用手工錄入,較規(guī)整
18、的印刷體采用OCR技術的錄入方式。6.9.4.3.校對方式校對以軟件校對和打印輸出對比校對相結合的方式,即對手工錄入和OCR自動錄入的文本打印輸出進行對比校對的一校、二校、抽查校對,確保索引信息達到出版質量萬分之一以下。6.9.5. 紙件掃描原件的掃描與存儲格式完全按照國家檔案管理的統(tǒng)一標準和XXXXXX煙草的相關要求掃描。掃描人員按照掃描與處理工作說明書的要求,填寫移交清單(此移交清單是檔案拆分人員和掃描人員共同填寫)并簽字領取并進行紙件掃描。掃描圖像使用先進的圖像掃描處理軟件(快圖像系統(tǒng)),掃描人員可根據(jù)原稿質量,對系統(tǒng)進行定義,如自動傾斜校正、自動去污、自動分文件等批處理功能。在由系統(tǒng)自
19、動處理功能的同時,掃描人員根據(jù)原件的實際情況做相應的調整,如超大頁面的處理、紙張顏色深淺及薄厚的處理、掃描時可根據(jù)不同原件的情況,調整圖像的分辨率、閥值、明亮度以及掃描方式和掃描速度,確保在掃描圖像質量清晰的情況下,使原件完好無損。圖像的分辨率正常情況下為300dpi,如遇字間距和行行距過密、原件本身是復印件等字跡不清楚的情況,可適當增加掃描的分辨率但要保正圖像清晰的同時,又不影響遠程查詢和游覽的速度。6.9.5.1.掃描方式根據(jù)檔案幅面的大?。ˋ4、A3、A0等)選擇相應規(guī)格的掃描儀或專業(yè)掃描儀(如工程圖紙可采用0號圖紙掃描儀)進行掃描。大幅面檔案可采用大幅面數(shù)碼平臺,或者縮微拍攝后的膠片數(shù)
20、字化轉換設備等進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。紙張狀況較差,以及過薄、過軟或超厚的檔案,應采用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率。6.9.5.2.掃描色彩模式掃描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值。頁面為黑白兩色,并且字跡清晰、不帶插圖的檔案.可采用黑白二值模式進行掃描。頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁面為多色文字的檔案,可以采用灰度模式掃描。頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進行掃描。6.9.5.3.掃描分辨率掃描分辨率參數(shù)大小的選擇,原則上以掃描后的圖像清
21、晰、完整、不影響圖像的利用效果為準。采用黑白二值、灰度、彩色兒種模式對檔案進行掃描時,其分辨率一般均選擇大于或等于200dpio特殊情況下,如文字偏小、密集、清晰度較差等,可適當提高分辨率。需要進行OCR漢字識別的檔案,掃描分辨率建議選擇大于或等于30Odpio6.9.5.4.掃描登記認真填寫紙質檔案數(shù)字化轉換過程交接登記表單,登記掃描的頁數(shù),核對每份文件的實際掃描頁數(shù)與檔案整理時填寫的文件頁數(shù)是否一致,不一致時應注明具體原因和處理方法。6.9.6. 圖像處理XXXXXXXXXXXX檔案數(shù)字化工廠采用自動化處理和人工處理相結合的方式,確保圖像質量的完美。通過校對系統(tǒng)對圖像進行校對,確保圖像順序正確、去斑點、校驗。,在校對時發(fā)現(xiàn)不合格
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買賣高手游戲活動方案
- 樂高課程開學季活動方案
- 書香換購活動方案
- 書店五四創(chuàng)意活動方案
- 豐富員工活動方案
- 鄉(xiāng)鎮(zhèn)暑假擺攤活動方案
- 促進跨區(qū)域資源環(huán)境要素市場化配置協(xié)同發(fā)展
- 推動駕校智能化技術應用與發(fā)展
- 融資租賃公司的面臨的問題、機遇與挑戰(zhàn)
- 染色布生產項目規(guī)劃設計方案(模板范文)
- 醫(yī)患溝通技巧課件
- 2025年上半年四川瀘州川南發(fā)電限責任公司公開招聘15人高頻重點提升(共500題)附帶答案詳解
- 《海爾研發(fā)與質量》課件
- 信息安規(guī)(254題-含答案和解析)
- 《機械系統(tǒng)動力學》課件第六章 動力學專題
- 福建省廈門市(2024年-2025年小學六年級語文)部編版質量測試(下學期)試卷及答案
- 全國防災減災日培訓課件
- 學校德育工作手冊(組織機構 工作職責 流程 制度 要求)
- 醫(yī)藥健康安全
- 【MOOC】電子技術實習-北京科技大學 中國大學慕課MOOC答案
- 中學生守則40條
評論
0/150
提交評論