電 話:18937133779
網(wǎng) 址:http://oaoy.cn
郵 箱:zboao@qq.com
紙質(zhì)檔案掃描主要是指采用檔案掃描儀等專業(yè)設備對紙質(zhì)檔案進行掃描,要求一頁一頁、一件一件、一個年度一個年度進行有序化加工。
紙質(zhì)檔案數(shù)字化加工流程進入實質(zhì)性操作階段——檔案掃描,是實現(xiàn)紙質(zhì)檔案數(shù)字化高質(zhì)量的關(guān)鍵階段。掃描人員需要掌握一定的操作技術(shù)和方法,充分掌握合格圖像的標準要求。
1.掌握標準要求。做好工作標準先行,紙質(zhì)檔案數(shù)字化加工工作同樣要在標準規(guī)范的指導下進行。既不要為了節(jié)省存儲空間降低標準,也不要不顧實際需要一味地提高標準。具體標準應該包括但不限于全年度歸檔紙質(zhì)檔案全部掃描,圖像按檔案排列順序依次掃描,每一件每一頁紙質(zhì)檔案與掃描后形成的數(shù)字圖像一一對應,每一件檔案圖像首頁應含有歸檔章,各頁有正確的頁碼標識,每一頁圖像要字跡清楚、圖像完整、方向正確符合閱讀習慣,圖像明暗度要適中、圖像盡可能反映檔案原貌等。
2.掌握操作方法。在未實現(xiàn)完全電子化辦公情況下,紙質(zhì)檔案的數(shù)字化掃描任務是相當繁重的,要做好此項工作,操作人員需掌握一定的掃描操作和圖像處理的技術(shù)方法。
掃描操作:檔案掃描儀與計算機連接,安裝驅(qū)動和掃描軟件后即可使用。工作人員要能夠?qū)n案掃描儀操作方法及掃描儀參數(shù)的設置熟練掌握和使用。掃描操作說起來并不復雜,就是將紙質(zhì)檔案放入掃描儀、掃描、將檔案拿出掃描儀。但是這里還是強調(diào)不要急于掃描,在掃描前一定要對掃描方式、掃描色彩模式、掃描分辨率、圖像存儲格式進行判斷和設置,其依據(jù)為《紙質(zhì)檔案數(shù)字化規(guī)范》及《紙質(zhì)檔案數(shù)字化工作指南》中的相關(guān)要求。目前市場上有平板式掃描儀、滾筒式掃描儀、頂置式掃描儀等,應根據(jù)需要和檔案的紙張質(zhì)量進行選擇,有條件的話最好選用專業(yè)的非接觸式檔案掃描儀。掃描色彩模式在《紙質(zhì)檔案數(shù)字化規(guī)范》中推薦全部采用彩色模式掃描,而色彩往往又與圖像存儲格式關(guān)聯(lián),彩色圖像通常存儲的格式為JPG,若存儲為TIFF格式占用空間相對會大。掃描分辨率是影響檔案直觀效果的重要參數(shù),規(guī)范中規(guī)定最低為200dpi,要實現(xiàn)OCR識別的則需要300dpi以上。在確定好以上參數(shù)的基礎(chǔ)上再進行亮度和對比度的微調(diào)。
圖像處理:規(guī)范中要求掃描圖像盡可能反映檔案原貌,但在掃描過程中受檔案紙張幅面、紙質(zhì)粗糙程度、字跡洇散、顏色不均等因素影響,可能出現(xiàn)圖像一次掃描不全、燥點過多過大、字跡深淺不一、發(fā)白偏暗、圖像倒置等質(zhì)量問題,出現(xiàn)這些情況就需要進行圖像處理操作,一般需要采用專門的圖像處理軟件來實現(xiàn),一般可以采用PS軟件,也有一些專業(yè)的檔案掃描儀自帶非常實用的圖像處理軟件,能夠完成圖像拼接、圖像去污、裁邊、旋轉(zhuǎn)及糾偏等圖像處理工作,使圖像完整、整潔、端正。
檔案數(shù)字化工作是當前及今后一段時間檔案工作的重要內(nèi)容之一,這一工作說起來容易做起來則需要很大的細心和耐心,但只要掌握具體規(guī)范,并在工作中積極總結(jié)經(jīng)驗,都能夠把這項工作很好地完成。
遼寧省檔案數(shù)字化掃描范圍規(guī)定
檔案數(shù)字化掃描范圍規(guī)定是指對于進行數(shù)字化掃描的檔案材料、文件或記錄所做的明確規(guī)定和界定。這些規(guī)定通常由相關(guān)機構(gòu)、法律法規(guī)、政府文件和指南、行業(yè)標準以及最佳實踐等制定,并用于指導數(shù)字化掃描的實施。
1.掃描對象:規(guī)定了可以進行數(shù)字化掃描的具體檔案對象,如文件、卷宗、盒、冊、卡片等。
2.檔案類型:規(guī)定了可以進行數(shù)字化掃描的檔案類型,如紙質(zhì)檔案、照片、繪圖、音頻錄音等。
3.檔案來源:規(guī)定了數(shù)字化掃描適用的檔案來源,如機構(gòu)內(nèi)部產(chǎn)生的檔案、外部機構(gòu)提供的檔案、個人捐贈的檔案等。
4.數(shù)字化要求:規(guī)定了數(shù)字化掃描的具體技術(shù)要求,如分辨率、圖像格式、顏色模式、文件命名規(guī)則等。
5.鑒定標準:規(guī)定了檔案是否適合進行數(shù)字化掃描的鑒定標準,如檔案的保存狀態(tài)、材質(zhì)特性、保密性要求等。
6.政府文件和指南:政府機構(gòu)可能發(fā)布文件或指南,提供有關(guān)檔案數(shù)字化掃描的準則和要求。這些文件可以包括掃描標準、數(shù)據(jù)安全要求、檔案分類規(guī)范等內(nèi)容。
7.法律法規(guī):某些國家或地區(qū)可能有特定的法律法規(guī),明確了檔案數(shù)字化掃描的范圍和要求。這些法律法規(guī)可以包括檔案管理法、數(shù)字化檔案法、隱私保護法等。
8.行業(yè)標準和最佳實踐:專業(yè)機構(gòu)或組織可能制定了與檔案數(shù)字化掃描相關(guān)的行業(yè)標準和最佳實踐。這些標準可以提供關(guān)于掃描設備、圖像質(zhì)量、元數(shù)據(jù)描述等方面的指導。
9.其他限制條件:規(guī)定了數(shù)字化掃描的限制條件,如涉及隱私保、版權(quán)要求等。
總之,檔案數(shù)字化掃描范圍規(guī)定為檔案數(shù)字化掃描范圍從概念上界定,并提供了操作指南和準則,以確保利用專久智能檔案管理系統(tǒng)進行數(shù)字化掃描時符合相關(guān)要求,保護檔案的完整性、可訪問性和安全性,幫助機構(gòu)和個人在數(shù)字化檔案管理中明確目標、規(guī)劃程序并進行操作。
遼寧省檔案掃描的OCR技術(shù)
信息時代,檔案數(shù)字化已成為檔案工作的重中之重,紙質(zhì)檔案掃描工作在各地如火如荼地進行。然而,掃描所產(chǎn)生的電子檔案實際上只是以圖像形式存在的文件,而非真正意義上的文本文件。也就是說,計算機只認識檔案的外表,卻不認識其內(nèi)在文字。用戶通過計算機只能看到檔案的原貌,卻不能對其中的內(nèi)容進行引用、檢索等操作,這無疑對將來的電子檔案利用工作造成了很大的不便??紤]到檔案用戶的利用需求,若要得到真正文本形態(tài)的電子檔案,使檔案數(shù)字化工作更加有效、更加徹底,便要應用到OCR技術(shù)。
OCR技術(shù)相對于傳統(tǒng)的手工錄入方式來說,具有強大的優(yōu)勢。首先,OCR文字識別的速度遠快于手工錄入。根據(jù)國際通行的打字速度評級標準,即使是專業(yè)人員,每分鐘也僅能輸入150~240個字。而采用OCR技術(shù),即使算上前后期的處理環(huán)節(jié)所花時間,其速度也絕對比前者快好多倍。其次,OCR文字識別的質(zhì)量遠高于手工錄入。雖然由于各種因素影響,OCR技術(shù)的識別率很難達到100%,但比起大批量手工錄入,其出錯率要小得多。最后,OCR還節(jié)省了大量人力資源,優(yōu)化了資源配置,使人員分配于更加有意義的工作。對于檔案數(shù)字化工作來說,云脈OCR技術(shù)除了具有以上幾個普遍的優(yōu)勢之外,還有以下獨特核心功能:
1、AI文字識別技術(shù)及欄目識別技術(shù):識別率領(lǐng)先、速度快。
2、AI智慧檢索:任意關(guān)鍵字全文模糊檢索、匹配結(jié)果圖像高亮標識。搜索精度高、秒出。
3、AI圖像處理技術(shù):自動切邊、傾斜校正、圖像增強美化、壓縮、導出。
4、AI智慧糾錯:自動標注可能錯字,相似字及前后聯(lián)想字用以快速糾錯。
方便用戶異地檢索、復制引用。從而深化用戶對檔案內(nèi)容的查詢與利用,拓寬其利用面。檔案也能像圖書、情報一樣成為人們?nèi)粘I钪蝎@取信息、利用信息、增加學識的手段使檔案多方面地服務于公眾。
遼寧省檔案掃描公司檔案數(shù)字化項目的驗收
檔案數(shù)字化項目驗收的內(nèi)容包括合同履約情況、檔案整理情況、檔案目錄數(shù)據(jù)、數(shù)字圖像、元數(shù)據(jù)、數(shù)字化工作中產(chǎn)生的工作文件、存儲載體等。
1.合同履約情況
是否按照招標文件、合同的要求完成項目的工作任務,完成工作量的90%以上可以視為完成任務。
2.檔案整理情況
各門類檔案是否按照相應的整理規(guī)范進行整理,歸檔范圍明確,保管期限區(qū)分準確,裝訂、裝盒符合相關(guān)標準,檔號章、背脊填寫規(guī)范等。
3.檔案目錄數(shù)據(jù)
按照《檔案著錄規(guī)則》等標準進行著錄條目數(shù)據(jù),包括數(shù)據(jù)庫中各條目的內(nèi)容、格式等的準確程度、必填項是否填寫等。
4.數(shù)字圖像
按照《紙質(zhì)檔案數(shù)字化規(guī)范》等標準進行數(shù)字化掃描,包括數(shù)字化參數(shù)、存儲路徑、命名的準確性、圖像的完整性、排列順序的準確性、圖像質(zhì)量等。
5.元數(shù)據(jù)
元數(shù)據(jù)的獲取,元數(shù)據(jù)元素的完整性和賦值規(guī)范性等。
6.數(shù)據(jù)掛接
包括目錄數(shù)據(jù)與其對應的數(shù)字圖像的掛接的準確性等。
7.工作文件
各種工作文件、日志、記錄等,包括工作文件的完整性、規(guī)范性等。
1)檔案數(shù)字化過程中形成的各種數(shù)字化工作文件、記錄,工作流程單、前處理工作單、掃描工作單、圖像處理工作單、數(shù)據(jù)錄入工作單等;
2)各種工作人員名單、訪客名單、設備登記表、安全審查報告、保密承諾書、檔案交接單、項目驗收報告等。
8.存儲載體
數(shù)字化加工的各種存儲介質(zhì),移交的成果存儲介質(zhì),主要包括載體的可用性、有無病毒、按照規(guī)定標準進行存儲等。