電 話:18937133779
網(wǎng) 址:http://oaoy.cn
郵 箱:zboao@qq.com
掃描方式要根據(jù)檔案幅面的大小(A4、A3、A0)選擇相應規(guī)格的掃描儀和專業(yè)掃描儀(如工程掃描可采用0號圖紙掃描儀)進行掃描。
大幅面檔案可以采用大幅面數(shù)碼平臺,或者用縮微拍攝后的膠片數(shù)字化轉(zhuǎn)換設備進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。如果紙張較長但幅面不超過A3,可采用掃描儀長紙掃描功能,根據(jù)紙張狀況設定合適的掃描幅長即可。
紙張較差的情況,或者過于薄、過軟、超厚的檔案,可采用平板掃描方式。紙張狀況較好的檔案可采用高速掃描的方式進行掃描,以提高工作效率。
紙張比較薄的檔案(如信紙、便箋紙)容易破損且透光,應采用中、低檔進行掃描。
紙張如有破損,可將破損紙張夾人透明塑料薄膜內(nèi),調(diào)整掃描儀進紙為厚紙模式并采用中、低檔進行掃描,如破損嚴重且不平整,采用平板掃描儀來完成。下面以圖檔易掃通掃描軟件為例,作以詳細介紹。見圖1掃描作業(yè)平臺。
(1)掃描色彩模式
掃描色彩模式一般分為黑白二值、灰度、彩色等,通常采用黑白二值。頁面為黑白兩色,并且字跡清晰、不帶插圖的檔案,可采用黑白二值模式進行掃描。
頁面為黑白兩色,但字跡清晰度差或者帶有插圖的檔案,以及頁面為多色文字的檔案,可采用灰度模式掃描。
頁面中帶有紅頭、印章或者插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進行掃描。
底灰較深的紙張(如草漿紙、油印紙),如采用黑白二值應將掃描對比度及亮度適當調(diào)低,調(diào)節(jié)效果不理想則采用灰度掃描。
字跡較淺(如鉛筆字)的紙張:如采用黑白二值掃描應調(diào)節(jié)臨界值,拉大字跡與原稿的反差,效果不理想則采用灰度掃描。見圖2掃描色彩模式。
(2)掃描分辨率
掃描分辨率參數(shù)大小的選擇,原則上是以掃描后的圖像清晰、完整、不影響圖像的利用效果為準。為了方便以后OCR識別,掃描分辨率建議選擇大于等于300dpi。一般情況下,分辨率越高識別率也就會越高。但這也不是絕對的,對于一些過大過粗的字體,設置過高的分辨率,識別率可能會降低,而且設置高分辨率后,掃描速度會大大降低。見圖3掃描分辨率選擇。
(3)亮度和對比度
在掃描過程中,適當?shù)卣{(diào)整好掃描儀的亮度和對比度值,對識別率的高低影響比較大,在進行掃描亮度和對比度的設定時,以掃描后的圖像中文字的筆畫較細、均勻,且沒有明顯斷點為準。如果掃描后的文字圖像存在有黑點、黑斑或者文字線條很粗很黑,分不清楚筆畫的情況下,說明亮度值太小,應該增加亮度值再重新掃描。如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓殘缺時,說明亮度太大,應減小亮度后再重新掃描。
(4)掃描登記
認真填寫紙質(zhì)檔案數(shù)字化掃描過程中交接登記表單,登記掃描的頁數(shù),核對每份文件的實際掃描頁數(shù)和檔案整理時填寫的文件頁數(shù)是否一致,不一致時應注明具體原因和處理方法。
數(shù)字檔案的整理和掃描
(一)檔案整理
在掃描之前,根據(jù)檔案管理情況,按下述步驟對檔案進行適當整理,并視需要作出標識,確保檔案數(shù)字化質(zhì)量。
1、目錄數(shù)據(jù)準備
按照《檔案著錄規(guī)則》(DA/T 18)等的要求,規(guī)范檔案中的目錄內(nèi)容,包括確定檔案目錄的著錄項、字段長度和內(nèi)容要求。如有錯誤或不規(guī)范的案卷題名、文件名、責任者、起止頁號和頁數(shù)等,應進行修改。
2、拆除裝訂
在不去除裝訂物情況下,影響掃描工作進行的檔案,應拆除裝訂物;將檔案原件的裝訂線拆除,排好順序,不得出現(xiàn)任何漏缺頁及順序差錯,更不能對檔案原件有任何損壞。
3、區(qū)分掃描件和非掃描件
按要求把同一案卷中的掃描件和非掃描件區(qū)分開。普發(fā)性文件區(qū)分的原則是:無關的重份的文件要剔除,有正式件的文件可以不掃描原稿。
4、頁面修整
對破損嚴重、無法直接進行掃描的檔案,應先進行技術(shù)修復、裱糊;
折皺不平影響掃描質(zhì)量的原件應先進行相應處理(壓平或燙平等)后再進行掃描。
5、檔案整理登記
制作并填寫紙質(zhì)檔案數(shù)字化加工過程登記表,詳細記錄檔案整理后每份文件的起始頁號和頁數(shù)。
?。ǘn案掃描
1、掃描方式(掃描前必須準備一臺專業(yè)的平板掃描儀)
根據(jù)檔案幅面的大小(A4、A3、AO等)選擇相應規(guī)格的掃描儀或?qū)I(yè)擔描儀,如
工程圖紙可采用0號圖紙掃描儀進行掃描。
普通A4紙質(zhì)文件,采用高速掃描儀的自動進紙方式掃描;
紙質(zhì)過薄、透明的(如信紙、便簽紙)采用高速掃描儀的平板掃描;
紙質(zhì)過厚、照片等檔案采用高速掃描儀的平板掃描;
對文件頁面貼有附屬小頁面、紙張時,將大小頁面單獨在平板中掃描;2、掃描模式(紙質(zhì)檔案掃描一般采用黑白、灰度和彩色三種模式)
頁面為黑白兩色,字跡清晰的、不帶圖片的檔案材料,采用黑白方式;
頁面為黑白兩色,清晰度較差或者帶有圖片的檔案材料,以及頁面多為彩色文字的檔案,采用彩色或灰度模式(因情況而定);
頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,采用彩色模式掃描。
3、分辨率選擇
采用黑白、256級灰度模式掃描的文件,其分辨率選擇為不小于300DPI;
采用24位為彩色模式掃描的文件,其分辨率選擇為不小于200DPI。(以上模式分辨率的設定以A4紙張為標準,其他規(guī)格紙張酌情處理)
掃描的線數(shù)、閥值、亮度、灰度、對比度等值可根據(jù)所掃描文件材料的清晰度進行適當?shù)恼{(diào)整;
需要時可根據(jù)原件的清晰度適當調(diào)整掃描分辨率。如原件質(zhì)量較差且尺寸較小,可適當提高分辨率;反之也可相應減少分辨率,增減的多少以掃描后圖像按原尺寸顯示后是否清晰為準;
粘貼折頁與表格,對于粘貼折頁,可用大幅面掃描儀掃描,或先部分掃描后拼接;對部分字體很小、字跡密集的情況,可適當提高掃描分辨率,選擇灰度掃描或彩色掃描,采用局部深化技術(shù)解決;對字跡與表格顏色深度不同的,采用局部淡化技術(shù)解決。
4、掃描登記
填寫交接登記表,登記掃描的頁數(shù)。核對每份文件的實際掃描頁數(shù)與檔案整理時填寫的文件頁數(shù)是否一致,不一致時應注明具體原因和處理方法。
檔案數(shù)字化掃描方式
掃描的方式根據(jù)檔案紙張的大小和狀態(tài)進行選擇,小幅面的可以選擇相應規(guī)格的掃描儀,大幅面的則選擇大幅面數(shù)碼平臺,或者掃描微縮處理后的膠片,或者進行圖像拼接。紙張狀態(tài)較好時,可以選擇高速掃描的方式;如有紙張破損或非常規(guī)薄、軟、厚的情況,則需采用平板掃描儀。
1掃描色彩模式
掃描色彩模式一般有二值、灰度以及彩色,第一種方式選擇得比較多。一般情況下黑白兩色、字跡清晰的純文本檔案可以采用黑白二值模式掃描,若字跡不清或帶有插圖則可以選擇灰度模式。帶有紅頭、印章或者其他顏色以及插圖的檔案,可以用彩色模式掃描。紙張底色較深的檔案,在使用二值模式時,可以把對比度和亮度調(diào)低,成品不清晰時可以改用灰度掃描。
2掃描分辨率
以掃描成果清晰完好且不影響后續(xù)電子檔案的利用為前提,來確定掃描分辨率。通常,分辨率與成果識別率呈正相關。但如果檔案文字過大或過粗,高掃描分辨率可能會造成識別率和掃描速度雙雙降低,對檔案數(shù)字化工作進度造成影響。
3掃描亮度及對比度
作業(yè)過程中,需要適當調(diào)節(jié)掃描儀的亮度以及對比值。具體以掃描亮度和對比度不影響掃描后文字及圖像筆畫清晰、粗細均勻,沒有過大斷點為準。如果掃描后的電子檔案存在噪點、黑斑或者文字線條過粗導致筆畫無法辨認的情況,這代表檔案掃描時選擇的亮度值過小,應該進行適當提高后重新進行掃描。如果文字線條出現(xiàn)較多斷點甚至文字殘缺,說明亮度過高,應調(diào)低后重掃。
4掃描過程登記
掃描過程中需要仔細填寫紙質(zhì)檔案數(shù)字化登記交接單,對于掃描文件頁數(shù)進行登記,核實每份掃描文件的實際頁數(shù)和掃描后電子文件的頁數(shù)一致。如出現(xiàn)二者不一致的情況,應在登記表內(nèi)寫明原因和相應的舉措。
檔案數(shù)字化與掃描技術(shù)
檔案數(shù)字化實現(xiàn)文本的輸入,主要是采用掃描方式將紙質(zhì)的文件與檔案轉(zhuǎn)換為數(shù)字化的形式。掃描加工是通過中高速掃描儀和專用掃描軟件將整理和分檢好的檔案資料批量轉(zhuǎn)化成圖像文件,并自動實現(xiàn)圖像壓縮存儲的過程。
(一)國家規(guī)范中的有關標準
檔案數(shù)字化直接標準除《電子文件歸檔與管理規(guī)范》外,就是《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》。這一技術(shù)規(guī)范指出,“掃描應該根據(jù)檔案幅面的大小選擇相應規(guī)格的掃描儀或?qū)I(yè)掃描儀進行掃描。大幅面檔案可采用大幅面數(shù)碼平臺,或者縮微拍攝后的膠片數(shù)字化轉(zhuǎn)換設備等進行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。”另外,“紙張狀況較差,以及過薄、過軟或超厚的檔案,應采用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率?!?/p>
掃描色彩模式一般有黑白二值、灰度、彩色等,通常采用的是黑白二值。具體又細分為三種:“頁面為黑白兩色,并且字跡清晰、不帶插圖的檔案,可采用黑白二值模式進行掃描。頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁面為多色文字的檔案,可采用灰度模式掃描。頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進行掃描?!?/p>
掃描分辨率參數(shù)大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準。因為高分辨率容易使文件遭到復制,基于此,國家規(guī)范中規(guī)定采用黑白二值、灰度、彩色幾種模式對檔案進行掃描時,其分辨率一般均選擇≥100dpi。如遇到文字偏小、密集、清晰度較差等特殊狀況,則可以適當提高分辨率。而需要進行OCR漢字識別的檔案,掃描分辨率一般建議選擇≥200dpi。
(二)實際操作中的做法
實際工作中,檔案部門根據(jù)檔案本身不同情況,一般都采用各類掃描儀進行掃描,數(shù)碼相機則較少使用。另外,實際掃描中受檔案狀況或掃描設備所限,也存有一些暫時無法進行數(shù)字化轉(zhuǎn)換的檔案,如紙張過于破損、發(fā)脆,或者某些尺寸過大的圖紙等。而這些只能等待設備或者技術(shù)的更進后才可以解決。
色彩模式的選擇是依據(jù)現(xiàn)有的設備以及檔案本身狀況而定的,可以遵守循序漸進的原則。比如杭州市檔案館在進行紙質(zhì)檔案數(shù)字化時,一期以黑白掃描為主,二期對紅頭文件及其他帶有紅章的文件進行彩色掃描,三期則全部進行彩色掃描。無疑,彩色掃描的層次更加豐富,清晰度更高,可以更真實地顯示檔案原貌。
分辨率的選擇與設備關系很大,在不同地區(qū)、不同部門也有所差別。如杭州市檔案館在紙質(zhì)檔案數(shù)字化的一期工程中,就將掃描分辨率定為300dpi,浙江省檔案館的數(shù)字化掃描分辨率一般在200~300dpi左右,有的高達600dpi;而在一些設備相對比較落后的部門與地區(qū),其掃描分辨率大都是按照國家規(guī)范來設定的,甚至于很多部門還達不到200dpi。分辨率越高,掃描后的圖像就越清晰,但同時必須考慮到圖像文件的大小。
(三)掃描技術(shù)發(fā)展趨勢
掃描技術(shù)中最主要的是色彩模式選擇和分辨率選擇。
色彩模式無疑會朝著彩色掃描發(fā)展,而分辨率的選擇需要根據(jù)實際業(yè)務進行靈活設置。一般情況下,為了滿足網(wǎng)絡化查詢利用,黑白圖像采用200dpi就可以滿足要求,彩色圖像的掃描分辨率還可以低一些,具體參數(shù)可以根據(jù)掃描清晰度和質(zhì)量因素進行綜合選擇。對于一些特殊的利用如承辦展覽等可以采用較高的掃描分辨率來進行。值得注意的是,分辨率的選擇既不可過低,也不可過高。如福建曾采用了50dpi的掃描分辨率,雖然容量小、費用低,但是根本無法實現(xiàn)上網(wǎng)查詢利用,等于做了無用功;另一方面,如果一味追求過高的分辨率,則會導致容量過大,對于網(wǎng)上資源的傳播也是一種負擔。
檔案數(shù)字化后還要考慮文字識別(OCR)的運用,一般來說,文字識別主要用于全文檢索之用,而非真正將掃描后的圖像文件還原為文檔,因而,就這一點看,不要以OCR的識別率來設置掃描分辨率,《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》建議需要OCR識別的圖像文件,分辨率≥200dpi,這是一個比較中性的標準。