電 話:18937133779
網(wǎng) 址:http://oaoy.cn
郵 箱:zboao@qq.com
牡丹哥檔案數(shù)字化掃描是指在牡丹哥地區(qū)使用掃描儀或數(shù)字化設(shè)備等專業(yè)數(shù)碼掃描設(shè)備將紙質(zhì)文件的每個數(shù)據(jù)掃描成數(shù)字格式電子圖像的過程。數(shù)字化掃描能將紙質(zhì)檔案的數(shù)據(jù)信息存儲到云端服務(wù)器、計算機上,可以快速記錄、查看與共享。
掃描工序是整個數(shù)字化過程中比較重要的一道工序,主要任務(wù)就是將整理出來的紙質(zhì)檔案通過適合的數(shù)碼掃描方式生成高質(zhì)量的壓縮存儲處理的圖像文件,可以為接下來的工序提供最基本的的圖像數(shù)據(jù)。以下是掃描工序的各部分程序:
?。?)順序掃描紙質(zhì)檔案
工作人員順序?qū)⒓堎|(zhì)檔案放入掃描儀之中,進行掃描處理,生成數(shù)字化的圖像文件。程序?qū)呙枭傻膱D像數(shù)據(jù)會自動進行壓縮存儲。
?。?)工作人員應(yīng)該注意以下幾點:
1.掃描順序
掃描時,紙質(zhì)檔案的順序不能亂,需要按照一定的規(guī)則掃描,不能顛倒檔案的掃描順序。
?、诳刂祈樞驋呙璧募垙垟?shù)量
在掃描時,不要一次性放入大量(最好不要超過10張)的文件在送紙口,放入過多文件可能會發(fā)生過多文件重新掃描的情況,掃描發(fā)生錯誤,并且可以避免由于掃描儀一次進多張紙而漏掃紙張的情況發(fā)生。
③保證掃描圖像質(zhì)量
掃描工序必須嚴(yán)格把好圖像質(zhì)量的第一關(guān)。掃描出來的圖像質(zhì)量清晰、無傾斜,更不能出現(xiàn)一些嚴(yán)重錯誤如漏掃、圖像資料嚴(yán)重模糊不清
?、軝z查掃描頁數(shù)
一卷檔案掃描完成后,將紙張檔案的頁數(shù)和掃描生成的圖像頁數(shù)進行對比檢查,如果檢查出機器掃描的頁數(shù)與本身的頁數(shù)不同,則需視情況予以補掃描或重新掃描處理。
?、輽n案排序
掃描之后需要進行排序,是掃描加工流程中四級質(zhì)量監(jiān)控體系中的第一道檢查工序,主要功能是將掃描出來的圖像數(shù)據(jù)、錄入其索引數(shù)據(jù)項進行檢查核對。,
在排序工序中,掃描的檔案是按“檔案卷”建立索引數(shù)據(jù)項,即每一卷檔案有一條索引信息。排序工序的功能職責(zé)主要包括檢查圖像質(zhì)量、建立索引信息兩部分。
在牡丹哥進行檔案數(shù)字化掃描,根據(jù)掃描物的不同,需要選擇不同的掃描方式,以下是幾種常用的掃描方式:
1.平面掃描
這種掃描方式適用于可以二維靜態(tài)圖像形式展示的實物檔案,如獎狀、證書、印模等。
超出所使用掃描儀掃描尺寸的檔案可采用更大幅面掃描儀進行掃描,也可以采用小幅面掃描儀分幅掃描后進行圖像拼接的方式處理。分幅掃描時,相鄰圖像之間應(yīng)留有足夠的重疊,并且采用標(biāo)板等方式明確說明分幅方法;若后期采用軟件自動拼接的方式,重疊尺寸建議不小于單幅圖像對應(yīng)原件尺寸的1/3。
對于極其珍貴且尺寸不規(guī)則的檔案,為方便直觀顯示原件大小,可采用標(biāo)板、標(biāo)尺等方式標(biāo)識原件大小為最大限度保留實物檔案原件信息,便于多種方式的利用,宜全部采用彩色模式進行掃描。掃描色彩模式、掃描分辨率的選擇應(yīng)符合《紙質(zhì)檔案數(shù)字化規(guī)范》等相關(guān)標(biāo)準(zhǔn)的要求和建議。
2.三維掃描
三維掃描方式適用于可以三維立體影像形式展示的實物檔案,如獎杯、產(chǎn)品、標(biāo)本、工具設(shè)備等。
掃描實物檔案的紋理精細度總體應(yīng)符合以下要求:
1)圖像分辨率不低于100dpi,色調(diào)協(xié)調(diào)、自然真實;
2)紋理掃描后,數(shù)字化成果需用色卡進行對比矯正,應(yīng)保持其與實物檔案色彩一致。
3)應(yīng)拼接無縫,過渡自然;
4)應(yīng)真實反映實物檔案表面的顏色、質(zhì)地、形狀和圖案等,同一表面紋理應(yīng)協(xié)調(diào)一致;
5)應(yīng)進行糾正處理,減少視角或鏡頭畸變引起的變形,并消除眩光和陰影;
6)長寬像素數(shù)應(yīng)為2的N次方(N為自然數(shù)),紋理長寬比差異不應(yīng)過大;
3.數(shù)碼拍照
數(shù)碼拍照適用于可以二維靜態(tài)圖像形式展示的實物檔案,如獎牌、獎杯、錦旗等。數(shù)碼相機要采用彩色拍攝方式,拍攝精度不低于1600萬像素。
拍攝時,一是選擇中焦距以上鏡頭拍照并盡量保持水平,避免圖像變形;二是要將照相機設(shè)置成無時間顯示格式的畫面;三是注意布光均勻;四是將拍攝主題充滿影像畫面;五是對具有規(guī)則形狀的實物檔案,分別從正視、側(cè)視、俯視等多角度進行拍攝。
實物檔案數(shù)字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據(jù)實際應(yīng)用的需求而定。
實物檔案數(shù)字圖像利用時,也可從網(wǎng)絡(luò)瀏覽速度、易操作性、存儲空間占用等方面進行綜合考慮,將圖像轉(zhuǎn)換為OFD、PDF等其他格式。同一種拍攝方式應(yīng)采用相同的存儲格式。
4.環(huán)物攝影
環(huán)物攝影適用于以三維全景影像形式展示的實物檔案,如生產(chǎn)工具、設(shè)施設(shè)備等大型實物檔案。
對實物檔案進行環(huán)物攝影時應(yīng)注意的事項有:
1)應(yīng)注意鏡頭與被攝實物檔案表面保持正射,攝影人員根據(jù)需要使用數(shù)碼單反相機、攝影機、魚眼鏡頭、全景云臺、三腳架、航拍無人機等專業(yè)設(shè)備對實物檔案進行360度全景拍攝,實物檔案的特征點不應(yīng)遺漏;
2)焦距一經(jīng)設(shè)定,直至照片全部拍完方可修改,且應(yīng)保持每30°一個拍攝角度進行拍攝。
3)拍攝時應(yīng)選擇合適的曝光模式,保證每張照片的曝光參數(shù)相同、色調(diào)統(tǒng)一;
OCR技術(shù)在牡丹哥檔案數(shù)字化中運用,主要過程是把紙質(zhì)載體檔案的信息內(nèi)容利用高速掃描儀轉(zhuǎn)換成計算機能識別的圖像文件,如JPG、TIF或合成多頁的PDF文件,再利用OCR軟件的字符識別功能將編輯不了的數(shù)字文件中的每個字符與標(biāo)準(zhǔn)的漢字?jǐn)?shù)據(jù)庫中字符對比,截取相同形狀的字符并保存在文本編輯軟件中,保持能編輯的狀態(tài),并可以進行自動標(biāo)引或運用各類數(shù)據(jù)庫軟件的搜索引擎針對字符搜索,以達到檔案信息的全文檢索。
在實際檔案全文數(shù)字化過程中一般先把一份文件掃描成多頁JPG、TIF或PDF文件,再運用OCR軟件識別并判斷識別效果,并進行必要的調(diào)整和修復(fù)就可以到達全文數(shù)字化的要求。在掃描生成頁面后,OCR技術(shù)針對印刷體的頁面文件一般識別率可達98%以上,在自動糾錯、人工校對后,基本符合檔案數(shù)字化的要求。從掃描和識別的速度分析,一般中檔掃描儀每分鐘掃描在40-60頁面左右,配合主流OCR識別軟件以及處理、分析、校對每頁檔案全文數(shù)字化用時在1分鐘以內(nèi),裝訂50個頁面的案卷數(shù)字化時間在30分鐘左右。與人工單字符輸入法相比,工作效率提高近十倍,工作強度成倍減少。運用OCR識別技術(shù)進行檔案全文數(shù)字化,工作人員可以長時間連續(xù)工作,而純?nèi)斯ぽ斎脒B續(xù)工作的后果是差錯率的居高不下,從而影響檔案信息全文的檢索和使用。
牡丹哥牡丹哥檔案數(shù)字化掃描的掃描工序處理的非常嚴(yán)謹(jǐn),需要工作人員持續(xù)注意相關(guān)事項。進行牡丹哥檔案數(shù)字化掃描的方式也大不相同,對于不同的情況選擇合適的方式,才能讓掃描工作的成果更加的突出。掃描經(jīng)常用的OCR也是一個重點需要充分了解這個技術(shù)才能更好的進行掃描。