電 話:18937133779
網(wǎng) 址:http://oaoy.cn
郵 箱:zboao@qq.com
小時候,我們總會被問到長大后要做什么,只是走著走著,那么多人在長大的路上迷失了最初的夢想。不是現(xiàn)實太骨感,是因為缺少了切實可行的計劃和步驟!任何目標(biāo),都需要一步步有序地分解落實,才能達到想要的結(jié)果,在檔案數(shù)字化加工過程中,想要完成紙質(zhì)檔案數(shù)字轉(zhuǎn)化,提高檔案查詢效率,實現(xiàn)檔案信息共享,邢臺電子檔案加工離不開六大核心步驟:
邢臺電子檔案加工
1、檔案整理
檔案工作人員拿到檔案后,首先要對檔案進行分類整理,包括對檔案進行統(tǒng)一編號,核對檔案頁碼,粘貼頁撕開,頁號編寫有誤的重新編號,對可拆訂的做拆訂處理,以便掃描時的批次處理。
如果發(fā)現(xiàn)折皺不平影響后期掃描質(zhì)量的文件,應(yīng)進行相應(yīng)處理;如果文件存在破損,應(yīng)先進行技術(shù)修復(fù)并做好標(biāo)注;對于文件破損嚴重不能修復(fù)掃描的應(yīng)做好區(qū)分標(biāo)注。
2、著錄標(biāo)引
將整理后的檔案,按照國家標(biāo)準(zhǔn)《檔案著錄規(guī)則》結(jié)合用戶檔案著錄的具體要求,將案卷目錄和卷內(nèi)目錄的原始數(shù)據(jù)、主題標(biāo)引、分類標(biāo)引錄入到軟件數(shù)據(jù)庫里。要求人工錄入結(jié)合校對,校對以軟件校對和打印輸出、對比較對相結(jié)合。按照原件實體檔案條目,對錯誤檔案目錄數(shù)據(jù)修改和補充的數(shù)據(jù),須填寫更改資料并放入案卷內(nèi),卷內(nèi)目錄不全的需補充完整。
檔案著錄標(biāo)引,即檔案前處理工作,是建立手工和機讀檢索系統(tǒng)的基礎(chǔ),是實現(xiàn)檔案檢索工作的中心環(huán)節(jié)。
涵妍檔案數(shù)字化加工采用“兩錄一?!?,就是由兩名員工,兩臺電腦分別錄入同一卷檔案,由第三人根據(jù)兩次錄入的結(jié)果進行質(zhì)檢,錄入后的目錄應(yīng)與紙質(zhì)檔案內(nèi)容一致,并最終形成案卷目錄和卷內(nèi)文件目錄,要求錄入目錄信息正確率達到95%以上。
3、檔案掃描
檔案掃描是紙質(zhì)檔案實現(xiàn)數(shù)字轉(zhuǎn)化的關(guān)鍵步驟。原件的掃描與存儲格式應(yīng)完全按照國家檔案管理的統(tǒng)一標(biāo)準(zhǔn)要求掃描,對實際掃描卷數(shù)、每卷的頁數(shù)要做好登記。
檔案數(shù)字化掃描質(zhì)量標(biāo)準(zhǔn)
·原檔案每頁掃描形成的電子必須完整齊全。
·掃描形成的電子不能傾斜,必須平整。
·掃描形成的電子不能有黑邊,不能有噪點。
·原檔案頁不缺邊不殘邊,掃描形成的電子不能缺邊不能殘邊。
·掃描前錄入的檔案電子信息必須與原檔案信息一致,避免錄入錯字、別字。
·保持掃描儀玻璃面潔凈無粉塵,鍵盤要及時清理碎屑。
·掃描影像要保持字跡清晰、不失真、不留文字版面外的陰影、無干擾信息。
·掃描留下的墨跡寬度不得超過0.5厘米,并且指印和黑色不能覆蓋或影響正文內(nèi)容。
掃描方式
根據(jù)檔案的質(zhì)量、檔案幅面的大小、掃描量等選擇相應(yīng)規(guī)格的掃描儀(參見文章《掃描儀檔案數(shù)字化工作跨不過的?!罚┻M行掃描,大幅面可采用大幅面掃描儀或者圖像拼接方式處理,同一頁面有兩個以上文件,需分別掃描。掃描影像的順序應(yīng)與紙質(zhì)檔案的檔號、目錄、文件順序排列一致。
”
掃描模式
根據(jù)檔案實際情況,以彩色模式及黑白二值掃描為主,原件分明度很低的檔案,可視情況采用彩色模式,予以調(diào)整亮度、對比度。
”
分辨率設(shè)置
無全文檢索需求的文檔分辨率設(shè)置為200dpi比較合適,需要OCR識別全文檢索的文檔,黑白二值掃描分辨率設(shè)置為400dpi最佳(此分辨率下識別成功率最高),如遇字間距過密或原件本身是復(fù)印件等字跡不清晰的情況,可適當(dāng)增加掃描的分辨率,要在保證圖像清晰的同時,不影響過遠程查詢和瀏覽的速度。
為了規(guī)范化流程及管理,涵妍檔案數(shù)字化加工對此作了明確規(guī)定:紙質(zhì)檔案掃描影像文件的精度為300dpi,照片黑白影像文件的精度為400dpi,照片彩色影像文件的精度為600dpi,底片影像文件的精度為4000dpi。
”
存儲格式
紙質(zhì)檔案數(shù)字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據(jù)實際應(yīng)用的需求而定。紙質(zhì)檔案數(shù)字圖像利用時,可將圖像轉(zhuǎn)換為PDF等其他格式便于網(wǎng)絡(luò)瀏覽。同一批檔案應(yīng)采用相同的存儲格式。
涵妍檔案數(shù)字化加工根據(jù)檔案性質(zhì)不同對于存儲格式作了如下規(guī)定:紙質(zhì)檔案掃描影像文件存儲格式為JPEG格式影像文件,75%壓縮比;該存儲格式為過濾格式,用于后期制作PDF格式文件。照片檔案及特殊檔案掃描存儲格式為JPEG圖像文件,不壓縮。
”
文件大小
黑白二值掃描A4、A3頁面,大小20-40k為宜;灰度或彩色掃描A4、A3頁面,大小100-150k為宜。
”
文件命名
應(yīng)以檔號為基礎(chǔ)對數(shù)字圖像命名,圖像命名方式的選擇應(yīng)確保圖像命名的唯一性,確保數(shù)據(jù)掛接的準(zhǔn)確性。
”
4、圖像檢查和處理
掃描完成后,應(yīng)采用自動化處理和人工處理相結(jié)合的方式,逐張檢查圖像質(zhì)量,包括圖像順序與檔案原件是否一致,有無漏掃、重張等情況,圖像有無黑邊、折角以及圖像偏斜度、清晰度、失真度等,發(fā)現(xiàn)不符合圖像質(zhì)量要求時及時進行調(diào)整改正,確保圖像順序正確、質(zhì)量完美。
糾偏
保證數(shù)字圖像偏斜不超過頁面內(nèi)半個文字,偏斜角度小于1度。對于方向不正確的圖像應(yīng)進行旋轉(zhuǎn)還原,以符合閱讀習(xí)慣。
”
去污
以展現(xiàn)數(shù)字圖像原貌為原則,清除所有掃描留下的黑色、指印、陰影或污點等。
”
圖像拼接
對大幅面檔案進行分區(qū)掃描形成的多幅圖像,應(yīng)進行拼接處理,合并為一個完整的圖像,以保證檔案數(shù)字化圖像的整體性和可讀性。
”
清晰度調(diào)整
如果原始檔案的字跡不清楚或者文字較深、較淺,可以通過調(diào)整亮度和對比度以提高圖像的清晰度,確保文字及圖像信息清晰可辨。
”
裁邊處理
采用彩色模式掃描的圖像應(yīng)進行裁邊處理,去除多余的白邊,保證與原始文檔的一致性。
”
由于操作不當(dāng),造成掃描的圖像文件不完整或無法清晰識別時,應(yīng)重新掃描;發(fā)現(xiàn)文件漏掃時,應(yīng)及時補掃并正確插入圖像;發(fā)現(xiàn)掃描圖像的排列順序與檔案原件不一致時,應(yīng)及時進行調(diào)整。
涵妍檔案數(shù)字化加工項目設(shè)有專職質(zhì)檢員,按檔案掃描的質(zhì)量要求對掃描生成圖像的命名及圖像文件質(zhì)量逐頁進行檢查,發(fā)現(xiàn)漏掃或不合格影像的要及時登記并補掃,并按原檔案次序?qū)D像插入原位。
5、全文OCR識別
如果項目要求實現(xiàn)全文檢索,在掃描圖像處理完成后,需將數(shù)字圖像利用專業(yè)的識別軟件進行全文OCR。
如果用戶對識別成功率有嚴格要求,還需另外進行人工校對,校對結(jié)束后將版式還原及轉(zhuǎn)換成雙層PDF文件格式,可實現(xiàn)無障礙的全文檢索。
6、數(shù)據(jù)掛接
借助系統(tǒng)軟件對數(shù)據(jù)庫中的目錄數(shù)據(jù)與對應(yīng)的紙質(zhì)檔案數(shù)字圖像進行匹配掛接,并逐條對掛接結(jié)果進行檢查,包括目錄數(shù)據(jù)與紙質(zhì)檔案數(shù)字圖像對應(yīng)的準(zhǔn)確性、已掛接數(shù)字圖像與實際掃描數(shù)量的一致性、數(shù)字圖像是否能正常打開等,以實現(xiàn)目錄數(shù)據(jù)與數(shù)字圖像的準(zhǔn)確關(guān)聯(lián)。
掛接到檔案管理系統(tǒng)中后,進行再次的成品驗收并做好還卷及數(shù)據(jù)備份提交。
檔案工作是國家“十四五”規(guī)則的重點產(chǎn)業(yè),《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》明確指示,新一代信息技術(shù)廣泛應(yīng)用,檔案工作環(huán)境、對象、內(nèi)容發(fā)生巨大變化,迫切要求創(chuàng)新檔案工作理念、方法、模式,加快全面數(shù)字轉(zhuǎn)型和智能升級。
任何事情,沒有一蹴而就的收獲,也沒有忙亂無序的成功。檔案數(shù)字化工作只有在滿足國家、行業(yè)規(guī)范標(biāo)準(zhǔn)的條件下,有條不紊地落實到關(guān)鍵步驟,才能得以穩(wěn)定、高效、快速地發(fā)展。