聯(lián)系我們

中博奧

電話：18937133779

網(wǎng) 址：http://oaoy.cn

郵箱：zboao@qq.com

檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用

時(shí)間:2022-04-02 作者: 來源:網(wǎng)絡(luò) 點(diǎn)擊量:

簡單介紹檔案數(shù)字化過程中的OCR技術(shù)，分析該技術(shù)的優(yōu)勢和在檔案數(shù)字化工作中的獨(dú)特應(yīng)用，如，創(chuàng)新著錄標(biāo)引方式；實(shí)現(xiàn)真正的全文檢索；支持雙層PDF技術(shù)；拓寬檔案用戶利用面等。在此基礎(chǔ)上，從OCR軟件選擇、參數(shù)設(shè)置、圖像處理、人工校對等方面探討提高OCR識別率的各種方法，以期使從事檔案數(shù)字化工作的人員有所借鑒，提高檔案數(shù)字化工作的效率。

信息時(shí)代，檔案數(shù)字化已成為檔案工作的重中之重，紙質(zhì)檔案掃描工作在各地如火如荼地進(jìn)行。然而，掃描所產(chǎn)生的電子檔案實(shí)際上只是以圖像形式存在的文件，而非真正意義上的文本文件，也就是說，計(jì)算機(jī)只認(rèn)識檔案的外表，卻不認(rèn)識其內(nèi)在文字，用戶通過計(jì)算機(jī)看到檔案的原貌，卻不能對其中的內(nèi)容進(jìn)行引用、檢索等操作，這無疑，對將來的電子檔案利用工作造成了很大不便?？紤]到檔案用戶的利用需求，若要得到文本形態(tài)的電子檔案’使檔案數(shù)字化工作更加有效、更加徹底，就要應(yīng)用OCR技術(shù)。

1、OCR在檔案數(shù)字化工作中的應(yīng)用

花OCR(OpticalCharacterRecognition),即“光學(xué)字符識別”，就是讓計(jì)算機(jī)"認(rèn)字”.其原理是通過專門的OCR軟件，將含有文字的圖像按字切割成可獨(dú)立識別的單元，然后運(yùn)用各種算法分析每個(gè)圖像單元中文字的形態(tài)特征，通過比對標(biāo)準(zhǔn)特征庫中的數(shù)據(jù)，判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼，并按通用格式輸出保存在文本文件中。

OCR的工作流程為：影像輸入、影像前處理、文字特征抽取、比對識別、人工校正，最后，將識別結(jié)果輸出保存。⑴雖然，一張圖像真正用于軟件識別的時(shí)間不到一秒，但前期和后期的加工處理不可小視，尤其是前兩個(gè)環(huán)節(jié)的操作，往往決定了OCR軟件的識別率，乃至整個(gè)OCR工作的效率。而后期人工校正環(huán)節(jié)，則是保證

OCR工作質(zhì)量的最直接環(huán)節(jié)。

OCR技術(shù)相對于傳統(tǒng)的手工錄入方式來說，具有強(qiáng)大的優(yōu)勢。首先，OCR文字識別的速度遠(yuǎn)快于手工錄入■根據(jù)國際通行的打字速度評級標(biāo)準(zhǔn)，即使是專業(yè)人員，每分鐘也僅能輸入150-240個(gè)字，而釆用OCR技術(shù)，即使算上前后期的處理環(huán)節(jié)所花時(shí)間，其速度也絕對比前者快好多倍。其次，OCR文字識別的質(zhì)量遠(yuǎn)高于手工錄入.雖然，由于各種因素影響，OCR技術(shù)的識別率很難達(dá)到100%,但比起大批量手工錄入，其出錯(cuò)率要小得多。最后，OCR還節(jié)省了大量人力資源，優(yōu)化了資源配置，使人員分配于更加有意義的工作。

對于檔案數(shù)字化工作來說，OCR技術(shù)除了具有以上幾個(gè)普遍的優(yōu)勢之外，還有其獨(dú)特的用武之地：

1.1創(chuàng)新著錄標(biāo)引方式。創(chuàng)建檔案目錄數(shù)據(jù)庫是一項(xiàng)較基礎(chǔ)的檔案數(shù)字化工作，目前，大多數(shù)檔案館在進(jìn)行這項(xiàng)工作，很多檔案館已建成較為完備的目錄庫。然而，各檔案部門的檔案條目基本都是通過手工錄入的，既費(fèi)時(shí)又費(fèi)力，還很容易出錯(cuò)。比如一些檔案，標(biāo)題很長，一個(gè)題名就占了好幾行。

OCR技術(shù)提供了一種新的著錄方式，使檔案條目通過計(jì)算機(jī)錄入成為可能。工作人員可以直接從OCR后的全文中找到著錄項(xiàng)(如題名、文號、責(zé)任者等)，復(fù)制粘貼到目錄數(shù)據(jù)庫的相應(yīng)字段中去。⑵但這么做，必須先掃描檔案全文、OCR,然后再輸條目，顛覆了檔案數(shù)字化工作的一般工作流程，因此，可行性并不強(qiáng)。還有一種方法是先將檔案卷內(nèi)目錄掃描、OCR處理，再復(fù)制粘貼條目，或通過特定的程序自動釆集條目信息。⑶但由于很多卷內(nèi)目錄是手寫的，OCR無法識別，只得依靠手工錄入。相信隨著未來技術(shù)的發(fā)展，OCR在這方面的應(yīng)用一定能夠有所突破。

此外，系統(tǒng)還可以對OCR后的檔案全文進(jìn)行詞頻統(tǒng)計(jì)、內(nèi)容分析，從而自動提取關(guān)鍵詞、主題詞等標(biāo)志符，一定程度上，實(shí)現(xiàn)了檔案內(nèi)容的自動標(biāo)引。

1.2實(shí)現(xiàn)真正的全文檢索。檔案工作中所說的全文檢索實(shí)際包括兩種類型：一種是僅對檔案目錄數(shù)據(jù)庫進(jìn)行檢索，找到相關(guān)條目后再打開相應(yīng)的檔案全文。目前，檔案館大多釆用這種檢索方式，且尚有很多檔案沒有電子全文。另一種是真正的全文檢索，即直接對檔案全文進(jìn)行檢索，而且是對檔案全文進(jìn)行逐字檢索。很明顯，后一種檢索方式的査全率比前者要高出很多，使用戶能從浩如煙海的檔案館藏中找到更多所需的信息，更深入地開發(fā)利用檔案信息資源。

而要實(shí)現(xiàn)真正的全文檢索，自然離不開OCR技術(shù)，因?yàn)?，只有將掃描圖像中的文字變成文本格式，才有可能對其中的文字進(jìn)行逐字檢索。

1.3支持雙層PDF技術(shù)。所謂“雙層PDF”，就是一個(gè)PDF文件中的每一頁都包含兩層，上層是掃描所得到原始圖像，下層是OCR識別的文字結(jié)果.這種技術(shù)在數(shù)字圖書館領(lǐng)域已得到廣泛應(yīng)用，我們在CNKI等數(shù)據(jù)庫中檢索到的PDF格式的電子文獻(xiàn)大多釆用了雙層PDF技術(shù)。

由于釆用雙層PDF技術(shù)既能較好地保證檔案的原真性，在用戶需要時(shí)，又能對檔案中的文字進(jìn)行選擇、復(fù)制、捜索等處理，因此，必將在今后的檔案數(shù)字化工作中越來越受到青睞。而這一技術(shù)的運(yùn)用，必須首先以O(shè)CR技術(shù)為支撐。

1.4拓寬檔案用戶利用面。以往的檔案用戶大多是基于檔案的憑證價(jià)值而對其加以利用，如政府査閱某份文件，居民查閱房產(chǎn)證、結(jié)婚證、學(xué)籍卡等，這些利用需求對檔案的原真性要求較高，很多情況下，還是需要紙質(zhì)檔案才能發(fā)揮作用？但檔案用戶的利用面絕不應(yīng)該僅限于此，檔案除了擁有憑證價(jià)值，還與圖書、情報(bào)一樣具有情報(bào)價(jià)值、參考價(jià)值。如利用檔案進(jìn)行學(xué)術(shù)研究時(shí)，用戶就更加注重檔案的知識性、信息性，但如果檔案是紙質(zhì)的，要利用其中的內(nèi)容就必須親自去檔案館，通過印刷或手工摘錄所需信息，非常不便，以至于有些用戶轉(zhuǎn)而通過網(wǎng)站或數(shù)字圖書館査閱所需信息。

將紙質(zhì)檔案數(shù)字化，并釆用OCR識別，能夠使檔案信息資源實(shí)現(xiàn)全文檢索、網(wǎng)絡(luò)傳輸，方便用戶異地檢索、復(fù)制引用，從而深化用戶對檔案內(nèi)容的査詢與利用，拓寬其利用面，使檔案也能像圖書、情報(bào)一樣，成為人們?nèi)粘Ｉ钪蝎@取信息、利用信息、增加學(xué)識的手段，使檔案多方面地服務(wù)于公眾。

2、提高檔案數(shù)字化過程中的OCR識別率

OCR識別率是整個(gè)OCR工作的中心問題，有專家認(rèn)為，OCR識別率低于90%,釆用OCR技術(shù)便毫無意義，因?yàn)楹笃谛枰M(jìn)行大量的人工校正工作，從而抵消了OCR所帶來的效率。⑷對于檔案數(shù)字化這樣浩大的工程來說，提高OCR識別率意味著成倍減少花在OCR工作上的人力物力和時(shí)間精力，從而提高整個(gè)檔案數(shù)字化工作的效率，極大地降低檔案數(shù)字化的成本。由于手寫體檔案的識別率普遍較低，不宜進(jìn)行OCR識別，因此，本文所述OCR的對象僅指印刷體檔案。要提高OCR識別率，關(guān)鍵應(yīng)注意以下幾點(diǎn)：

2.1選擇較好的OCR軟件。目前，市場上比較流行的OCR軟件很多，主要有清華紫光、清華文通、漢王、中晶尚書、丹青、蒙恬等品牌。其中，有些可以從網(wǎng)上下載免費(fèi)版本，如尚書七號OCR等，但功能很少，識別率很低，只有在圖像質(zhì)量非常高的情況下，才能達(dá)到較高的識別率，稍有差池便錯(cuò)誤百出，畢竟“一分價(jià)錢一分貨”.還有的是掃描儀自帶的OEM軟件，如丹青、蒙恬等，這樣的軟件往往功能較少，識別率較專業(yè)的OCR軟件要低。

所以，對于檔案數(shù)字化過程中的批量OCR處理工作，若要用得省心、放心，必須購買和使用專業(yè)的OCR軟件，建議使用漢王或清華文通等專業(yè)OCR軟件，雖然要花點(diǎn)錢，但物有所值。

2.2設(shè)置合適的掃描參數(shù)。檔案數(shù)字化若要進(jìn)行OCR處理，在前期掃描的時(shí)候，就應(yīng)設(shè)置適合OCR識別的掃描參數(shù)，如果己經(jīng)掃描完畢再說要進(jìn)行OCR處理，就應(yīng)釆用相關(guān)圖像處理軟件（如Photoshop等）先對圖像的參數(shù)進(jìn)行修改再OCR。合適的掃描參數(shù)能使圖像質(zhì)量更貼近于OCR識別的要求，OCR識別率自然會有很大程度的提高。

2.2.1分辨率的設(shè)定。分辨率太小，每英寸圖像上像素點(diǎn)太少，OCR軟件無法獲得足夠圖像信息，識別率當(dāng)然就不會高。但是，并不是分辨率越高，OCR識別率也越高。分辨率太高，特別是在使用一些存在輕微掃描失真的掃描儀時(shí)，由于紙張本身著墨不均勻，反而會把一些本應(yīng)連著的筆畫識別成幾段，造成識別錯(cuò)誤，不僅不能提高識別率，還會使圖像文件變得很大，不利于存儲、處理和傳輸。

《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》規(guī)定：需要進(jìn)行OCR漢字識別的檔案，掃描分辨率建議選擇大于或等于200dpi.⑸但是在實(shí)際工作中，200dpi還是有點(diǎn)小，經(jīng)驗(yàn)表明，300dpi在OCR識別中最為合適，有的掃描軟件有一項(xiàng)“OCR掃描”,直接將掃描分辨率鎖定為300dpi.⑹

2.2.2色彩模式的選擇。如果要進(jìn)行OCR識別，釆用黑白二值模式掃描的圖像，其識別速度和正確率比灰度、24位真彩(C24)模式掃描的圖像都要高，這是因?yàn)椋谋就ǔＶ挥玫胶诎锥?，過多的顏色只會變成干擾信息。

灰度模式在OCR中的應(yīng)用也比較廣泛。對于一些紙張發(fā)黃或文字字跡較淡的檔案，要對掃描后的圖像進(jìn)行處理，第一步可將色彩模式設(shè)置為灰度，將圖像劃分為不同的灰度級別，然后，通過特定算法將某個(gè)灰度值以下的像素點(diǎn)都認(rèn)定為白色，其他為黑色，從而達(dá)到黑白分明?一些紙張較薄甚至有點(diǎn)透明的檔案，OCR會受到背面文字的干擾而識別率降低，如果掃描時(shí)，在紙張背面墊一張黑紙，并使用灰度掃描，效果會好很多。⑺

而釆用24位真彩(C24)模式掃描的圖像，由于顏色干擾信息太多，識別率往往不太理想，若要進(jìn)行OCR,最好先轉(zhuǎn)化為黑白二值或灰度模式，再加以識別。

2.2.3亮度和對比度的調(diào)節(jié)。檔案由于年代久遠(yuǎn)，很多會底色發(fā)黃、字跡變淡，掃描時(shí)設(shè)置灰度模式，并不能完全改善圖像質(zhì)量，若要進(jìn)一步提高OCR識別率，需改變更多參數(shù)，即調(diào)節(jié)亮度和對比度，且應(yīng)先調(diào)亮度再調(diào)對比度。

亮度的設(shè)定以觀察掃描后的圖像中漢字的筆畫較細(xì)但又不斷開為原則。⑻對于文字字跡較淺、筆畫較細(xì)的檔案，可適當(dāng)降低亮度；文字字體較小、筆畫較粗的檔案，可適當(dāng)增加亮度。對于底色較深的檔案，如前文所提灰度模式掃描的圖像，可通過圖像處理軟件增加亮度，使圖像背景變成白色，同時(shí)，去除了一些原有的污點(diǎn)。但調(diào)節(jié)亮度的同時(shí)，必然會使圖像中的文字一起變淡。這時(shí)，便要增加圖像對比度，使文字的顏色變深。[9]

通過亮度和對比度的調(diào)節(jié)，可使圖像變得更加黑白分明，從而有利于OCR識別率的提高。

2.3對圖像進(jìn)行糾偏'去污處理。圖像中文字的偏斜，會極大地降低OCR識別率，筆者曾經(jīng)做過實(shí)驗(yàn)，一撼只是略微有點(diǎn)歪的圖像，其識別率比糾偏之后至少低了10%。而圖像中的污點(diǎn)，也很有可能被OCR錯(cuò)誤識別為文字。因此，在OCR識別前，圖像必須經(jīng)過糾偏、去污處理，以提高識別率。通常，檔案掃描工作流程中必須具備圖像糾偏、去污這一環(huán)節(jié)，而無論其是否要進(jìn)行OCR.

2.4仔細(xì)進(jìn)行人工校對。無論電腦有多聰明，始終比不過人腦，因此，人工校對是提高OCR識別率的最后一關(guān)，也是最直接的環(huán)節(jié)。

通常，OCR軟件識別完后會將原文用兩行顯示，一行是圖像，另一行是識別結(jié)果。一些OCR軟件(如漢王OCR)會將不確定的文字用另一種顏色顯示出來，便于用戶發(fā)現(xiàn)錯(cuò)誤。但實(shí)驗(yàn)表明，很多情況下沒有變色的文字也會出錯(cuò)，相反變了色的文字并不一定是錯(cuò)的。因此，工作人員在校對時(shí)應(yīng)仔細(xì)，最好能通讀一遍，尤其注意字母和數(shù)字等較易出錯(cuò)的地方，盡量不放過任何錯(cuò)誤。

當(dāng)然，人工校對是建立在OCR識別率本身就已很高的基礎(chǔ)上的，它只是一個(gè)提高OCR識別率的補(bǔ)充環(huán)節(jié)。否則，過多的人工校對只會降低檔案數(shù)字化工作的效率，使OCR變得與手工錄入無異。

綜上所述，OCR在紙質(zhì)檔案數(shù)字化過程中有其獨(dú)特的應(yīng)用，如何提高OCR識別率，并將該技術(shù)運(yùn)用于檔案管理最需要的地方，是值得我們考慮的問題。只有將OCR技術(shù)運(yùn)用得恰到好處，才不至于浪費(fèi)人力物力，才能使檔案信息資源的利用價(jià)值達(dá)到最大化，更好地服務(wù)于民。

標(biāo)簽

檔案數(shù)字化 | 檔案管理 | 檔案整理 |

本文網(wǎng)址：http://oaoy.cn/cgal/1586.html

上一篇：人事檔案工作的內(nèi)容有哪些？
下一篇：對紙質(zhì)檔案數(shù)字化建設(shè)的幾點(diǎn)認(rèn)識

国产超清无码e片内射免费_亚洲成a人片毛片在线_91在线国自产拍_夜夜天天噜狠狠爱_无码人妻丰满熟妇88Av_男女性爱小说乱伦亚洲不卡_亚洲性春暖花开贴吧_免费a级毛片无码a∨免费软件_欧美日韩精品第1页_久热国产vs视频在线

新聞中心

推薦內(nèi)容

熱門關(guān)鍵詞

聯(lián)系我們

中博奧

檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用

標(biāo)簽

推薦產(chǎn)品

中心機(jī)房建設(shè)解決方案

檔案數(shù)據(jù)結(jié)構(gòu)化服務(wù)解決方

數(shù)字檔案管理系統(tǒng)解決方案

物理檔案托管服務(wù)解決方案

相關(guān)資訊