国产超清无码e片内射免费_亚洲成a人片毛片在线_91在线国自产拍_夜夜天天噜狠狠爱_无码人妻丰满熟妇88Av_男女性爱小说乱伦亚洲不卡_亚洲性春暖花开贴吧_免费a级毛片无码a∨免费软件_欧美日韩精品第1页_久热国产vs视频在线

歡迎來到中博奧技術(shù)有限公司官網(wǎng)

文本數(shù)字化

時間:2023-01-22 作者:老師 來源:網(wǎng)絡(luò) 點擊量:

文本數(shù)字化

鍵盤錄入。選定我們要處理的單元格,再點擊菜單欄里的數(shù)值,找到數(shù)值點小三角,從下拉選項中找到文本轉(zhuǎn)數(shù)字,就完成了。

如何對紙質(zhì)文檔進行數(shù)字化處理

紙質(zhì)文件雖然翻閱方便,但歸檔保存不方便,也不利于后續(xù)的查找使用。因此,一些有歷史價值、研究意義的紙質(zhì)文件,通常要進行數(shù)字化處理,將其保存為電子文檔。

那么,該如何對紙質(zhì)文檔進行數(shù)字化處理?本文會結(jié)合使用專業(yè)的文本識別軟件ABBYY FineReader PDF 15來詳細(xì)講解文檔數(shù)字化處理的技巧。

一、將紙質(zhì)文件轉(zhuǎn)換為文檔

ABBYY FineReader PDF 15為我們提供了兩種紙質(zhì)文檔數(shù)字化處理的方法,第一種是運用掃描儀,將紙質(zhì)文檔掃描為所需的文件類型。

第二種是運用拍攝的方法,將紙質(zhì)文件拍攝為圖像,然后再通過ABBYY FineReader PDF 15的智能OCR文本識別功能,識別圖像中的文本。

接下來,我們會重點介紹第二種方法。

二、通過OCR識別圖像

我們將拍攝的紙質(zhì)文檔圖像導(dǎo)入到ABBYY FineReader PDF 15的OCR編輯器后,可先使用其“編輯圖像”功能,對文件的版式進行處理。

如圖4所示,編輯圖像功能是應(yīng)用ABBYY FineReader PDF 15的圖像編輯器對圖像進行處理的功能。

建議先使用其中的“建議預(yù)處理”功能,對圖像進行預(yù)處理。

然后,再結(jié)合圖像的實際情況使用其他的處理功能。比如,當(dāng)前圖像的左邊出現(xiàn)一些書邊,可使用“修剪”功能,將書邊裁剪掉。

然后,由于拍攝的失誤,圖像的左下角出現(xiàn)了相機的影子,在這種情況下,可使用“漂白背景”功能,讓書本的背景呈現(xiàn)為白色。同時,結(jié)合使用“消除運動模糊”功能,糾正拍攝時的抖動模糊。

最后,書脊部分文本有一點歪曲,可使用“矯直文本行”功能,糾正歪曲。

如圖8所示,我們已經(jīng)完成了圖像的處理。

三、另存為文檔

完成圖像的處理后,我們就可以使用ABBYY FineReader PDF 15的另存為功能,將圖像保存為所需的電子文檔保存。

四、小結(jié)

綜上所述,我們既可以應(yīng)用ABBYY FineReader PDF 15的掃描功能,將紙質(zhì)文件掃描為電子文件,也可以應(yīng)用ABBYY FineReader PDF 15的高級OCR文本識別功能,對拍攝的紙質(zhì)文件圖像進行文本識別,然后再保存為電子文件格式。

實物地質(zhì)資料相關(guān)文本資料數(shù)字化

張海蘭 王瑞紅

(國土資源部實物地質(zhì)資料中心,北京 101149)

摘要 本文簡要闡述了實物相關(guān)文本資料數(shù)字化工作的重要性,提出要根據(jù)文本資料原貌選擇掃描方式,依照具體情況進行分辨率、亮度和對比度的調(diào)整。

關(guān)鍵詞 文本資料;數(shù)字化

實物地質(zhì)資料的相關(guān)資料是成果地質(zhì)資料與原始地質(zhì)資料的原件或復(fù)制件,是說明實物產(chǎn)生的地質(zhì)背景及其保管價值的重要材料,是實物地質(zhì)資料的重要組成部分。

為了適應(yīng)現(xiàn)代化管理與服務(wù)的需要,同時為了配合實物地質(zhì)資料數(shù)字化,解決圖文地質(zhì)資料信息長期保存問題,國土資源部實物地質(zhì)資料中心開展了相關(guān)地質(zhì)資料數(shù)字化工作。實物地質(zhì)資料相關(guān)的圖文資料包括兩大類:文本資料和圖紙資料,數(shù)字化工作也是針對這兩部分內(nèi)容而言的。本文僅就資料的數(shù)字化工作進行探討。

一、文本資料數(shù)字化工作流程

文本資料數(shù)字化工作是通過掃描的方法把以紙介質(zhì)為載體的地質(zhì)資料轉(zhuǎn)變?yōu)橐噪娮訛榻橘|(zhì)的電子文件,并進行文件組織的過程。主要工作過程包括資料準(zhǔn)備、掃描、圖像處理、生成電子文件、文檔組織與保存等幾個方面(見圖1)。

圖1 文本資料數(shù)字化工作流程圖

二、掃描工作方法

1.掃描前的資料準(zhǔn)備工作

做好文本資料的準(zhǔn)備工作是十分必要的。資料的單冊厚度影響著文本的掃描質(zhì)量,越厚越不利于掃描,有些文本裝訂得比較厚時,可將文本拆開進行掃描,掃描工作結(jié)束后再按照檔案管理的標(biāo)準(zhǔn)進行重新裝訂。在進行若干份單頁的文件掃描時,掃描前要做好資料的登記工作,以免丟失。利用文檔掃描儀進行多頁文件掃描之前,要對文本資料進行去除靜電處理。

2.掃描

文本數(shù)字化

(1)選擇掃描方式

對于文本資料紙質(zhì)較好,又不超過標(biāo)準(zhǔn)A4版面大小的時候,可以采用專用的多頁文檔掃描儀進行滾動掃描,以節(jié)省掃描時間提高工作效率。其他的文本資料使用平板掃描儀逐頁進行掃描。

(2)選擇掃描參數(shù)

掃描類型 掃描類型的選擇是完成文本數(shù)字化工作的重要環(huán)節(jié)。正確的選擇掃描類型,是提高掃描質(zhì)量的保證。掃描類型的選擇是由原件的類型來確定的。常用文本資料的掃描類型有:黑白二值、RGB、灰階三種。黑白二值方式,當(dāng)文字或表格質(zhì)量都非常高時,采用這種方式掃描,掃描效果較好?;译A方式,當(dāng)文本資料字跡不清楚或是表格時,使用黑白二值方式產(chǎn)生的圖像效果較差,表格線會斷斷續(xù)續(xù),此時可選用灰階方式掃描,但這種方式掃描的圖像會有較多的灰色印跡,需在后期做圖像處理,使圖像達(dá)到最佳效果。RGB方式,對文本資料中的彩色圖件一般采用這種方式進行掃描,用這種方式掃描產(chǎn)生的文件占用的磁盤空間較大,掃描時可進行亮度、對比度及色度的調(diào)整,通過反復(fù)對比,使圖件色彩達(dá)到最佳的效果。

參數(shù)選擇 在掃描前進行預(yù)掃描,可進行掃描分辨率的選擇、亮度和對比度調(diào)整。掃描分辨率、亮度及對比度調(diào)整與文本資料的質(zhì)量有一定的關(guān)系,當(dāng)一冊文本資料質(zhì)量變化不大時,選擇一頁或幾頁進行掃描實驗,結(jié)合掃描工作經(jīng)驗選擇適合的分辨率、亮度及對比度。當(dāng)文本質(zhì)量有明顯變化時,每頁資料的亮度及對比度都要分別進行調(diào)整。每次掃描時若不進行掃描區(qū)域的選擇,掃描區(qū)域就會與上次的掃描區(qū)域相同,這樣有可能會漏掉文本內(nèi)容。若掃描區(qū)域過大,掃描時間就會延長,文件所占的空間也會增大,后期圖像處理的工作量亦會增大。

存儲格式的選擇 根據(jù)選擇掃描類型的不同,文件存儲格式也有所不同。黑白二值方式掃描產(chǎn)生的圖像不能進行糾斜和旋轉(zhuǎn),存儲格式為tiff;灰階和RGB方式掃描存儲格式都為jpg,這種格式是經(jīng)過壓縮的。

(3)確定文件名稱及路徑

當(dāng)掃描參數(shù)調(diào)整完成時,就要選擇路徑將掃描文件進行保存。這個文件最好是放置在一個獨立的位置上,以免與其他文件混淆。文件的名稱是要能反映其中文本資料的主要內(nèi)容的。與此同時,還要給每頁文件確定一個適當(dāng)?shù)拿Q,最好以文件的頁碼為文件的名稱,以便對文件進行排版時不會出順序上的錯誤。同時保證以后再對文件進行處理時能很快識別此文件是屬于哪個類別的、哪個地區(qū)的、哪個鉆孔的等,如圖2所示。

圖2 文件存儲結(jié)構(gòu)示意圖

(4)掃描并保存

在掃描方式、掃描參數(shù)、存儲格式、存儲路徑和文件名都已設(shè)定好之后,就可以進行掃描了。當(dāng)頁面大于A4版面時,可以用A3大幅度掃描儀進行掃描,對于超過A3幅度的文本資料可以分次掃描,掃描完成后再進行拼接。掃描是整個數(shù)字化工作中最基礎(chǔ)、最關(guān)鍵的環(huán)節(jié),好的掃描質(zhì)量,能夠使電子文件獲取清晰度較高的效果,投入最少的整飾工作量,從而節(jié)省大量的時間、人力和物力。

3.圖像處理

當(dāng)完成一冊文本資料的掃描工作后,此文本資料的電子文件已經(jīng)保存在一個固定的文件夾內(nèi)。但此時的文件只是一個個獨立的圖片,還需要一系列的圖像調(diào)整處理,才能達(dá)到文本數(shù)字化的真正目的。在Photoshop中打開掃描圖像,逐個進行糾斜、旋轉(zhuǎn)、剪裁、去污、亮度/對比度等的調(diào)整。經(jīng)過幾次這樣的調(diào)整,使圖像達(dá)到真實反映文本資料原貌的目的。

4.生成電子文件

將調(diào)整好的單個圖像文件逐個插入到Word文檔中,首先形成Word格式的文檔,然后再轉(zhuǎn)化成PDF格式文件,文件名要與每冊文本資料的名稱相同或相近,如秦嶺、大巴山地應(yīng)力孔的《巖礦心接收登記表》,電子文件命名為“巖礦心接收登記表”。

5.文檔組織與保存

當(dāng)完成一個礦區(qū)的所有文本資料的掃描工作以后,將形成的PDF文件按一定的順序重新組織編排,并編制PDF格式的目錄索引,鏈接整個礦區(qū)的PDF文件。最后將完整的電子文件進行備份保存。一般情況下同一礦區(qū)的電子文檔保存在同一張光盤中,并在光盤盒上貼標(biāo)簽,注明文件目錄、形成時間及責(zé)任人等有關(guān)信息。若一張光盤存不下時,要將電子文件分成若干個分冊,一個分冊放在一個光盤中。電子文檔應(yīng)保存一式三套,并且要實行異地保存。

文本數(shù)字化

三、影響文本資料掃描效果的幾個因素分析

將文本資料平放在掃描儀的掃描區(qū)域中,有的文本資料裝訂得比較規(guī)范,一般情況下在掃描前不拆開,進行掃描時掃描人員應(yīng)用手緊壓文本資料,盡可能地緊貼掃描面板,以保證較好的掃描效果。如果文本資料較薄,則可用掃描儀的蓋板壓緊即可。這個環(huán)節(jié)的操作要輕拿輕放,避免文本資料在掃描板上滑動,將掃描板劃傷,這樣將直接影響掃描的效果。

我們采集來的一些實物資料是20世紀(jì)80年代初期產(chǎn)出的,隨著時間的推移,文本資料字跡已經(jīng)很模糊了,而收集來的又多以復(fù)印件為主,還有野外記錄表或整理資料這部分多數(shù)都是手寫資料,字體不一,書寫也不規(guī)范,資料內(nèi)容就更為模糊了,這樣的資料掃描難度較大,效果也不理想。

有的文本資料的厚度大又不宜拆開,直接影響了掃描質(zhì)量,文本資料越厚在掃描過程中就越不容易壓平,一側(cè)的資料就非常不清楚。因此在掃描較厚的文本資料時,需要掃描人員用手使勁壓平文本,才能保證掃描的質(zhì)量。顯而易見這樣掃描自然會降低掃描的效率,因此在掃描這種較厚的文本資料時,要求工作人員必須有耐心,將每一頁資料都能充分地擺正放平,使每一部分信息都能掃描得非常清晰。

四、結(jié)語

文本資料數(shù)字化是一項艱巨、繁瑣而責(zé)任重大的工作,是實現(xiàn)實物地質(zhì)資料現(xiàn)代化管理的一項重要基礎(chǔ)工作。由于這項工作開展時間不長,沒有更多的經(jīng)驗可以借鑒,目前此項工作還在不斷的探索和試驗中。

Digitization of Relevant Text Information of Geologicalsamples

Hailan Zhang,Ruihong Wang

(National Geologicalsample Center,ministry of Land and Resources,Beijing 101149)

Abstract This paper compendiously explains thesignificances of digitization of relevant textinformation of geologicalsamples,proposes to keep in accordance with the original configuration of text information whenselectingscanningmodes,in order to properly adjust the ratio,brightness and contrast referring to the actualsituations.

Key words text information;digitization

相關(guān)資料數(shù)字化

實物相關(guān)資料數(shù)字化是對實物相關(guān)的文字、圖件、表格等文件的數(shù)字化以及電子文件的制作。目的是配合實物數(shù)字化,形成完整的實物地質(zhì)資料圖文圖像系統(tǒng),進而建立數(shù)字化實物地質(zhì)資料閱覽室,提高實物地質(zhì)資料利用率,并有效地保護館藏圖文資料,為實物地質(zhì)資料信息共享提供基礎(chǔ)。

實物地質(zhì)資料相關(guān)的圖文資料包括文本資料和圖紙資料,數(shù)字化工作也是針對這兩類資料而言的。

(一)文本資料數(shù)字化

1.工作流程及方法

文本資料數(shù)字化是通過掃描的方法把以紙介質(zhì)為載體的地質(zhì)資料轉(zhuǎn)變?yōu)橐噪娮訛榻橘|(zhì)的電子文件,并進行文件組織的過程。主要工作過程包括資料準(zhǔn)備、掃描、圖像處理、生成電子文件、文檔組織與保存等幾個方面(圖7-25)。

圖7-25 文本資料數(shù)字化工作流程

(1)掃描前的準(zhǔn)備工作:做好文本資料的準(zhǔn)備工作是十分必要的。資料的單冊厚度影響著文本的掃描質(zhì)量,越厚越不利于掃描,有些文本裝訂得比較厚時,應(yīng)將文本拆開進行掃描,掃描工作結(jié)束后再按照檔案管理的要求進行重新裝訂。在進行若干份單頁的文件掃描時,掃描前要做好資料的登記工作,以免丟失。利用文檔掃描儀進行多頁文件掃描之前,要對文本資料進行除靜電處理。

(2)圖像掃描:對于文本資料紙質(zhì)較好,又不超過標(biāo)準(zhǔn)A4版面的時候,為節(jié)省掃描時間,提高工作效率可以采用專用的多頁文檔掃描儀進行連續(xù)掃描,其他的文本資料使用平板掃描儀逐頁進行掃描。掃描類型的選擇是完成文本數(shù)字化工作的重要環(huán)節(jié)。正確地選擇掃描類型,是提高掃描質(zhì)量的保證。掃描類型的選擇是由原件的類型來確定的。常用文本資料的掃描類型有黑白二值、RGB、灰階3種:①黑白二值方式,當(dāng)文字或表格質(zhì)量都非常高時,采用這種方式掃描,掃描效果較好;②灰階方式,當(dāng)文本資料字跡不清楚或是表格時,使用黑白二值方式產(chǎn)生的圖像效果較差,表格線會斷斷續(xù)續(xù),此時可選用灰階方式掃描,但這種方式掃描的圖像有較多的灰色印跡,需在后期進行圖像處理時,使圖像達(dá)到最佳效果;③RGB方式,對文本資料中的彩色圖件一般采用這種方式進行掃描,用這種方式掃描產(chǎn)生的文件占用的磁盤空間較大,在掃描時應(yīng)進行亮度、對比度及色度的調(diào)整,通過反復(fù)對比,使圖件色彩達(dá)到最佳的效果。在掃描前應(yīng)進行預(yù)掃描,目的是選擇掃描分辨率及調(diào)整亮度和對比度。掃描分辨率、亮度及對比度調(diào)整與文本資料的質(zhì)量有一定的關(guān)系,當(dāng)一冊文本資料質(zhì)量變化不大時,選擇一頁或幾頁進行掃描實驗,結(jié)合掃描工作經(jīng)驗選擇適合的分辨率、亮度及對比度;當(dāng)文本質(zhì)量有明顯變化時,每頁資料的亮度及對比度都要分別進行調(diào)整。每次掃描時若不進行掃描區(qū)域的選擇,掃描區(qū)域就與上次的掃描區(qū)域相同,這樣有可能漏掉文本內(nèi)容。掃描區(qū)域過大,掃描時間就延長,文件所占的空間增大,增加后期圖像處理的工作量。根據(jù)選擇掃描類型的不同,文件存儲格式也有所不同。黑白二值方式掃描產(chǎn)生的圖像不能進行糾斜和旋轉(zhuǎn),存儲格式為 TIFF;灰階和RGB方式掃描存儲格式均為JPG,這種格式是經(jīng)過壓縮的。當(dāng)掃描參數(shù)調(diào)整完成時,就要選擇路徑將掃描文件進行保存。掃描文件最好是放置在一個獨立的位置上,以免與其他文件混淆。文件的名稱能反映其中文本資料的主題內(nèi)容。與此同時,還要給每頁文件確定一個適當(dāng)?shù)拿Q,最好以文件的頁碼為文件的名稱,以便對文件進行排版時不會出順序上的錯誤。同時保證以后再對文件進行處理時能很快識別此文件是屬于哪個類別的、哪個地區(qū)的、哪個鉆孔的等。如圖7 26所示。在掃描方式、掃描參數(shù)、存儲格式、存儲路徑和文件名都已設(shè)定好之后,就可以進行掃描了。當(dāng)頁面大于A4幅面時,可以用A3大幅面掃描儀進行掃描,對于超過A3 幅面的文本資料可以分次掃描,掃描完成后再進行拼接。掃描是整個數(shù)字化工作中最基礎(chǔ)、最關(guān)鍵的環(huán)節(jié),好的掃描質(zhì)量,能夠使電子文件獲取清晰度較高的效果,投入最少的整飾工作量,從而節(jié)省大量的時間、人力和物力。

圖7-26 文件存儲結(jié)構(gòu)示意

(3)圖像處理:當(dāng)完成一冊文本資料的掃描工作后,此文本資料以一系列圖像形式的文件保存在一個固定的文件夾內(nèi)。這些圖像需調(diào)整處理,才能達(dá)到文本數(shù)字化的要求。在Photoshop中打開掃描圖像,逐個進行糾斜、旋轉(zhuǎn)、剪裁、去污、亮度/對比度等的調(diào)整。經(jīng)過幾次這樣的調(diào)整,使圖像達(dá)到真實反映文本資料原貌。

(4)生成電子文件:將調(diào)整好的單個圖像文件逐個插入到Word文檔中,形成Word格式的文檔,然后再轉(zhuǎn)化成PDF格式文件,文件名要與每冊文本資料的名稱相同或相近,如大巴山地應(yīng)力孔的《巖礦心接收登記表》,電子文件命名為“巖礦心接收登記表.PDF”。

(5)文檔組織與保存:當(dāng)完成了一個礦區(qū)的所有文本資料的掃描工作以后,將形成的PDF文件按一定的順序重新組織編排,生成具有目錄索引特征的單個PDF文件,其格式見圖7-27。

圖7-27 PDF電子文件界面

2.影響文本資料掃描效果的主要因素

將文本資料平放在掃描儀的掃描區(qū)域中,有的文本資料裝訂得比較規(guī)范,一般情況下在掃描前不需拆開,進行掃描時掃描人員用手緊壓文本資料,盡可能地緊貼掃描面板,以保證有較好的掃描效果。如果文本資料較薄,則可用掃描儀的蓋板壓緊即可。這個環(huán)節(jié)的操作要輕拿輕放,避免文本資料在掃描板上滑動,劃傷掃描板,直接影響掃描的效果。

目前收集來的一些實物相關(guān)資料是20世紀(jì)80年代初期產(chǎn)生的,隨著時間的推移,許多文本資料字跡已經(jīng)很模糊,這些資料又多以復(fù)印件為主,特別是野外記錄本和一些整理資料多數(shù)都是手寫資料,字體不一,書寫也不規(guī)范,資料內(nèi)容就更為模糊了,這樣的資料掃描難度較大,效果也不理想。

有的文本資料的厚度大又不宜拆開,直接影響了掃描質(zhì)量,文本資料越厚在掃描過程中就越不容易壓平,掃描后非常不清楚。因此在掃描較厚的文本資料時,需要掃描人員用手使勁壓平文本,才能保證掃描的質(zhì)量。顯而易見,這樣掃描會降低掃描的效率,因此在掃描這種較厚的文本資料時,要求工作人員必須有耐心,將每一頁資料都能充分地擺正放平,使每一部分信息都能掃描得非常清晰。

(二)圖紙的掃描

在實物地質(zhì)資料中,有一部分資料是地形圖、剖面圖、地質(zhì)圖、柱狀圖等,其幅面一般都超過A3。這部分圖紙使用A0工程掃描儀掃描。

1.掃描儀參數(shù)的設(shè)定

通過實驗,圖紙掃描分辨率采用200dpi,掃描方式采用灰度,圖像保存格式為tif,基本能夠滿足資料利用的需要。

2.影響圖紙掃描效果的幾個因素及處理方法

(1)掃描儀的校準(zhǔn):在試掃描過程中發(fā)現(xiàn),在每張圖紙的左側(cè),總是有一條直線,有上下錯位的現(xiàn)象發(fā)生,為了不影響圖像的質(zhì)量,筆者請教了熟悉掃描儀操作的同志,之所以出現(xiàn)這種現(xiàn)象,是由于掃描儀的3個鏡頭在掃描過程中發(fā)生了錯位,導(dǎo)致一條直線出現(xiàn)“折斷”的現(xiàn)象。為了解決這一問題,每次掃描前,首先進行掃描校準(zhǔn)。

(2)圖紙的質(zhì)量:有的柱狀圖由于太長,在平常的保存過程中一直是卷成筒狀的,并用棉線輕輕捆綁著。因此在圖紙的邊緣部分,常出現(xiàn)磨痕或裂口。這樣的圖紙在滾動掃描時,稍不注意就會出現(xiàn)不同步現(xiàn)象,使掃描圖像發(fā)生偏斜扭曲。處理這種情況的方法是對圖紙進行修復(fù),方法是在圖紙的邊緣用乳膠粘上一層薄紙,再用熨斗熨平。

請問文本信息的數(shù)字化有哪些途徑?

鍵盤錄入語音識別輸入光學(xué)字符識別輸入

標(biāo)簽

本文網(wǎng)址:http://oaoy.cn/cgal/8044.html

相關(guān)資訊

我是中博奧客服:小奧
中博奧技術(shù)有限公司& 版權(quán)所有工信部備案號:豫ICP備11015869號-8 Copyright ? 2023-2024

檔案整理檔案數(shù)字化

檔案掃描檔案管理軟件系統(tǒng)

TEL:18937133779

To Top