国产超清无码e片内射免费_亚洲成a人片毛片在线_91在线国自产拍_夜夜天天噜狠狠爱_无码人妻丰满熟妇88Av_男女性爱小说乱伦亚洲不卡_亚洲性春暖花开贴吧_免费a级毛片无码a∨免费软件_欧美日韩精品第1页_久热国产vs视频在线

歡迎來(lái)到中博奧技術(shù)有限公司官網(wǎng)

文本如何數(shù)字化

時(shí)間:2023-01-22 作者:老師 來(lái)源:網(wǎng)絡(luò) 點(diǎn)擊量:

文本如何數(shù)字化

鍵盤錄入。選定我們要處理的單元格,再點(diǎn)擊菜單欄里的數(shù)值,找到數(shù)值點(diǎn)小三角,從下拉選項(xiàng)中找到文本轉(zhuǎn)數(shù)字,就完成了。

鍵盤錄入是將文本信息數(shù)字化的常用方法

鍵盤錄入語(yǔ)音識(shí)別輸入光學(xué)字符識(shí)別輸入。用數(shù)字鍵盤輸入文字信息的辦法。

如何把紙質(zhì)文檔數(shù)字化?

用掃描儀,數(shù)碼相機(jī)。拍攝儀都可以,要根據(jù)檔案的種類,選取合適的設(shè)備。另外,還要配備相關(guān)的軟件;譬如:掃描病案資料,建議采用《智慧數(shù)字化病案綜合管理系統(tǒng)》軟件。其他行業(yè)要求不同,軟件也不同。

文字資料數(shù)字化

一、文字資料數(shù)字化原則

現(xiàn)存的航空物探資料是中心開展航空物探50年來(lái)勘查和科研成果的積累,真實(shí)記錄了中心航空物探技術(shù)進(jìn)步和發(fā)展歷程,反映了航空物探在地質(zhì)找礦等方面的先行作用和突出貢獻(xiàn)。為實(shí)現(xiàn)航空物探資料的信息化管理和永久利用,擴(kuò)大航空物探服務(wù)領(lǐng)域,航空物探文字資料數(shù)字化和信息化原則是“尊重歷史,忠實(shí)原著,保持原貌,統(tǒng)一要求,加強(qiáng)監(jiān)控,確保質(zhì)量”。

二、文字資料數(shù)字化流程

航空物探資料文字資料數(shù)字化是把航空物探勘查和科研項(xiàng)目紙質(zhì)文字資料錄入成電子文檔,同時(shí)把手寫、油印的文字資料掃描成圖像格式保存,并編寫項(xiàng)目成果簡(jiǎn)介(圖8-5)。

圖8-5 文字資料數(shù)字化流程圖

三、文字資料數(shù)字化方法

文字資料數(shù)字化實(shí)質(zhì)是對(duì)中心現(xiàn)存的航空物探勘查和科研成果報(bào)告采用掃描識(shí)別和人工錄入兩種方法輸入計(jì)算機(jī)中,并按航空物探信息系統(tǒng)規(guī)定的格式和版式重新編輯,形成Word文檔(DOC格式)和Adobe Acrobat文檔(PDF格式)以滿足入庫(kù)要求。

(一)文字資料介質(zhì)質(zhì)量分類

文本如何數(shù)字化

為采取合理的數(shù)字化方法進(jìn)行文字資料數(shù)字化,通過(guò)對(duì)中心庫(kù)存的文字資料進(jìn)行較詳細(xì)的調(diào)查,按紙質(zhì)資料介質(zhì)質(zhì)量好壞、字跡和插圖清晰程度等將639份勘查和科研成果文字資料(報(bào)告)劃分為較差、中等、較好、良好4類(表8-4)。其中,1973年前資料均較差,較差和中等質(zhì)量的資料都出現(xiàn)在20世紀(jì)80年代中期以前。20世紀(jì)80年代中期以后的項(xiàng)目資料質(zhì)量均屬較好和良好。

表8-4 文字資料介質(zhì)質(zhì)量分類統(tǒng)計(jì)表

(二)文字資料數(shù)字化方法

以資料分類為基礎(chǔ),根據(jù)文字資料數(shù)字化原則,確定了文字資料數(shù)字化具體方法。

1.人工錄入法

由于較差和中等類資料多數(shù)是手寫、復(fù)寫或油印本,少數(shù)是鉛印本;存放時(shí)間長(zhǎng),幾經(jīng)輾轉(zhuǎn)搬遷,破損嚴(yán)重,字跡模糊;無(wú)法采用掃描、識(shí)別方法輸入,只能人工錄入。對(duì)錄入工作提出了具體要求,以保證人工錄入質(zhì)量。

2.掃描識(shí)別輸入法

較好和良好類資料都是正規(guī)鉛印或Word文檔(DOC格式)印刷出版,字跡清晰,可用掃描識(shí)別方法予以輸入,與人工錄入方法相比效率較高。

人工錄入、編輯航空物探勘查項(xiàng)目文字報(bào)告608份,約2739.6751萬(wàn)字;人工錄入、編輯航空物探科研項(xiàng)目文字306份,約839.0241萬(wàn)字。

為了保證中心資料獲得長(zhǎng)久保存,同時(shí)對(duì)已人工錄入的全部較差和中等類617份約9719頁(yè)的文字資料(其中,勘查115份,約3240頁(yè);科研502份,約6479頁(yè))進(jìn)行了掃描輸入,以PDF格式直接刻制光盤保存。

四、校對(duì)和檢查

文字資料由人工錄入或掃描識(shí)別,經(jīng)自檢形成的Word電子文檔全部校樣必須通過(guò)二校和部分三?;虺闄z,才能進(jìn)入編輯排版,最終生成統(tǒng)一的DOC格式的Word文檔。

由于歷史原因,在早期原稿(包括文字和插圖)中存在著其他一些錯(cuò)誤或不規(guī)范等現(xiàn)象。在保持原稿真實(shí)性的前提下,盡可能地在校樣中對(duì)問(wèn)題予以糾正和變通處理,有些則因本身遺漏或模糊無(wú)法彌補(bǔ),留下空缺。按原文字資料所附的勘誤表對(duì)文字逐一進(jìn)行了更正,原有勘誤表基本已失去存在意義了。

五、插圖掃描矢量化

使用MapGIS軟件對(duì)原文字報(bào)告中的測(cè)區(qū)示意圖、剖面圖、地質(zhì)解釋圖等1260幅插圖按照原插圖進(jìn)行矢量化,原插圖比例尺使用數(shù)字比例尺表示的換算成線性比例尺,單剖面圖加上剖面比例尺,統(tǒng)一了地質(zhì)圖中的地質(zhì)符號(hào)等,提高文字報(bào)告的插圖質(zhì)量(圖8-6)。

文本如何數(shù)字化

六、編輯排版

除勘查項(xiàng)目與科研項(xiàng)目文字報(bào)告在內(nèi)容上客觀存在的不同外,既使是同一類報(bào)告在報(bào)告內(nèi)容、排版編輯上也都有較大的差別。這是航空物探技術(shù)進(jìn)步必然的反映,也與以往文字資料缺乏統(tǒng)一標(biāo)準(zhǔn)和要求有關(guān)。在本次文字資料數(shù)字化過(guò)程中,根據(jù)項(xiàng)目統(tǒng)一要求,便于計(jì)算機(jī)管理和服務(wù),在保持報(bào)告內(nèi)容不變的前提下,將所有錄入的文字成果報(bào)告采用Word編輯排版軟件按規(guī)定的編輯模版自動(dòng)生成目錄,并在報(bào)告封面等形式上力求做到統(tǒng)一(校樣最終稿與原稿在報(bào)告封面、目錄級(jí)別、插圖和頁(yè)碼位置等方面都存在著差別,但報(bào)告內(nèi)容沒有改變)。按此要求完成了799份約47645頁(yè)文字資料的排版工作,并把文字資料格式由DOC格式轉(zhuǎn)換為PDF格式。

圖8-6a 矢量化前的插圖

圖8-6b 矢量化后插圖

七、項(xiàng)目簡(jiǎn)介編寫

為了使用戶不閱讀項(xiàng)目成果報(bào)告全文,能夠快速地了解該項(xiàng)目概貌,獲得該成果報(bào)告的主要內(nèi)容和信息,按照航空物探信息系統(tǒng)建庫(kù)要求,編寫了航空物探勘查和科研項(xiàng)目簡(jiǎn)介455份,約28萬(wàn)字。其中,航空物探勘查成果報(bào)告423份,約26萬(wàn)字;科研成果報(bào)告32份,約2萬(wàn)字。以濃縮的形式概括項(xiàng)目成果的主要內(nèi)容,包括工作方法或研究方法、質(zhì)量評(píng)價(jià),取得的主要成果和最終結(jié)論。

相關(guān)資料數(shù)字化

實(shí)物相關(guān)資料數(shù)字化是對(duì)實(shí)物相關(guān)的文字、圖件、表格等文件的數(shù)字化以及電子文件的制作。目的是配合實(shí)物數(shù)字化,形成完整的實(shí)物地質(zhì)資料圖文圖像系統(tǒng),進(jìn)而建立數(shù)字化實(shí)物地質(zhì)資料閱覽室,提高實(shí)物地質(zhì)資料利用率,并有效地保護(hù)館藏圖文資料,為實(shí)物地質(zhì)資料信息共享提供基礎(chǔ)。

實(shí)物地質(zhì)資料相關(guān)的圖文資料包括文本資料和圖紙資料,數(shù)字化工作也是針對(duì)這兩類資料而言的。

(一)文本資料數(shù)字化

1.工作流程及方法

文本資料數(shù)字化是通過(guò)掃描的方法把以紙介質(zhì)為載體的地質(zhì)資料轉(zhuǎn)變?yōu)橐噪娮訛榻橘|(zhì)的電子文件,并進(jìn)行文件組織的過(guò)程。主要工作過(guò)程包括資料準(zhǔn)備、掃描、圖像處理、生成電子文件、文檔組織與保存等幾個(gè)方面(圖7-25)。

圖7-25 文本資料數(shù)字化工作流程

(1)掃描前的準(zhǔn)備工作:做好文本資料的準(zhǔn)備工作是十分必要的。資料的單冊(cè)厚度影響著文本的掃描質(zhì)量,越厚越不利于掃描,有些文本裝訂得比較厚時(shí),應(yīng)將文本拆開進(jìn)行掃描,掃描工作結(jié)束后再按照檔案管理的要求進(jìn)行重新裝訂。在進(jìn)行若干份單頁(yè)的文件掃描時(shí),掃描前要做好資料的登記工作,以免丟失。利用文檔掃描儀進(jìn)行多頁(yè)文件掃描之前,要對(duì)文本資料進(jìn)行除靜電處理。

(2)圖像掃描:對(duì)于文本資料紙質(zhì)較好,又不超過(guò)標(biāo)準(zhǔn)A4版面的時(shí)候,為節(jié)省掃描時(shí)間,提高工作效率可以采用專用的多頁(yè)文檔掃描儀進(jìn)行連續(xù)掃描,其他的文本資料使用平板掃描儀逐頁(yè)進(jìn)行掃描。掃描類型的選擇是完成文本數(shù)字化工作的重要環(huán)節(jié)。正確地選擇掃描類型,是提高掃描質(zhì)量的保證。掃描類型的選擇是由原件的類型來(lái)確定的。常用文本資料的掃描類型有黑白二值、RGB、灰階3種:①黑白二值方式,當(dāng)文字或表格質(zhì)量都非常高時(shí),采用這種方式掃描,掃描效果較好;②灰階方式,當(dāng)文本資料字跡不清楚或是表格時(shí),使用黑白二值方式產(chǎn)生的圖像效果較差,表格線會(huì)斷斷續(xù)續(xù),此時(shí)可選用灰階方式掃描,但這種方式掃描的圖像有較多的灰色印跡,需在后期進(jìn)行圖像處理時(shí),使圖像達(dá)到最佳效果;③RGB方式,對(duì)文本資料中的彩色圖件一般采用這種方式進(jìn)行掃描,用這種方式掃描產(chǎn)生的文件占用的磁盤空間較大,在掃描時(shí)應(yīng)進(jìn)行亮度、對(duì)比度及色度的調(diào)整,通過(guò)反復(fù)對(duì)比,使圖件色彩達(dá)到最佳的效果。在掃描前應(yīng)進(jìn)行預(yù)掃描,目的是選擇掃描分辨率及調(diào)整亮度和對(duì)比度。掃描分辨率、亮度及對(duì)比度調(diào)整與文本資料的質(zhì)量有一定的關(guān)系,當(dāng)一冊(cè)文本資料質(zhì)量變化不大時(shí),選擇一頁(yè)或幾頁(yè)進(jìn)行掃描實(shí)驗(yàn),結(jié)合掃描工作經(jīng)驗(yàn)選擇適合的分辨率、亮度及對(duì)比度;當(dāng)文本質(zhì)量有明顯變化時(shí),每頁(yè)資料的亮度及對(duì)比度都要分別進(jìn)行調(diào)整。每次掃描時(shí)若不進(jìn)行掃描區(qū)域的選擇,掃描區(qū)域就與上次的掃描區(qū)域相同,這樣有可能漏掉文本內(nèi)容。掃描區(qū)域過(guò)大,掃描時(shí)間就延長(zhǎng),文件所占的空間增大,增加后期圖像處理的工作量。根據(jù)選擇掃描類型的不同,文件存儲(chǔ)格式也有所不同。黑白二值方式掃描產(chǎn)生的圖像不能進(jìn)行糾斜和旋轉(zhuǎn),存儲(chǔ)格式為 TIFF;灰階和RGB方式掃描存儲(chǔ)格式均為JPG,這種格式是經(jīng)過(guò)壓縮的。當(dāng)掃描參數(shù)調(diào)整完成時(shí),就要選擇路徑將掃描文件進(jìn)行保存。掃描文件最好是放置在一個(gè)獨(dú)立的位置上,以免與其他文件混淆。文件的名稱能反映其中文本資料的主題內(nèi)容。與此同時(shí),還要給每頁(yè)文件確定一個(gè)適當(dāng)?shù)拿Q,最好以文件的頁(yè)碼為文件的名稱,以便對(duì)文件進(jìn)行排版時(shí)不會(huì)出順序上的錯(cuò)誤。同時(shí)保證以后再對(duì)文件進(jìn)行處理時(shí)能很快識(shí)別此文件是屬于哪個(gè)類別的、哪個(gè)地區(qū)的、哪個(gè)鉆孔的等。如圖7 26所示。在掃描方式、掃描參數(shù)、存儲(chǔ)格式、存儲(chǔ)路徑和文件名都已設(shè)定好之后,就可以進(jìn)行掃描了。當(dāng)頁(yè)面大于A4幅面時(shí),可以用A3大幅面掃描儀進(jìn)行掃描,對(duì)于超過(guò)A3 幅面的文本資料可以分次掃描,掃描完成后再進(jìn)行拼接。掃描是整個(gè)數(shù)字化工作中最基礎(chǔ)、最關(guān)鍵的環(huán)節(jié),好的掃描質(zhì)量,能夠使電子文件獲取清晰度較高的效果,投入最少的整飾工作量,從而節(jié)省大量的時(shí)間、人力和物力。

圖7-26 文件存儲(chǔ)結(jié)構(gòu)示意

(3)圖像處理:當(dāng)完成一冊(cè)文本資料的掃描工作后,此文本資料以一系列圖像形式的文件保存在一個(gè)固定的文件夾內(nèi)。這些圖像需調(diào)整處理,才能達(dá)到文本數(shù)字化的要求。在Photoshop中打開掃描圖像,逐個(gè)進(jìn)行糾斜、旋轉(zhuǎn)、剪裁、去污、亮度/對(duì)比度等的調(diào)整。經(jīng)過(guò)幾次這樣的調(diào)整,使圖像達(dá)到真實(shí)反映文本資料原貌。

(4)生成電子文件:將調(diào)整好的單個(gè)圖像文件逐個(gè)插入到Word文檔中,形成Word格式的文檔,然后再轉(zhuǎn)化成PDF格式文件,文件名要與每?jī)?cè)文本資料的名稱相同或相近,如大巴山地應(yīng)力孔的《巖礦心接收登記表》,電子文件命名為“巖礦心接收登記表.PDF”。

(5)文檔組織與保存:當(dāng)完成了一個(gè)礦區(qū)的所有文本資料的掃描工作以后,將形成的PDF文件按一定的順序重新組織編排,生成具有目錄索引特征的單個(gè)PDF文件,其格式見圖7-27。

圖7-27 PDF電子文件界面

2.影響文本資料掃描效果的主要因素

將文本資料平放在掃描儀的掃描區(qū)域中,有的文本資料裝訂得比較規(guī)范,一般情況下在掃描前不需拆開,進(jìn)行掃描時(shí)掃描人員用手緊壓文本資料,盡可能地緊貼掃描面板,以保證有較好的掃描效果。如果文本資料較薄,則可用掃描儀的蓋板壓緊即可。這個(gè)環(huán)節(jié)的操作要輕拿輕放,避免文本資料在掃描板上滑動(dòng),劃傷掃描板,直接影響掃描的效果。

目前收集來(lái)的一些實(shí)物相關(guān)資料是20世紀(jì)80年代初期產(chǎn)生的,隨著時(shí)間的推移,許多文本資料字跡已經(jīng)很模糊,這些資料又多以復(fù)印件為主,特別是野外記錄本和一些整理資料多數(shù)都是手寫資料,字體不一,書寫也不規(guī)范,資料內(nèi)容就更為模糊了,這樣的資料掃描難度較大,效果也不理想。

有的文本資料的厚度大又不宜拆開,直接影響了掃描質(zhì)量,文本資料越厚在掃描過(guò)程中就越不容易壓平,掃描后非常不清楚。因此在掃描較厚的文本資料時(shí),需要掃描人員用手使勁壓平文本,才能保證掃描的質(zhì)量。顯而易見,這樣掃描會(huì)降低掃描的效率,因此在掃描這種較厚的文本資料時(shí),要求工作人員必須有耐心,將每一頁(yè)資料都能充分地?cái)[正放平,使每一部分信息都能掃描得非常清晰。

(二)圖紙的掃描

在實(shí)物地質(zhì)資料中,有一部分資料是地形圖、剖面圖、地質(zhì)圖、柱狀圖等,其幅面一般都超過(guò)A3。這部分圖紙使用A0工程掃描儀掃描。

1.掃描儀參數(shù)的設(shè)定

通過(guò)實(shí)驗(yàn),圖紙掃描分辨率采用200dpi,掃描方式采用灰度,圖像保存格式為tif,基本能夠滿足資料利用的需要。

2.影響圖紙掃描效果的幾個(gè)因素及處理方法

(1)掃描儀的校準(zhǔn):在試掃描過(guò)程中發(fā)現(xiàn),在每張圖紙的左側(cè),總是有一條直線,有上下錯(cuò)位的現(xiàn)象發(fā)生,為了不影響圖像的質(zhì)量,筆者請(qǐng)教了熟悉掃描儀操作的同志,之所以出現(xiàn)這種現(xiàn)象,是由于掃描儀的3個(gè)鏡頭在掃描過(guò)程中發(fā)生了錯(cuò)位,導(dǎo)致一條直線出現(xiàn)“折斷”的現(xiàn)象。為了解決這一問(wèn)題,每次掃描前,首先進(jìn)行掃描校準(zhǔn)。

(2)圖紙的質(zhì)量:有的柱狀圖由于太長(zhǎng),在平常的保存過(guò)程中一直是卷成筒狀的,并用棉線輕輕捆綁著。因此在圖紙的邊緣部分,常出現(xiàn)磨痕或裂口。這樣的圖紙?jiān)跐L動(dòng)掃描時(shí),稍不注意就會(huì)出現(xiàn)不同步現(xiàn)象,使掃描圖像發(fā)生偏斜扭曲。處理這種情況的方法是對(duì)圖紙進(jìn)行修復(fù),方法是在圖紙的邊緣用乳膠粘上一層薄紙,再用熨斗熨平。

數(shù)字化后的文字信息處理技術(shù)是什么

文字信息處理的實(shí)質(zhì),是先把文字信息數(shù)字化,即用一個(gè)固定的數(shù)碼代表一個(gè)字母或文字。例如,在英文信息中,以26個(gè)字母作為文字信息處理的單位,因此要對(duì)26個(gè)字母逐個(gè)地確定代替它的數(shù)碼。在漢字的情況下,一般是以一個(gè)整字作為文字信息處理的單位,因此要對(duì)每一個(gè)整字惟一地確定代表它的數(shù)碼。這一數(shù)碼統(tǒng)稱為代碼(code)。在計(jì)算機(jī)內(nèi)部處理文字信息時(shí),就像處理數(shù)據(jù)一樣對(duì)待。處理完畢后,再把替代的數(shù)碼還原成相應(yīng)的字母或文字。利用計(jì)算機(jī)能夠調(diào)整處理數(shù)據(jù)的性能,使文字信息處理也能夠分享計(jì)算機(jī)技術(shù)的這一獨(dú)特優(yōu)點(diǎn),從而實(shí)現(xiàn)文字信息處理的高效化。
計(jì)算機(jī)之所以能有較高的運(yùn)算和處理能力,是由于它利用了電子處理技術(shù)以及二進(jìn)制數(shù)運(yùn)算這一法則。計(jì)算機(jī)中的運(yùn)算器,利用半導(dǎo)體器件的兩個(gè)狀態(tài)(通和斷)的變化,代表二進(jìn)制數(shù)字串中的一個(gè)二進(jìn)制數(shù)位上的“1”或“0”的變化,從而能夠高速地執(zhí)行二進(jìn)制數(shù)的數(shù)值或邏輯運(yùn)算。實(shí)際上,計(jì)算機(jī)無(wú)論做數(shù)值的或任何種類信息的運(yùn)算或處理,最基本的運(yùn)算操作就是這種二進(jìn)制數(shù)的演算。

標(biāo)簽

本文網(wǎng)址:http://oaoy.cn/cgal/8043.html

相關(guān)資訊

我是中博奧客服:小奧
中博奧技術(shù)有限公司& 版權(quán)所有工信部備案號(hào):豫ICP備11015869號(hào)-8 Copyright ? 2023-2024

檔案整理檔案數(shù)字化

檔案掃描檔案管理軟件系統(tǒng)

TEL:18937133779

To Top