電 話:18937133779
網 址:http://oaoy.cn
郵 箱:zboao@qq.com
藏品數字化管理就是將蘊涵在藏品內部的各種信息通過以文字、符號、圖像等形式,記錄描述、復制加工于電子載體并為使用者調用。
為什么要實行數字化管理?
美術館的藏品屬于國家的珍貴文化財產,通過電腦管理軟件的引入,可將藏品的大部分信息經過處理后,在傳統(tǒng)手寫入賬的基礎上,把有關藏品的一切資料錄入電腦藏品管理系統(tǒng),如藏品名稱、年代、尺寸、質材、放置位置、著錄、作者簡介、曾獲何種獎項等等文字資料,特別是作品的圖片及污損之處拍成圖樣及藏品修復前后的圖像數據對比等,均可輸入電腦,再利用電腦軟件的檢索功能,實現藏品利用的最大化。這樣在藏品資料的反復使用上,比人工檢索存查檔案有著很大的優(yōu)勢。查閱藏品時,可從電腦庫中看到該藏品的圖片及局部放大的圖樣,使得對藏品的認識更直觀,也有助于對藏品相關資料的研究和信息交流,服務于社會。
同時,引入藏品電腦管理系統(tǒng)后不必經常從庫房中提取藏品實物,減少了珍貴藏品人為損壞的機率,從而有效地保護了藏品。
怎樣進行數據化管理?
1、 藏品圖片的數字化
隨著美術館藏品數量及系列性藏品的逐漸增加,出版成為藏品圖片向大眾及學者提供信息及研究的一種有效方式,通過對藏品進行數字化采集轉換成數字化文件。
2、 信息資料的數字化
在原來電腦藏品管理系統(tǒng)的基礎上,將軟件進行升級,建立聯機版的電腦操作系統(tǒng),既方便了部門內部進行藏品管理,又方便了藏品資源的共享。在此基礎上,將出版的書刊與藏品有關的資料進行有序地錄入,使以往零散的資料進行科學的整合,能夠更全面地為藏品的研究提供全面及便捷的途徑。
3、 藏品資源的網絡化
有了一整套較為完善的文字資料數據,即可將藏品的文字資料上傳至美術館現有網站的典藏專區(qū),以便查閱。今年又對典藏區(qū)網頁進行改版,完善和豐富了查閱資料,可按作者姓名、作品名稱,作品分類分別進行搜索,同時還配上圖片,使資料更為齊全。
4、 部分藏品進行數據化開發(fā)
目前許多美術館為了社會多種層次的需要,進行部分藏品進行精印復制,這種方式是將作品進行原大的高精度復制,并通過先進的色彩管理系統(tǒng)進行色彩的進一步還原,效果十分理想。此舉為開發(fā)藏品資源邁出具有試驗性的第一步,也是藏品數據資源服務社會的一種延伸。
藏品數字化的實質性應用
進行藏品數字化是為了更好地保護藏品及將這些珍貴的資源服務于社會,使藏品資源利用最大化。
1、 應用于研究出版
在將大部分藏品圖像進行拍攝及電分掃描后,可以隨時將館藏的作品進分系列、分研究項目出版印刷,同時也為研究工作及文化傳播提供了一種最直觀的查閱方式。
2、 應用于展覽
該館對一些比較珍貴及易損壞的作品,特別是攝影作品的展覽可利用數字化進行展覽級別的沖印,專門用于展覽,而將原件保存在庫房內,減少了藏品損壞及遺失的危險性。
3、 應用于宣傳
美術館的藏品不但要通過展覽,更需要通過不同媒介的宣傳,包括平面的報刊雜志及現代的電子網絡宣傳,特別是針對個別系列的宣傳報道,藏品資料的數字化可以隨時為非盈利目的的宣傳提供詳盡的資料。
4、 應用于策展和文案的制作
有了系統(tǒng)化的數據管理資料,方便了展覽策劃人員進行展品的挑選,并制作為不同類型的文檔,如Powerpoint等軟件,以制作策展方案和設計布展。
5、應用于公共教育及服務
可將藏品制作成動態(tài)畫面,以影像資料的形式播放,開展美術教育和藝術欣賞活動。
6、應用于藝術品開發(fā)
通過數字化圖像,能衍生出高精度復制品和其它立體或平面的禮品、紀念品,滿足了藝術愛好者的需求。
藏品數字化需要注意的問題及發(fā)展趨向
1、在進行藏品資源數字化的進程中,也發(fā)現了一些問題,特別是版權的問題,由于目前國家在這方面的相關管理規(guī)定還不明確,所以使用時應避免侵權行為的發(fā)生。因此在進行相關的數字化之前,必須與有關的單位、個人簽定版權協(xié)議和保密協(xié)議,并以國家法律作為依據。
2、基于藏品需要進行開發(fā),必須處理好與藝術家或家屬的關系,并與版權擁有者簽定相關的協(xié)議或使用合同,從而保證各方面的合法權益。
3、藏品數字化后資料的保存及安全問題。當前眾多美術館采用DVD及服務器的形式進行儲存,但這種儲存方式未考慮到自然原因或火災造成的資料丟失等意外情況。對此,目前尚未找到穩(wěn)妥的辦法.
4、資源數據的保存問題,目前的數字化是以應用為基礎進行的一種管理方式,暫未考慮到以后的藏品源文件數據的升級換代的需要和應用于更高層次的需要,因此,有一定的局限性。
數字化博物館的核心是建設數字化技術和藏品資源信息為主的數據庫,它的建設將最終改變傳統(tǒng)博物館資源的單一展示方式,實現藏品資源的充分利用和先進管理。我們可以看到,數字博物館以傳統(tǒng)博物館為基礎,發(fā)展迅猛,正以嶄新的面貌和獨特的優(yōu)勢受到社會的重視和公眾的關注,逐漸顯示出美好的發(fā)展前景和利用價值,加快數字化建設十分有利于事業(yè)的發(fā)展。
數字化技術對民間藝術保護的風險問題論文
摘要 :在規(guī)范性保護、系統(tǒng)性保護、原生態(tài)保護、整體性保護以及創(chuàng)新型保護原則的指導下,民間藝術可以采用如數字地圖、數字攝影、數字視頻、數字音頻、數字全景、數字動畫以及觸覺媒體、虛擬現實等數字化技術加以保護,通過這些方式,有效的避免了在民間藝術保護過程中相關的技術、文化、知識產權以及成本等風險。通過數字化技術,民間藝術擺脫了時間和空間的限制,最大程度的得到展示、利用和共享,也就是說民間藝術的數字化保護已經成為一種新的應用平臺在公眾傳播方面發(fā)揮著巨大的作用。
關鍵詞 :數字化技術;民間藝術保護;風險問題
民間藝術數字化技術保護是一個全新話題,也是一個涉及范圍廣涵蓋面寬的綜合性工程。數字化技術為民間傳統(tǒng)藝術的保護和傳播提供了技術手段,同時改變了文化遺產傳統(tǒng)的保護方式,但是應該看到,數字化技術雖能促進不同文化之間的溝通和交流,卻也可能在保護文化遺產的過程中的技術和傳播層面弱化、扭曲甚至抹殺不同文化之間的差異性。如何預防民間藝術數字化進中的風險,是民間藝術數字化保護中的新問題。
一、數字化保護過程中的技術風險
1.信息采集、處理和儲存過程中隱含的風險
民間藝術的數字化涉及信息的采集、處理和儲存,這其中包含采集設備的選擇、數據處理方式、儲存格式和數據庫技術。但是截止到目前,并沒有一個全國統(tǒng)一的數據加工規(guī)范或標準,無論在民間藝術普查階段還是在名錄項目申過程中,都不同程度存在一些問題,具體表現在:數據資料保存很好,但標示和描述很差,以至于使?jié)撛诘挠脩魺o法了解發(fā)現它們;由于沒有將與民間藝術相關的信息進行很好的鏈接綁定,導致人們存取資源時而資源本身卻不能被人們理解,或者不可靠;往往由于數據確認和數據處理軟件的獨立性,造成數據的實用性降低的結果;數據庫中數據集可以被保留,但由于各自采用不同的數據庫技術,使得他人無法理解其結和規(guī)則,數據不能夠被存取;也有一些采用了口令保護、加密、安全設備等措施的數據但在不適用時也會導致資料的不可使用。民間藝術分布在各地,如果各地都以不同的方式、規(guī)格和技術進行數據加工,就很難達到民間藝術的最終目的——保護、傳承以及資源的整合、共享。
2.數據庫技術采用不當隱含的風險
中央管理系統(tǒng)是民間藝術數字化技術保護的核心,通常都離不開后據庫臺數的支持。我國的目前常用的管理系統(tǒng)后臺軟件都是一些商業(yè)軟件。而這些商業(yè)軟件除了價格高,還會隨著新版本的升級重新造成使用者被動學習的負擔,用戶對軟件的內部結構是不了解的。況且,生產軟件及公司都有其生命周期,這對于我們民間藝術幾百年甚至上千年的延續(xù),可以不值一提。一旦我們依賴的軟件和技術停止開發(fā)或公司倒閉,那么我們前期開發(fā)的系統(tǒng)只能停止使用,造成浪費。并且可能導致對數字技術分離。
二、數字化保護過程中的文化風險
1.人文把握不當隱含的.風險
隨著數字技術的深入,在文化遺產保護方面的問題也一一凸顯。數字技術雖然是目前最有效的保護手段,但其技術弊端也不可避免地損害了文化傳承。它容易形成一種新的話語霸權,在記錄保護文化的同時,可能會抹殺某些歷史文化傳承,將過多的現代化的東西植入其中,讓本來應該盡量原生態(tài)的保護,摻雜了太多的技術人為因素,使得文化保護不再純粹,而成為一種帶有所謂“創(chuàng)造性”的保護,這需引起我們高度重視。
2.引進別國技術隱含的風險
近年來,我國在民間藝術的數字化保護上成果顯著,但與國外相比,我們的民間傳統(tǒng)藝術數字化過程中還存在許多欠缺和不足。目前由于我們信息資源的發(fā)展方面仍然很弱,導致技術信息的輸入多于技術信息的流出。而由于技術水平上的差距,讓我們在民間藝術的保護中往往受制于人,引進的軟件技術同時也存在泄露文化核心內容的風險,所以在民間藝術使用數字技術保護方面所隱含的風險也要嚴加防范。
三、數字化保護中的知識產權風險
民間藝術是我們的寶貴財富,是我們國家和民族的發(fā)展過程和精神財富。隨著現代社會經濟的發(fā)展,一些民間藝術正面臨著消亡的危險;而其蘊含的文化、商業(yè)價值卻慢慢顯現出來,而民間藝術的權屬糾紛等問題也逐漸凸顯。而我國在民間藝術保護的司法領域卻相對滯后,從而造成民間藝術的法律保護和怎樣能促其繁榮發(fā)展等問題日漸重要。民間藝術數字化技術的合理使用其過程面臨最多的就是信息的采集和集中,這需要通過相關的文化管理等部門或著是傳承人的允許后才能對民間藝術等工藝信息進行全方位細致的分類、收集。而采集后所形成的數字化信息藝術,根據我國的《著作權法》的相關規(guī)定,在特定的情況下是可以“合理使用”的,如博物館、美術館、圖書館和檔案館等公共機構在對傳統(tǒng)藝術作品的選用、陳列、保存等方面使用有著作權的作品是不必征得許可的。民間藝術數字化資料的檢索問題。民間藝術文化的數字化保護目的之一是建立館藏資源數據庫,可以以多種形式進行保護,如博物館或其他公共社會機構的形式,其保護目的主要是為了能更好地保護好我們的民間藝術資源,能讓更多的人們以及我們的后人進行了解和觀賞以及應用。為了更好的方便檢索館藏資源數據庫,必須對龐大的數據庫信息資源進行有效的分類與歸檔,建立數子化檢索系統(tǒng),這樣才便于人們對所需資源的檢索與查找,從而提高使用效率。對數據庫資源的開發(fā)與建立,需要投入大量的人力物力和財力,而且還需要投入大量的經費用于后期的維護,應該享有著作權,得到《著作權法》的保護。因此我們在對民間藝術原數據信息進行檢索,查閱和復制時就應征得權利人的許可并支付相應的報酬。
四、數字化技術保護的成本風險
隨著對民間藝術數字化技術保護的過程中,投入的財力成本也會隨著設備的軟件和硬件的更新換代,以及對圖像的質量要求的提高而加大。為了有更好的直觀效果而使用視頻模式擴大存儲容量也會造成成本越來越高,資源消耗加大,費用提高等情況。而這些都是在民間藝術數字化技術保護過程中不得不重視的問題。同時數字化數據庫的后期資源維護也需要投入人物和財力,為了更好的對數據庫信息的使用滿足人們的需求,必須對民間藝術數字化技術保護的投入產出進行有效的規(guī)劃與論證。控制不必要的浪費和投入,在資金有限的情況下對民間藝術數字化信息的對象和傳播方式進行選擇,避免造成成本過高或垃圾數據堆積等情況。
參考文獻:
[1]周全明,耿國華.文化遺產數字化保護技術及應用.北京:高等教育出版社,2011.
[2]張耕.民間文學藝術的知識產權保護研究.北京:法律出版社,2007.
[3]李欣.數字化保護:非物質文化遺產保護的新路向.北京:科學出版社,2011.
★常用文件擴展名列表
A 對象代碼庫文件
AAM Authorware shocked文件
AAS Authorware shocked包
ABF Adobe二進制屏幕字體
ABK CorelDRAW自動備份文件
ABS 該類文件有時用于指示一個摘要(就像在一篇有關科學方面的文章的一個摘要或概要,取自abstract)
ACE Ace壓縮檔案格式
ACL CorelDRAW 6鍵盤快捷鍵文件
ACM Windows系統(tǒng)目錄文件
ACP Microsoft office助手預覽文件
ACR 美國放射醫(yī)學大學文件格式
ACT Microsoft office助手文件
ACV OS/2的驅動程序,用于壓縮或解壓縮音頻數據
AD After Dark屏幕保護程序
ADA Ada源文件(非-GNAT)
ADB Ada源文件主體(GNAT);HP100LX組織者的約定數據庫
ADD OS/2用于引導過程的適配器驅動程序
ADF Amiga磁盤文件
ADI AutoCAD設備無關二進制繪圖儀格式
ADM After Dark多模塊屏幕保護;Windows NT策略模板
ADP FaxWork用于傳真調制解調器的交互安裝文件;Astound Dynamite文件
ADR After Dark隨機屏幕保護;Smart Address的地址簿
ADS Ada源文件說明書(GNAT)
AFM Adobe的字體尺度
AF2,AF3 ABC的FlowChat文件
AI Adobe Illustrator格式圖形
AIF,AIFF 音頻互交換文件,Silicon Graphic and Macintosh應用程序的聲音格式
AIFC 壓縮AIF
AIM AOL即時信息傳送
AIS ACDSee圖形序列文件;Velvet Studio設備文件
AKW RoboHELP的幫助工程中所有A-關鍵詞
ALAW 歐洲電話音頻格式
ALB JASC Image Commander相冊
ALL 藝術與書信庫
AMS Velvet Studio音樂模塊(MOD)文件;Extreme的Tracker模塊文件
ANC Canon Computer的調色板文件,包含一系列可選的顏色板
ANI Windows系統(tǒng)中的動畫光標
ANS ANSI文本文件
ANT SimAnt For Windows中保存的游戲文件
API Adobe Acrobat使用的應用程序設計接口文件
APR Lotus Approach 97文件
常用文件擴展名及含義(B開頭)
BIN 二進制文件
BK,BK$ 有時用于代表備份版本
BKS IBM BookManager Read書架文件
BMK 書簽文件
BMP Windows或OS/2位圖文件
BMI Apogee BioMenace數據文件
BOOK Adobe FrameMaker Book文件
BOX Lotus Notes的郵箱文件
BPL Borlard Delph 4打包庫
BQY BrioQuery文件
BRX 用于查看多媒體對象目錄的文件
BSC MS Developer Studio瀏覽器信息文件
BSP Quake圖形文件
BS1 Apogee Blake Stone數據文件
BS_ Microsoft Bookshelf Find菜單外殼擴展名
BTM Norton 應用程序使用的批處理文件
BUD Quicken的備份磁盤
BUN CakeWalk 聲音捆綁文件(一種MIDI程序)
BW SGI黑白圖像文件
BWV 商業(yè)波形文件
BYU BYU的電影文件格式
B4 Helix Nuts and Bolts文件
常用擴展名及含義(C開頭)
C C代碼文件
C0l 臺風波形文件
CAB Microsoft壓縮檔案文件
CAD Softdek的Drafix CAD文件
CAL CALS壓縮位圖;日歷計劃表數據
CAM Casio照相機格式
CAP 壓縮音樂文件格式
CAS 逗號分開的ASCⅡ文件
CAT Quicken使用 的IntellCharge分類文件
CB Microsoft干凈引導文件
CBI 二進制卷格式文件(用于IBM大型機系統(tǒng))
CC Visual dBASE用戶自定義類文件
CCA cc:郵件文件
CCB Visual Basic動態(tài)按鈕配置文件
CCF 多媒體查看器配置文件,用于OS/2
CCH Corel圖表文件
CCM Lotus cc:郵箱(例如“INBOX.CCM”)
CCO CyberChat數據文件
CCT Macromedia Director Shockwave投影
CDA CD音頻軌道
CDF Microsoft頻道定義格式文件
CDI Philip的高密盤交互格式
CDM Visual dBASE自定義數據模塊文件
CDR CorelDRAW繪圖文件;原始音頻CD數據文件
CDT CorelDRAW模板
CDX CorelDRAW壓縮繪圖文件;Microsoft Visual FoxPro索引文件
CEL CIMFast事件語言文件
CER 證書文件(MIME x-x509-ca-cert)
CFB Compton的多媒文件
CFG 配置文件
CFM CotdFusion模板文件;Visual dBASE Windows用戶定制表單
CGI 公共網關接口腳本文件
CGM 計算機圖形元文件
CH OS/2配置文件
CHK 由Windows磁盤碎片整理器或磁盤掃描保存的文件碎片
CHM 編譯過的HTML文件
CHR 字符集(字體文件)
CHP Ventura Publisher章節(jié)文件
CHT ChartViem文件;Harvard Graphics矢量文件
CIF Adaptec CD 創(chuàng)建器 CD映像文件
CIL Clip Gallery下載包
CIM SimCity 2000文件
CIN OS/2改變控制文件用于跟蹤INI文件中的變化
CK1 iD/Apogee Commander Keen 1數據文件
CK2 iD/Apogee Commander Keen 2數據文件
CK3 iD/Apogee Commander Keen 3數據文件
CK4 iD /Apogee Commander Keen 4數據文件
CK5 iD /Apogee Commander Keen 5數據文件
CK6 iD /Apogee Commander Keen 6數據文件
CLASS Java類文件
CLL Crick Software Clicker文件
CLP Windows 剪貼板文件
CLS Visual Basic類文件
CMD Windows NT,OS/2的命令文件;DOS CD/M命令文件;dBASEⅡ程序文件
CMF Corel元文件
CMG Chessmaster保存的游戲文件
CMP JPEG位圖文件;地址文檔
CMV Corel Move動畫文件
CMX Corel Presentation Exchange圖像
CNF Telnet,Windows和其他其內格式會發(fā)生改變的應用程序使用的配置文件
CNM Windows應用程序菜單選項和安裝文件
CNQ Compuworks Design Shop文件
CNT Windows(或其他)系統(tǒng)用于幫助索引或其他目的內容文件
COB TrueSpace 2對象文件
COD Microsoft C編譯器產生的可顯示機器碼/匯編代碼文件,其中附有源C代碼作為注釋
COM 命令文件(程序)
CPD,CPE 傳真覆蓋文檔
CPI Microsoft MS-DOS代碼頁信息文件
CPL 控制面板擴展名,Corel顏色板
CPO Corel打印存儲文件
CPP C++代碼文件
CPR Corel提供說明書文件
CPT Corel 照片-繪畫圖像
CPX Corel Presentation Exchange壓縮圖形文件
CRD Windows Cardfile文件
CRP Corel 提供的運行時介紹文件;Visual dBASE自定義報表文件
CRT 認證文件
CSC Corel腳本文件
CSP PC Emcee On_Screen圖像
CSS 瀑布式表格文件
CST Macromedia Director Cast文件
CSV 逗號分隔的值文件
CT Scitex CT位圖文件;Paint Shop Pro Grapic編輯器文件
CTL 通常用于表示一個包含控件信息的文件;FaxWork用它來保持有關每個傳真收到或發(fā)出的信息
CUE Microsoft提示牌數據文件
CUR Windows光標文件
CUT Dr Halo位圖文件
CV Corel版本的檔案文件;Microsoft CodeView信息屏幕文件
CWK ClarisWorks數據文件.
CWS ClarisWorks模塊
CXT Macromedia Director受保護的(不可編輯的)投影文件
CXX C++源代碼文件
常用擴展名及含義(D開頭)
DAT 數據文件;WrodPerfect合并數據文件;用于一些MPEG格式的文件
DB Borland的Paradox 7表
DBC Microsoft Visual FoxPro數據庫容器文件
DBF dBASE文件,一種由Ashton-Tate創(chuàng)建的格式,可以被ACT!、Lipper、FoxPro、Arago、Wordtech、Xbase和類似數據庫或與數據庫有關產品識別;可用數據文件(能被Excel 97打開);Oracle 8.1.x表格空間文件
DBX DataBearn圖像;Microsoft Visual FoxPro表格文件
DCM DCM模塊格式文件
DCR 沖擊波文件
DCS 桌面顏色分隔文件
DCT Microsoft Visual FoxPro數據庫容器
DCU Delphi編譯單元文件
DCX Microsoft Visual FoxPro數據庫容器;基于PCX的傳真圖像;宏
DC5 DataCAD繪圖文件
DDF Btrieve或Xtrieve數據定義文件,它包含用于描述Btrieve或Xtrieve文件的元數據
DDIF Digital Equipment或 Compaq格式,用于保存他們圖像與字處理文檔
DEF SmartWareⅡ數據文件;C++模塊定義文件
DEFI Oracle 7 卸載腳本文件
DEM 用于表示數字高度模型的USGS基準的文件
DER 認證文件
DEWF Macintosh Sound Cap/Sound Edit錄音設備格式
DGN Macintosh 95 CAD繪圖文件
DIB 設備無關位圖
DIC 目錄
DIF 可進行數據互換的電子表格
DIG DigiLink格式;Sound DesignerⅠ音頻文件
DIR MacromediaDirector文件
DIZ 描述文件
DLG C++對話框腳本文件
DLL 動態(tài)鏈接庫
DLS 可下載聲音文件
DMD Visual dBASE數據模塊文件
DMF X-Trakker音樂模塊(MOD)文件
DOC FrameMaker或FrameBuilder文檔;Word Star文檔、Word Perfect文檔、Microsoft Word文檔;DisplayWrite文檔
DOT Microsoft Word文檔模板
DPL Borland Delph3壓縮庫
DPR Borland Delphi工程頭文件
DRAW Acorn的基于對象的矢量圖像文件
DRV 驅動程序
DRW Micrografx Designer/Draw;Pro/E繪畫文件
DSF Micrografx Designer VFX文件
DSG DOOM保存的文件
DSM Dynamic Studio音樂模塊(MOD)文件
DSP Microsoft Developer Studio工程文件
DSQ Corel QUERY(查詢)文件
DST 刺繡機圖形文件
DSW Microsoft Developer Studio工作區(qū)文件
DTA Word Bank(世界銀行)的STARS數據文件
DTD SGML文檔類型定義(DTD)文件
DTED 地面高度數字數據(圖形的數據格式)文件
DTF Symantec Q&A相關的數據庫數據文件
DTM DigiTrakker模塊文件
DUN Microsoft拔號網絡導出文件
DV 數字視頻文件(MIME)
DWD DiamondWare數字化文件
DWG AutoCAD工程圖文件;AutoCAD或Generic CADD老版本的繪圖格式
DXF 可進行互交換的繪圖文件格式,二進制的DWG格式的文本表示;數據交換文件
DXR Macromedia Director受保護(不可編輯)電影文件
D64 Commodore的64位模擬磁盤圖像文件
常用擴展名及含義(E開頭)
EDA Ensoniq ASR磁盤映像
EDD 元素定義文檔(FrameMaker+SGML文檔)
EDE Ensoniq EPS磁盤映像
EDK Ensoniq KT磁盤映像
EDQ Ensoniq SQ1/SQ2/Ks32磁盤映像
EDS Ensoniq SQ80磁盤映像
EDV Ensoniq VFX-SD磁盤映像
EFA Ensoniq ASR文件
EFE Ensoniq EPS文件
EFK Ensoniq KT文件
EFQ Ensoniq SQ1/SQ2/Ks32文件
EFS Ensoniq SQ80文件
EFV Ensoniq VFX-SD文件
EMD ABT擴展模塊
EMF Windows增強元文件
EML Microsoft Outlook Express郵件消息(MIME RTC822)文件
ENC 重演文件
ENFF 中性文件格式擴展名
EPHTML Perl解釋增強HTML文件
EPS 壓縮的PostScript圖像
EPSF 壓縮的PostScript文件
ERI ERWin文件
ERR 當RobooHELP幫助編譯器企圖編譯一個幫助系統(tǒng)源文件時用來存儲錯誤消息的文件
EPX ERWin文件
ESPS ESPS音頻文件
EUI Ensoniq ESP家族的壓縮磁盤映像
EVY 特使文檔
EWL Microsoft Encarta文檔
EXC Microsoft Word禁止字字典
EXE 可執(zhí)行文件(程序)
常用擴展名及含義(F開頭)
F FORTRAN文件
F2R Farandoyle線性模塊格式
F3R Farandoyle分塊線性模塊格式
F77 FORTRAN文件
F90 FORTRAN文件
FAR Fradole Composer音樂模塊(MOD)文件
FAV Microsoft Outlook導航條
FAX 傳真類型圖像
FBK Navison 金融備份
FCD 虛擬CD-ROM
FDB Navison 金融數據庫
FDF Adobe Acrobat表單文檔文件
FEM CADRE有限元素網絡文件
FFA,FFL,FFO,FFK Microsoft快速查找文件
FFF GUS PnP銀行文件格式
FH3 Aldus Freehand 3繪圖文件
FIF Fractal圖像文件
FIG REND386/AVRIL使用的文件格式
FITS CCD照相機圖像;靈活圖像傳輸系統(tǒng)
FLA Macromedia Flash電影
FLC Autodesk FLIC動畫文件
FLF Corel Paradox產生的格式:Navison Financials許可文件;OS/2驅動程序文件
PLI Autodesk FLIC動畫
FLT StarTrekker音樂模塊(MOD)文件;MultiGen Inc的Open Flight使用的文件格式;Corel過濾器文件
FM Adobe FrameMaker文檔
FMB Oracle4.0版或以后版本表單的二進制源代碼文件
FML 文件鏡象列表(GetRight)
FMT Oracle 4.0版或以后版本表單的文本格式;Microsoft Schedule+ 打印文件
FMX Oracle 4.0版或以后版本可執(zhí)行表單
FND Microsoft Explorer保存的搜索文件(Find applet)
FNG 字體組文件(字體導航器,Font Navigator)
FNK Funk Tracker模塊格式
FOG Fontographer模塊字體
FON 系統(tǒng)字體
FOR FORTRAN文件
FOT 字體相關文件
FP FileMaker Pro文件
FP1 Flying Pigs for Windows數據文件
FP3 FileMaker Pro文件
FPT FileMaker Pro文件;Microsoft Fox Pro備注字體文件
FPX FlashPix位圖
FRM 表單;Frame Maker或Frame Builder文檔;Oracle可執(zhí)行表(3.0版或早期版本);Visual Basic表單;WordPerfect Merge表單;DataCAD標志報表文件
FRT Microsoft FoxPro報表文件
FRX Visual Basic表單文本;Microsoft FoxPro報表文件
FSF fPrint Audit Tool文件格式
FSL Borland的Paradox 7表單;Corel Paradox保存的表單
FSM Parandoyle示例格式
FT Lotus Notes全文本索引
FTG 全文本搜索組文件,由Windows幫助系統(tǒng)查找時產生——可以刪除,并在需要時重建起來
FTS 全文本搜索引文件,由Windows幫助系統(tǒng)查找時產生
FW2 Framework Ⅱ文件
FW3 Framework Ⅲ文件
FW4 Framework Ⅳ文件
FXP 經Microsoft FoxPro編譯的源文件
FZB Casio FZ-1銀行轉儲
FZF Casio FZ-1完全轉儲
FZV Casio FZ-1聲音轉儲
常用擴展名及含義(G開頭)
G721 Raw CCITT G.721 $bit ADPCM格式數據
G723 Raw CCITT G.723 3或5bit ADPCM格式數據
GAL Corel多媒體管理器相集
GCD Generic CADD繪畫文件(后續(xù)版本)
GCP Ground Control Point(地面控制點)文件,用于遠景數據形成圖像過程,經常用于生成圖工程—CHIPS(copenhagen image processing system)使用這些文件
GDB InterBase數據庫文件
GDM 鈴聲、口哨聲和聲音板模塊格式
GED GEDCOM 系譜數據文件,用于記錄和交換系譜數據的流行格式;圖形環(huán)境文檔繪畫
GEM GEM元文件
GEN Ventura產生的文本文件
GetRight GetRight未完成的下載文件
GFC Patton&Patton FlowCharting 4 flowchart文件
GFI,GFX Genigraphics圖形鏈接表示文件
GHO Norton 克隆磁盤映像
GID Windows 95全局索引文件(包括幫助狀態(tài))
GIF CompuServe位圖文件
GIM,GIX Genigraphics圖形鏈接介紹文件
GKH Ensoniq EPS家簇磁盤映像文件
GNA Genigraphics圖形鏈接介紹文件
GNT 生成代碼,Micro Focus屬性格式里的可執(zhí)行代碼
GNX Genigraphics圖形鏈接介紹文件
GRA Microsoft Graph文件
GRD 用于遠程視景數據產生地圖過程的格式文件,通常應用于形成地圖工程—CHIPS(copenhagen image processing system)使用這些文件
GRF Grapher(Golden Software公司)圖形文件
GRP 程序管理組
GSM Raw GSM 6.10音頻流;Raw“byte aligned(比特對齊的)” GSM 6.10音頻流;US Robotics語音調制解調器
GTK Graoumftracker(老)音樂模塊(MOD)文件
GT2 Graoumftracker(新)音樂模塊(MOD)文件
GWX,GWZ Cenigraphis圖形鏈接介紹文件
GZ UNIX gzip壓縮文件
常用擴展名及含義(H開頭)
H C程序頭文件
HCM IBM HCM配置文件
HCOM 聲音工具HCOM格式
HCR IBM HCD/HCM產品配置文件
HDF 高級計算機應用程序本地中心(NCSA) geospatial Hierarchial數據格式文件
HED HighEdit文檔
HEL Microsoft Hellbender格式保存的游戲文件
HEX Macintosh BinHex2.0文件
HGL HP圖形語言繪圖文件
HH 映射文件,包括一些話題ID和在幫助文件系統(tǒng)中話題的映射數字—允許運行中應用程序發(fā)送給用戶合適的上下文幫助話題
HLP 幫助文件;Date CAD Windows幫助文件
HOG Lucas Arts的Dark Forces WAD文件
HPJ Visual Basic幫助工程
HPP C++程序頭文件
HQX Macintosh BinHex 4.0文件
HST 歷史文件
HT HyperTerminal(超級終端)
HTM,HTML 超文本文檔
HTT Microsoft超文本模板
HTX 擴展HTML模板
HXM Descent2 HAM文件擴展
常用擴展名及含義(I開頭)
ICA Citrix文件
ICB Targa位圖文件
ICC Kodak打印機格式文件
ICL 圖標庫文件
ICM 圖形顏色匹配配置文件
ICO Windows圖標
IDB MSDev中間層文件
IDD MIDI設備定義
IDF MIDI設備定義(Windows 95需要的文件)
IDQ Internet數據查詢文件
IDX Microsoft FoxPro相關數據庫索引文件;Symantec Q&A相關數據庫索引文件;Microsoft Outlook Express文件
IFF 交換格式文件;Amiga ILBM
IGES 初始圖形交換說明文件
IGF 插入系統(tǒng)元文件
IIF QuickBooks for Windows交換文件
ILBM 位圖圖形文件
IMA WinImage磁盤映像文件
IMG GEM映像
IMZ WinImage壓縮磁盤映像文件
INC 匯編語言或動態(tài)服務器包含文件
INF 信息文件
INI 初始化文件;MWave DSP Synth的“nwsynth.ini” GMS安裝;Cravis Ultrasound bank安裝
INP Oracle 3.0版或早期版本的表單源代碼
INRS INRS遠程通信聲頻
INS InstallShield安裝腳本;X-Internet簽字文件;Ensoniq EPS字簇設備;Cell/ⅡMAC/PC抽樣設備
INT 中間代碼,當一個源程序經過語法檢查后編譯產生一個可執(zhí)行代碼
IOF Findit文檔
IQY Microsoft Internet查詢文件
ISO 根據ISD 9660有關CD-ROM文件系統(tǒng)標準列出CD-ROM上的文件
ISP X-Internet簽字文件
IST 數字跟蹤設備文件
ISU InstallShield卸裝腳本
IT 脈沖跟蹤系統(tǒng)音樂模塊(MOD)文件
ITI 脈沖跟蹤系統(tǒng)設備
ITS 脈沖跟蹤系統(tǒng)抽樣,Internet文檔位置
IV Open Inventor中使用的文件格式
IVD 超過20/20微觀數據維數或變量等級文件
IVP 超過20/20的用戶子集配置文件
IVT 超過20/20表或集合數據文件
IVX 超過20/20微數據目錄文件
IW Idlewild屏幕保護程序
IWC Install Watch文檔
常用擴展名及含義(J開頭)
J62 Ricoh照相機格式
JAR Java檔案文件(一種用于applet和相關文件的壓縮文件)
JAVA Java源文件
JBF Paint Shop Pro圖像瀏覽文件
JFF,JFIF,JIF JPEG文件
JMP SAS的JMPDiscovery表格統(tǒng)計文件
JN1 Epic MegaGames的Jill of the Jungle數據文件
JPE,JPEG,JPG JPEG圖形文件
JS javascript源文件
JSP HTML網頁,其中包含有對一個Java servlet的參考
JTF JPEG位圖文件
常用擴展名及含義(K開頭)
K25 Kurzweil 2500抽樣文件
KAR 卡拉OK MIDI文件(文本+MIDI)
KDC Kodak光增強器
KEY DataCAD圖標工具條文件
KFX KoFak Group 4圖像文件
KIZ Kodak數字明信片文件
KKW RoboHELP幫助工程索引設計器中與主題無關的K開頭的所有關鍵字
KMP Korg Trinity KeyMap文件
KQP Konica照相機本地文件
KR1 Kurzweil 2000抽樣(多軟驅)文件
KRZ Kurzweil 2000抽樣文件
KSF Korg Trinity抽樣文件
KYE Kye游戲數據
常用擴展名及含義(L開頭)
LAB Visual dBASE標簽文件
LBM Deluxe Paint位圖文件
LBT,LBX Microsoft FoxPro標簽文件
LDB Microsoft Access加鎖文件
LDL Corel Paradox分發(fā)庫
LEG Legacy文檔
LES Logitech娛樂系統(tǒng)游戲配置文件(與REC文件一樣)
LFT 3D Studio(DOS)放樣文件
LHA LZH更換文件后綴
LIB 庫文件
LIN DataCAD線型文件
LIS 結構化查詢報告(SQR)程序產生的輸出文件
LLX Laplink交換代理
LNK Windows快捷方式文件
LOG 日志文件
LPD Helix Nut和Bolt文件
LRC Intel可視電話文件
LSL Corel Paradox保存的庫文件
LSP AutoLISP、CommonLISP和其他LISP語言文件
LST 列表文件
LU ThoughtWing庫單元文件
LVL Parallax Software的 Miner Descent/D2 Level擴展
LWLO Lightwave分層對象文件
LWOB Lightwave對象文件
LWP Lotus WordPro 96/97文件
LWSC Lightwave視景文件
LYR DataCAD層文件
LZH LH ARC壓縮檔案
LZS Skyroads數據文件
常用擴展名及含義(M開頭)
M1V MPEG相關文件(MIME“mpeg”類型)
M3D Corel Motion 3D動畫文件
M3U MPEG URL(MIME聲音文件)
MAC MacPaint圖像文件
MAD Microsoft Access模塊文件
MAF Microsoft Access表單文件
MAG 在一些日本文件中發(fā)現的圖形文件格式
MAGIC 魔力郵件監(jiān)視器配置文件
MAK Visual Basil或Microsoft Visual C++工程文件
MAM Microsoft Access宏
MAN UNIX手冊頁輸出
MAP 映射文件;Duke Nukem 3D WAD游戲文件
MAQ Microsoft Access查詢文件
MAR Microsoft Access報表文件
MAS Lotus Freelance Graphics Smart Master文件
MAT Microsoft Access表;3D Studio MAX材料庫
MAUD MAUD抽樣格式
MAX Kinetx的3DStudio MAX文件;該格式用于一個3D場景文件;Paperport文件;OrCAD設計文件
MAZ Hover迷路數據;Division的dVS/dVISE使用的文件格式
MB1 Apogee Monster Bash數據文件
MBOX Berkeley Unix郵箱格式
MBX Microsoft Outlook保存email格式;Eudora郵箱
MCC Dailerl0呼叫卡
MCP Metrowerks CodeWarrior工程文件
MCR DataCAD鍵盤宏文件
MCW Microsoft Word的Macintosh文檔
MDA Microsoft Access內抽入器;Microsoft Access 2.0版及其后續(xù)版本的工作組事件
MDB Microsoft Access數據庫
MDE Microsoft Access MDE文件
MDL 數字跟蹤器音樂模塊(MOD)文件;Quake模 塊文件
MDN Microsoft Access空數據庫模板
MDW Microsoft Access工作組文件
MDZ Microsoft Access向導模板文件
MED 音樂編輯器,OctaMED音樂模塊(MOD)文件
MER 電子表格/數據庫數據交換格式;FileMaker、Excel及其他軟件能識別
MET 表示管理器元文件
MFG Pro/ENGINEER制造文件
MGF 在材料與幾何學里的文件格式
MHTM,MHTML MHTML文檔(MIME)
MI 雜項
MIC Microsoft Image Composer文件
MID MIDI音樂
MIF Adobe FramMaker交換格式
MIFF 與機器無關格式文件
MIM,MIME,MME Internet郵件擴展格式的多用途文件,經常作為發(fā)送e-mail時在AOL里附件而創(chuàng)建的文件;在一個多區(qū)MIM文件里的文件能用WinZip或其他類似程序打開
MLI 3D Studio的材料庫格式文件
MMF Meal Master格式;一個處方類格式;Microsoft郵件文件
MMG 超過20/20表或集會數據文件
MMM Microsoft多媒體電影
MMP Mindmapor Mind Manager文件
MN2 Descent2任務文件
MND,MNI Mandelbort for Windows
MNG 多映像網絡圖形
MNT,MNX Microsoft FoxPro菜單文件
MNU Visual dBASE菜單文件;Intertel Systems Interact菜單文件
MOD Fast Tracker、Star Trekker、Noise Tracker(等等)音樂模塊文件;Microsoft多計劃電子表格;Amiga/PC磁道文件
MOV QuickTime for Windows電影
MP2 第二層MPEG音頻文件
MP3 第三層MPEG音頻文件
MPA MPEG相關文件,MIME“mpeg類型”
MPE,MPEG,MPG MPEG動畫文件
MPP Microsoft工程文件;CAD繪圖文件格式
MPR Microsoft FoxPro菜單(已編譯)
MRI MRI掃描文件
MSA 魔術陰影檔案
MSDL Manchester的場景描述語言
MSG Microsoft郵件消息
MSI Windows 安裝器包
MSN Microsoft網絡文檔;Descent Mission文件
MSP Microsoft Paint(畫圖)位圖文件;Windows Installer路徑文件
MST Windows 安裝器傳輸文件
MTM Multi 跟蹤器音樂模塊(MOD)文件
MUL Ultima在線
MUS 音樂
MUS10 Mus10聲音
MVB Microsoft多媒體查看器文件
MWP Lotus WordPro 97 Smart Master文件
常用擴展名及含義(N開頭)
NAP NAP元文件
NCB Microsoft Developer Studio文件
NCD Norton改變目錄
NCF NetWare命令文件;Lotus Notes內部剪切板
NDO 3D 低多邊形建模器,Nendo
netCDF 網絡公用數據表單
NFF 中性文件格式
NFT NetObject Fusion模板文件
NIL Norton光標庫文件(EasyIcons-兼容)
NIST NIST Sphere聲音
NLB Oracle 7數據
NLM NetWare可裝載模塊
NLS 用于本地化的國家語言支持文件(例如,Uniscape)
NLU Norton Live Update e-mail 觸發(fā)器文件
NOD NetObject Fusion文件
NSF Lotus Notes數據庫
NSO NetObject Fusion文檔文件 t多媒體查看器文件
MWP Lotus WordPro 97 Smart Master文件
NST Noise Tracker音樂模塊(MOD)文件
NS2 Lotus Notes數據庫(第二版)
NTF Lotus Notes數據庫模板
NTX CA-Clipper索引文件
NWC Noteworthy Composer歌曲文件
NWS Microsoft Outlook Express新聞消息(MIME RFC822)
常用擴展名及含義(O開頭)
O01 臺風聲音文件
OBD Microsoft Office活頁夾
OBJ 對象文件
OBZ Microsoft Office活頁夾向導
OCX Microsoft對象鏈接與嵌入定制控件
ODS Microsoft Outlook Express郵箱文件
OFF 3D 網狀物對象文件格式
OKT Oktalyzer音樂模塊(MOD)文件
OLB OLE對象庫
OLE OLE對象
OOGL 面向對象圖形庫
OPL 組織者編程語言源文件——Psion/Symbian
OPO OPL輸出可執(zhí)行文件
OPT Microsoft Developer Studio文件
OPX OPL擴展DLL(動態(tài)鏈接庫)
ORA Oracle 7 配置文件
ORC Oracle 7腳本文件
ORG Lotus Organ
郭慧錦 賈國鋒 馬飛飛 張茜
(全國地質資料館)
摘要 本文在描述雙層PDF及OCR技術特點及應用前景基礎上,探討了地質資料數字化圖文數據雙層PDF轉換的意義;提出了轉換方法的選擇,并詳細介紹了OCR數字加工系統(tǒng),以及提高識別率的方法;最后提出了雙層PDF在地質資料館建設中的意義。
關鍵詞 雙層PDF OCR識別率
當前,地質資料館藏機構都在加緊開展數字化工作。截至2013年底,全國已有20多個省級資料館完成館藏資料的數字化工作,全國地質資料館的成果地質資料數字化工作也接近尾聲,所形成的海量數據已成為地質資料信息社會化服務重要數據資源。此類數字化數據是靜態(tài)的,有利于閱覽使用,但無法進行全文檢索,也不利于進一步分析處理。因此,在現有數據的基礎上,開展OCR識別,使之轉化成雙PDF文件,實現靜態(tài)向動態(tài)的轉變,建立全文數據庫,完成對地質資料的全文信息的檢索,成為地質資料館藏機構推進資料數字化工作。
1 關于雙層 PDF與OCR技術
雙層PDF是在掃描數據的基礎上通過OCR識別生成的可檢索的PDF文件,即上層是原始圖像,下層是識別結果,且位置上下一一對應。雙層PDF文件不僅可以100%保留原始版面效果,而且支持選擇、復制、檢索等功能,這樣的PDF文件最后可以存儲在光盤、硬盤或磁盤陣列中,并通過建立索引數據庫進行科學的管理。
OCR(Optical Character Recognition),即光學字符識別,是指電子設備(如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。即對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。隨著計算機網絡飛速發(fā)展,信息電子化已經成為一個時代必然趨勢。文字作為信息中最重要、最集中的載體,其電子化進程顯得尤為重要。而OCR技術則是文字電子化過程中最重要的環(huán)節(jié),它改變了傳統(tǒng)的紙介質資料輸入的概念。通過OCR技術,用戶可以將通過攝像機、掃描儀等光學輸入方式得到的報刊、書籍、文稿、表格等印刷品的圖像信息轉化為可以供計算機識別和處理的文本信息。因此,與傳統(tǒng)的手工錄入方式相比,OCR技術大大提高了人們進行資料存儲、檢索、加工的效率。
2 應用現狀
PDF正在世界各國政府、金融財務、法律、工程技術、醫(yī)療等諸多部門獲得廣泛的應用,并已成為政府、學術部門等單位標準的現代化公文格式規(guī)范,所以PDF電子格式文檔將是未來檔案部門收藏的主體。而雙層PDF的出現有效解決了識別成本和閱讀利用的矛盾,是一種較有潛力的資源格式。國外的OCR技術應用相對成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陸續(xù)展開了這方面的研究,在他們的產品中綁定了OCR技術。
如今,OCR技術在我國的應用也極為廣泛。信息檢索技術研究,即雙層PDF檢索技術研究,中國“863”計劃在2008年以前已經開始對中文OCR、自動分詞、自動摘要、自動搜索、自動定位進行了統(tǒng)一測試評測。在此基礎上,國內逐步建立了以數字圖書館、數字檔案館、數字報刊、數字校園網等一系列數字化為基礎的實施案例,例如新聞出版總署、外聯部、共青團中央等機關文獻全文數據庫;《中國青年》75年、《新華文摘》20年等期刊全文數據庫。國家圖書館早在1999年就成立了“國家圖書館文獻數字化中心”,對各類館藏文獻進行數字化加工和OCR識別,在此基礎上形成書目型書庫、題錄型數據庫和全文型數據庫三大類,逐漸成為我國網上信息資源的中心樞紐。
隨著我國信息化建設全面普及,OCR技術的應用前景更加廣闊,數字圖書館、數字檔案館、數字資料館等概念的提出也使OCR在紙質檔案數字化過程中越來越發(fā)揮其獨特的作用,不僅節(jié)省了人力物力,更使檔案信息資源的利用價值達到最大化,能夠更好地服務于民。
3 數字化數據雙層PDF轉換的意義
3.1 是地質資料信息化建設的重要內容
隨著社會信息化程度的提高,人們對信息資源的依賴程度也越來越高,對高效率的檔案資源管理、檢索利用的需求也越來越迫切。數字化是信息化建設的重要內容,而信息化建設的核心是資源建設。資源建設包括三大任務:一是館藏紙質資料的掃描數字化與目錄數據庫建設;二是電子文件的歸檔與管理;三是全文數據庫和全文檢索體系建設。根據各資料館數字化工作進展,考慮到用戶的利用需求,若要得到真正文本形態(tài)的電子信息,使資料數字化工作更加有效,更加徹底,最大限度拓寬用戶利用面,就需要應用OCR技術進行掃描柵格文件的雙層PDF轉換,進而開展地質資料全文數據庫建設和全文檢索工作。
3.2 是地質資料實現全文檢索與全文數據庫建設的前提
實踐證明,基于雙層PDF文檔的全文檢索,有效地提高了查詢利用效率。它通過對檔案數據庫的數據和雙層PDF文檔的Text層建立索引,查詢時可以不訪問數據庫,有效減輕數據庫和系統(tǒng)的壓力。至少可以支持1000萬級的數據,毫秒級的查詢時間,每秒上千人的并發(fā)訪問,從而實現大容量、高速度的目標,并且可以適應Linux和Windows平臺,支持多種數據庫接口。它具備通用搜索引擎的構架和功能,可以對用戶的輸入進行分詞,可以進行多關鍵字搜索、關鍵詞組合搜索,用戶友好;同時能夠根據客戶的需求進行用戶的數據挖掘,提高檔案全文檢索系統(tǒng)的價值。
3.3 是現代化數據中心標準化建設的前提
建設現代化的數據中心首先要實現電子文件存儲結構標準化,即建立一個通用性強、應用廣泛的電子文件信息存儲和交換格式?;赑DF格式已經作為電子文件管理中電子文件長期保存格式的最新標準在國際上全面實施,且具有兼容性、原始記錄性強,安全控制策略完善等優(yōu)點,是電子文件長期保存的最佳選擇。所以進行館藏數字化數據PDF轉換勢在必行。
4 雙層PDF轉換方法
4.1 目前常見的雙層PDF轉換方法
目前國內雙層PDF的轉換技術已經相對成熟,從現有技術條件下來看,大體可分為以下3種:
4.1.1 軟件轉換
由目前市場上較流行的 Adobe Acrobat、ABBYY FineReader12(中英文識別)、Readiris Corporate 12(英文識別率高)、Foxit Phantom 5(可以單獨顯示文本層)、清華文通TH-OCR XP8(識別率較高)、漢王文本王5800(版面識別較好,純中文識別率高)、尚書七號OCR等轉換程序,可以經OCR識別處理后直接生成雙層PDF文件,速度快,效率高。但識別率和紙質資料原件(如印刷方式、清晰度、紙張質量等)及操作人員技術水平成正比。如果紙質原件質量好,識別率相對就高;質量差,識別率就相對較低。
4.1.2 流程加工
根據相關技術要求,對圖像進行全新的OCR識別流程加工處理,重新生成PDF文件,具有文字正確率高、文字定位準確等特點。這種方式相當于全流程化制作雙層PDF文件,工作量大,耗時長,費用高。
4.1.3 識別重構
重新生成PDF文件,實現版面字體、字號、顏色的恢復和重構。文字正確率高,頁面清晰,但和原版圖差異較大,主要在圖書方面應用較多。
4.2 地質資料雙層PDF轉換
全國館于2011年開始在掃描數字化基礎上開展雙層PDF的轉換試驗工作,主要運用第一種方法進行軟件轉換,即經過軟件自動OCR處理后直接形成雙層PDF文件。由于地質資料不同于普通的文書檔案,紙張樣式和印刷方式多樣,手寫和老舊資料多,地層、數學等特殊符號多等特點,給OCR自動識別帶來了困難,單一的軟件識別并不能滿足全文檢索90%以上識別率的要求。
在轉換試驗基礎上我們得到以下結論:
1)地質資料本身多種多樣,實際的識別率主要受印刷質量、形成年代等因素影響,老舊資料、紙質質量差的資料識別率普遍較低;受執(zhí)筆人書寫習慣及書寫清晰度的影響,手寫文檔的識別準確率一般在30%以下;油印文檔識別準確率一般在50%以下;打印、鉛印和膠印文檔識別率較高,一般能達90%以上。無論在哪種類型的文檔中,標點的識別率都很低,地層和數學符號及其他特殊符號的識別率幾乎為零。
2)目前識別技術無法達到100%識別,必須根據實際需求對照紙質檔案對初次識別結果進行人工校對才能滿足全文檢索需求。
3)地質資料掃描文件數量多、容量大,轉換速度受計算機反應速度影響,大批量轉換和識別需選擇高配置計算機,且批量轉換和人工識別耗時長,耗人工多,需專項經費支持開展工作。
4.3 OCR數字加工系統(tǒng)的引入與功能簡介
經過對目前國內雙層PDF轉換方法的對比,結合地質資料情況復雜的特點,以及數據測試結果研究,建議地質資料的雙層PDF轉換主要采用軟件識別和流程加工相結合的方法,即采用OCR數字加工系統(tǒng),可以保證高效率、高質量地完成雙層PDF轉換。該系統(tǒng)主要包含以下幾個主要流程:
圖1 OCR數字加工系統(tǒng)示意圖
1)圖像處理。為提高識別率,對圖像進行“消藍去污”的處理,去掉圖像上影響識別率的噪音,如麻點、下劃線等,由圖像質量控制程序自動監(jiān)測圖像處理質量。
2)版面分析。自動進行版面理解并定位,判別劃框區(qū)域是橫排文本區(qū)、豎排文本區(qū)、表格區(qū)還是圖像區(qū),并對不同屬性的區(qū)域以不同顏色的線框標識出來。自動版面分析在后臺運行,操作人員可在前臺進行確認,必要時對自動版面分析結果加入手工干預。
3)識別。把文字圖像轉化為計算機文字內碼,可以識別印刷體和手寫體中文(包括簡體字和繁體字)、中英文混排文字、表格,識別出來的文字內碼可以是GB碼、BIG5碼、GBK碼或者Unicode碼。識別過程在后臺運行。
4)縱向校對。具有很強的查錯糾錯能力,是將一個或若干個圖像中識別成同一個字的文字圖像列在一起顯示,并以突出顏色標出可疑字,便于操作員發(fā)現錯誤和修改。
5)橫向校對。是傳統(tǒng)的人工校對方法,操作員直接對比識別結果文本和圖像,以發(fā)現識別錯誤文字。系統(tǒng)自動調出文字對應的圖像,進行比對。同時,以醒目的顏色標出識別可信度不離的文字。
6)版面還原。將識別并修改好的文本還原成跟掃描文稿版面的布局一樣、可以供計算機閱讀和查詢檢索的RTF、PDF、HTML、SGML/XML格式的數字文檔。
7)數據入庫。版面還原數字文檔的保存。
4.4 提立OCR識別率的方法
利用OCR數字加工系統(tǒng)生成的雙層PDF,文本層差錯率最低可到萬分之一,可呈現原版底紋和色彩風貌,可進行全文檢索和復制引用,且檢索信息可準確定位到字符,便于快速查找目標信息。為了減輕橫向校對即人工校對工作量,提高工作效率,就要從根本上提高識別率。經過試驗,以下幾個方法可以提高柵格文件OCR識別率。
1)圖像色彩設定。雖然灰度或彩色模式可以最大限度還原紙質資料原貌,是我們掃描數字化的首選,但是這兩種色彩模式會增大影響識別率的背景噪音。若僅做文字識別及一般黑白插圖選取,建議可將掃描程序的圖像色彩設定設置為黑白,增大識別率。不過最終圖像色彩的設定還要按照各類具體工作的規(guī)范要求來設置。
2)分辨率設置。我們都知道掃描分辨率設置越低,掃描速度越快,但同時也導致圖像質量差,其文字識別準確率低。反之分辨率高,掃描速度慢,但文字識別準確率高。但這又不是絕對的,因為分辨率設置得太高后,紙張上的微小瑕疵也可能被認作標點符號或漢字等,文字識別準確率反而會有所降低。經反復測試,分辨率設為300dpi,是掃描速度及文字識別準確率的最佳平衡點。
3)圖像處理。這里圖像處理是指掃描輸出圖像前的傾斜校正和去污等。傾斜校正是為了調整文字方向使之正向,這樣才能對OCR識別有所幫助。
雙層PDF轉換完成以后,在此基礎上可以實現資料管理系統(tǒng)與PDF文件的掛接,對資料數據內容及其元數據等相關信息建立聯系并形成數據包;然后通過調用全文數據庫原數據創(chuàng)建索引文件,最后實現全文檢索。通過全文數據庫及全文檢索的實現,得到高查全率和查準率,大幅度提高地質資料的利用價值,促進地質資料編研工作,為地質資料信息聚合的研究和深層次服務奠定了基礎。
參考文獻
[1]許呈辰.檔案數字化過程中OCR技術的應用[J].檔案管理,2011(1).
[2]徐永芳.OCR技術在檔案數字化過程中的應用[J].藝術科技,2011(2).
[3]張旋.OCR技術研究進展及前瞻[J].科學技術,2010(4).
[4]郭金光.雙層PDF技術及在檔案數字化中的應用[J].新觀察,2013(1).
[5]劉家真.文件保存格式與PDF文檔[J].檔案學研究,2002(2).
廣西寶之星文化傳媒有限公司不是騙人的。根據查詢相關公開信息,廣西寶之星文化傳媒有限公司位于南寧市青秀區(qū)民族大道131號南寧會展,航洋城購物中心北廣場B2號商鋪,登記機關是南寧市青秀區(qū)市場監(jiān)督管理局,經過工商部門認證,工商注冊號(PK):45011100088254,社會信用代碼(PK):91450100MA5KBKE675。經營范圍設計、制作、代理、發(fā)布國內各類廣告。影視制作(憑許可證在有效期內經營,具體項目以審批部門批準的為準),音頻制作,動畫制作。圖文設計制作。新媒體技術研發(fā)。網站設計制作、虛擬現實技術研發(fā)。軟件設計與開發(fā)。計算機軟硬件的技術開發(fā)、技術服務。銷售:計算機硬件、影視器材、辦公用品及機電設備。影視器材的銷售及租賃。文化藝術表演策劃。舞臺搭建(憑資質證經營)與造型策劃。企業(yè)形象策劃。市場營銷策劃。企業(yè)營銷策劃。賽事活動策劃。會務服務。展覽展示服務。禮儀服務。攝影服務?;ヂ摼W建設與維護服務。文化教育咨詢。對教育業(yè)的投資。翻譯服務。教育設施開發(fā)、推廣。檔案整理、掃描。檔案數字化處理及技術服務。(依法須經批準的項目,經相關部門批準后方可開展經營活動)。