|
公司基本資料信息
|
自20世紀(jì)90年代初以來,數(shù)字技術(shù)已從根本上改變了我們的生活方式。如今,我們即將開始全面轉(zhuǎn)型——將所有以模擬形式記錄的人類知識(shí),轉(zhuǎn)換為數(shù)字形式?!段磥碇啊穾黄鸹厥淄?,暢想未來。
巴伐利亞州立圖書館的藏書,正在被掃描并上傳到互聯(lián)網(wǎng)。
楚澤(Zuse)、歐洲核子研究中心(CERN)和扎克伯格(Zuckerberg)——這三個(gè)名字標(biāo)志著數(shù)字革命進(jìn)程中的重要里程碑。早在1941年,Konrad Zuse在柏林研制出了世界上**臺(tái)可以正常工作的計(jì)算機(jī)。他稱這臺(tái)外形龐大的數(shù)字計(jì)算機(jī)器為“Zuse Z3”。1991年,就職于瑞士歐洲核子研究中心的Tim Berners-Lee開發(fā)的萬維網(wǎng),向全球公眾開放。Web技術(shù)進(jìn)一步變革了人們的通信方式,為谷歌、亞馬遜以及不計(jì)其數(shù)的其他企業(yè),鋪平了道路。后來,2004年,Mark Zuckerberg創(chuàng)建了名為臉書()的社交網(wǎng)絡(luò)。如今,得益于臉書及類似網(wǎng)絡(luò),近20億人獲得了數(shù)字身份。
計(jì)算機(jī)、Web和臉書,都基于數(shù)字技術(shù)。數(shù)字化的含義,就是將模擬信息,如文本、聲音、圖像和視頻等,轉(zhuǎn)換為易于存儲(chǔ)的、由大量零和一組成的二進(jìn)制代碼。一經(jīng)創(chuàng)造,這樣的數(shù)字項(xiàng)就能被無限量地復(fù)制,而質(zhì)量絲毫不受影響,并且可以通過互聯(lián)網(wǎng),轉(zhuǎn)瞬間傳遍全球。數(shù)字技術(shù)為企業(yè)創(chuàng)造了全新的銷售渠道類型,但它也帶來了新的問題,如違法拷貝數(shù)據(jù)。始于20世紀(jì)90年代的互聯(lián)網(wǎng)熱潮,掀起了一場(chǎng)前所未有的數(shù)字化浪潮。1993年,在全球范圍內(nèi),只有大約3%的信息以數(shù)字形式存儲(chǔ),但到2007年,這個(gè)比例已經(jīng)飆升至94%。而且,這一趨勢(shì)愈演愈烈,每天都有大量新的數(shù)據(jù)被數(shù)字化。
數(shù)字世界*重要的先驅(qū)之一是德國(guó)發(fā)明家Rudolf Hell,他被譽(yù)為“圖形行業(yè)的愛迪生”,曾被授予“德意志聯(lián)邦共和國(guó)大十字勛章(Grand Merit Cross)”,并且曾榮獲“古騰堡大獎(jiǎng)(Gutenberg Prize)”和“魏納獎(jiǎng)(Werner-von-Siemens-Ring)”。Hell是公認(rèn)的傳真機(jī)和掃描機(jī)之父。1980年,他將突破性的Chromacom數(shù)字圖像處理系統(tǒng)商業(yè)化。20世紀(jì)80年代初期,當(dāng)時(shí)還是西門子子公司的HELL公司,受雇于梵蒂岡圖書館,掃描并以數(shù)字形式復(fù)制珍貴典籍,以便向公眾開放閱讀。20世紀(jì)90年代,數(shù)字化進(jìn)程變得更加廣泛,也更具系統(tǒng)性。譬如,1990年,西門子利多富公司為莫斯科的克里姆林宮博物館安裝了一套數(shù)字處理系統(tǒng),有史以來**次,以數(shù)字形式為俄羅斯沙皇的全部藝術(shù)藏品編目錄。然后,將所生成的數(shù)字圖像和信息,記錄并分類保存到圖像數(shù)據(jù)庫(kù)中。
掃描半開的書籍。如今,許多機(jī)構(gòu)都想為其所擁有的全部模擬信息,制作數(shù)字拷貝。在這方面,坐落于慕尼黑的巴伐利亞州立圖書館堪稱典范,其數(shù)字化中心擁有各式各樣的設(shè)備,在德國(guó)*。巴伐利亞州立圖書館的副館長(zhǎng)Klaus Ceynowa說:“我們使用了26套不同的掃描系統(tǒng),包括4臺(tái)每小時(shí)能夠處理*多2000頁(yè)的全自動(dòng)掃描機(jī)器人。我們有兩名操作人員,每人看管兩臺(tái)機(jī)器人。這個(gè)系統(tǒng)不止是速度快,為了保護(hù)書籍,書籍只需翻開60度。該系統(tǒng)的掃描棱鏡就可插入半開的書頁(yè)之間。它能清楚無誤地讀取頁(yè)面內(nèi)容,然后翻頁(yè),繼續(xù)執(zhí)行掃描?!?
巴伐利亞州立圖書館的全部藏書(左圖)正在被轉(zhuǎn)換為數(shù)字形式。目前,已有一款應(yīng)用程序,可用于閱讀其*珍貴的文化寶藏。
自2007年起,巴伐利亞州立圖書館一直在與谷歌公司合作開展“谷歌數(shù)字圖書館”項(xiàng)目,通過這個(gè)項(xiàng)目,巴伐利亞州立圖書館的100萬冊(cè)藏書,將實(shí)現(xiàn)數(shù)字化并放到互聯(lián)網(wǎng)上供公眾閱讀。其所涉及的書籍,均成書于1601年至1874年期間,不再受版權(quán)保護(hù)。Ceynowa解釋道:“每個(gè)星期,經(jīng)谷歌在其位于德國(guó)的掃描中心將之轉(zhuǎn)換為數(shù)字形式后,我們要發(fā)布大約5000冊(cè)圖書。谷歌承擔(dān)掃描費(fèi)用,并將數(shù)字拷貝提供給我們,以保存在我們自有的數(shù)據(jù)庫(kù)中。1601年之前和1874年之后的所有著作,包括從中世紀(jì)傳下來的極其寶貴的手抄文稿,均在我們自己的數(shù)字化中心進(jìn)行轉(zhuǎn)換。按計(jì)劃,谷歌項(xiàng)目將在今年年底之前結(jié)束。我們已經(jīng)將幾乎全部100萬冊(cè)藏書,上傳至我們網(wǎng)站的數(shù)字圖書館,任何人都可以在這里閱讀這些書籍?!?
盡管如此,巴伐利亞州立圖書館的全面數(shù)字化進(jìn)程遠(yuǎn)未走到終點(diǎn)。Ceynowa表示:“我們的工作只是開始,因?yàn)槲覀兤駷橹顾龅氖?,為連接和重新組合數(shù)字信息創(chuàng)造了不同的可能性?!卑头ダ麃喼萘D書館已經(jīng)開發(fā)了數(shù)款移動(dòng)應(yīng)用程序,包括一款名為“Ludwig II”的應(yīng)用程序。這款應(yīng)用程序允許人們按其所在位置,定制查閱與路德維希二世的“童話城堡”有關(guān)的歷史資料、圖像和文獻(xiàn)。譬如,當(dāng)人們站在路德維希二世在慕尼黑建造的Residenz宮殿的正前方時(shí),他們可以利用其智能電話的照相模式,來獲取這座宮殿著*的Wintergarden的實(shí)時(shí)圖像——這座花園早已湮沒在歷史的塵埃中。Wintergarden是一座建在Residenz宮殿屋頂?shù)幕▓@,奇花異草掩映其間,人工湖泊波光粼粼——通過這款應(yīng)用程序,人們可以欣賞到這美輪美奐的歷史景色。
現(xiàn)已可在網(wǎng)上閱讀巴伐利亞州立圖書館的近百萬藏書。
民事登記數(shù)字化。博物館和圖書館只是*后一批充分享用全面數(shù)字化益處的機(jī)構(gòu);政府機(jī)關(guān)和工業(yè)企業(yè)早已開始利用這項(xiàng)技術(shù)。現(xiàn)在,德國(guó)的16個(gè)聯(lián)邦州均計(jì)劃將其所有民事登記數(shù)字化。為此,過去兩年來,西門子中央研究院在Bernt Andrassy博士的指導(dǎo)下,受托開展了一項(xiàng)可行性研究。Andrassy解釋道:“德國(guó)的土地基本上被劃分為若干區(qū)塊。登記制度向這些區(qū)塊分配了一定的權(quán)利。因此,登記制度是德國(guó)土地使用的中央監(jiān)管機(jī)制。目前,各聯(lián)邦州已經(jīng)掃描并歸檔了過去50年來的全部登記文件,西門子中央研究院為它們提供了所需的重要系統(tǒng)組件。我們收集了大量數(shù)據(jù),總共多達(dá)約5億頁(yè)pdf文件。”
這個(gè)宏大的數(shù)字化項(xiàng)目,提出了艱巨的挑戰(zhàn)。譬如,西門子團(tuán)隊(duì)不得不開發(fā)自動(dòng)化軟件,以識(shí)別單個(gè)單詞,理解關(guān)鍵問題,以及發(fā)現(xiàn)掃描文件內(nèi)的關(guān)聯(lián),包括打字文件、劣質(zhì)文件拷貝和含有多處修改的文件。Andrassy解釋道:“這款軟件必須知道的一件事,是文件的那個(gè)部分含有房地產(chǎn)所有者姓名,哪些部分有關(guān)于房地產(chǎn)面積、是否貸款以及由哪家銀行發(fā)放貸款的信息。”為了解決這些問題,專家不得不費(fèi)盡心力編寫程序。Andrassy說:“我們的軟件可以識(shí)別出所要求的信息,并自動(dòng)填入輸入掩碼。操作人員僅需檢查數(shù)據(jù)填寫是否完整?!蹦壳埃髀?lián)邦州計(jì)劃為這個(gè)龐大的歸檔工程發(fā)布招標(biāo)公告?!按械怯浫繉?shí)現(xiàn)數(shù)字化之后,每個(gè)州都將設(shè)立其自有用戶的門戶網(wǎng)站,以便具有合法利益的個(gè)人和機(jī)構(gòu),快速、簡(jiǎn)便地調(diào)閱有關(guān)文件——譬如,公證機(jī)構(gòu)、銀行和稅務(wù)機(jī)關(guān)等。”
勃蘭登堡州立檔案館保存的一份1743年的手寫登記(左圖)和法蘭克福區(qū)的一名員工展示的當(dāng)代電子登記(右圖)。
誤讀可能導(dǎo)致數(shù)百萬損失。Andrassy在登記數(shù)字化項(xiàng)目中獲得的經(jīng)驗(yàn),也適用于工業(yè)領(lǐng)域。Andrassy表示:“我們正在研制一款軟件包,它能自動(dòng)登記招標(biāo)公告中的客戶要求,然后,將之與以往項(xiàng)目留下的數(shù)字化文檔中的數(shù)據(jù)進(jìn)行比對(duì)。這樣的招標(biāo)公告文件通常采用pdf格式,并且往往厚達(dá)上千頁(yè)。過去,必須人工摘錄每一項(xiàng)技術(shù)規(guī)格,然后由專家評(píng)估,如輪機(jī)*大轉(zhuǎn)速,或下午4點(diǎn)以后聯(lián)合循環(huán)發(fā)電廠的*大允許噪聲級(jí)等?!?
但是,要求和技術(shù)規(guī)格列表通常很長(zhǎng),哪怕誤讀一個(gè)句子,也會(huì)在日后導(dǎo)致數(shù)百萬歐元的損失??紤]到這一點(diǎn),慕尼黑的專家開發(fā)了一項(xiàng)可靠的搜索系統(tǒng)技術(shù),它能發(fā)現(xiàn)所做的每一處變更,并通知用戶。其*終目的是,讓這款程序?qū)⒓夹g(shù)規(guī)格作為語義對(duì)象,來理解并正確解讀。Andrassy解釋道:“我們所開發(fā)的軟件,分為三個(gè)工作階段,我們分別稱之為‘標(biāo)書檢索’、‘標(biāo)書比對(duì)’和‘標(biāo)書追蹤’。**個(gè)步驟是一個(gè)非常高效的過程,允許用戶找到招標(biāo)文件中的技術(shù)規(guī)格。在第二個(gè)步驟中,軟件將從以往項(xiàng)目的文件中檢索類似的技術(shù)規(guī)格。這樣一來,就可以利用以前所做的相應(yīng)評(píng)估,從而避免錯(cuò)誤。在*后一個(gè)步驟中,軟件將在招標(biāo)文件的所有新版本中,跟蹤所確定的技術(shù)規(guī)格?!?
這種方法的優(yōu)點(diǎn)顯而易見,因?yàn)樽詣?dòng)評(píng)估大大加快了評(píng)估過程,并且有助于盡早發(fā)現(xiàn)在類似項(xiàng)目中犯下的錯(cuò)誤。此外,這個(gè)系統(tǒng)支持客戶在*后一刻作出更改,并且快速分析其后果,并將之整合到項(xiàng)目中。
轉(zhuǎn)瞬間完成檔案梳理。全面數(shù)字化僅僅是開端。不論是圖書館、政府機(jī)關(guān),還是工廠,都在創(chuàng)造大量數(shù)字知識(shí),可以采用全新的方式來使用這些知識(shí)。因此,今后幾年乃至幾十年的開發(fā)工作,將側(cè)重于基于軟件的工具,這些工具需要在轉(zhuǎn)瞬間完成數(shù)字檔案篩查、理解語義關(guān)聯(lián)、以及分類并重新組合信息。Ceynowa表示:“譬如,學(xué)者將能夠快速確定‘novel’一詞*早見于哪部手稿。他們不必鉆進(jìn)故紙堆,查遍世界各地圖書館中的數(shù)百份文件,就能得到答案。這將徹底變革某些研究學(xué)科?!?
Andrassy補(bǔ)充道:“可以更加快速地查閱諸如司法判例,以及以往對(duì)罕見疾病的醫(yī)療診斷等信息。盡管如此,智能數(shù)據(jù)采掘仍然無法替代人,不過它能為人們給予支持。換句話說,要打造出能夠讀懂客戶的pdf文件,將之與數(shù)據(jù)庫(kù)進(jìn)行比對(duì),然后立即知道它要制造什么物品及如何制造該物品的自治工廠,還有很長(zhǎng)一段路要走?!?