文獻資料庫

文獻資料庫

文獻資料庫,是指計算機可讀的、有組織的相關文獻信息的集合。在文獻資料庫中,文獻信息不是以傳統的文字,而是將文字用二進制編碼的方式表示,按一定的數據結構,有組織地存儲在計算機中,從而使計算機能夠識別和處理。文獻資料庫是當前通過遍布於全世界的通信網路進行在線上情報檢索的最早的和主要的處理和檢索對象。

機構概況

計算機可讀的、有組織的相關文獻信息的集合。在文獻資料庫中,文獻信息不是以傳統的文字,而是將文字用二進制編碼的方式表示,按一定的數據結構,有組織地存儲在計算機中,從而使計算機能夠識別和處理。文獻資料庫是當前通過遍布於全世界的通信網路進行在線上情報檢索的最早的和主要的處理和檢索對象。

文獻資料庫起源於二次文獻編輯出版的計算機化。20世紀60年代初,各文摘社為克服因信息爆炸而帶來的困難,紛紛引進了先進的計算機技術。將經過整理、加工的文獻信息輸入到計算機中,由計算機進行編輯和排版,輸出後排版印刷為文摘刊物和各種索引。同時,仍保留在計算機中的機器可讀的文獻信息,作為二次文獻編輯出版的副產品,發展成為文獻資料庫。由於機器可讀信息大多記錄在計算機的磁帶上,因此也稱文獻資料庫為磁帶版二次文獻。早期的文獻資料庫有1964年正式對外發行的美國國立醫學圖書館的醫學文獻分析與檢索系統(MEDLARS),美國化學文摘社的<化學文摘資料庫>(CACON)等。

文獻資料庫的內容與其傳統的文獻信息是相對應的。一種書刊或一篇文獻的內容和形式特徵經著錄後形成一條款目。款目是文獻信息的基本單位。在文獻資料庫中,一條款目稱為一條記錄,記錄也是構成文獻資料庫的基本單位。款目由篇名、作者和主題等著錄項目組成,著錄項目在文獻資料庫中稱為欄位。一個欄位又可細分為若干個子欄位。這樣,文獻資料庫是由一系列連續的記錄、欄位和子欄位組成,並形成了一個分級樹型結構。

分類

按文獻的編輯方法和出版特點可以將文獻劃分為圖書、期刊、報紙以及介於圖書與期刊之間的特種文獻,主要包括科技報告、政府出版物、會議文獻、學位論文、專利文獻、技術標準、產品資料及其他零散資料如輿圖、圖片、樂譜等。將傳統文獻數位化成資料庫以後,則成為不同類型的資料庫,常用的資料庫有電子圖書資料庫、數位化期刊資料庫、報刊資料庫、會議論文資料庫、學位論文資料庫、專利資料庫、標準資料庫、產品資料庫、科技報告資料庫等。可以按照文獻內容或者外部特徵某一方面的特點組織成一類文獻資料庫 。

文獻資料庫主要分為以下幾種

•全文資料庫存儲文獻全文;

•書目資料庫存儲內容為題錄、文摘、提要或簡介;

•數值資料庫是一種以自然數值形式表示,計算機可讀具有一定結構的數據集合。數值型數據是人們從文獻資料中分析提取出來或者是從試驗、觀測、統計工作中得到的;

•事實資料庫又稱指南資料庫。事實資料庫是存儲有關某些客體如機構、人物等的一般事實性描述的一類參考資料庫。如人物傳記資料庫、公司名錄資料庫、技術標準庫、產品目錄資料庫等;

•術語資料庫是一種計算機化的術語詞典或詞庫;

•圖像資料庫提供人們存貯和檢索圖像或圖形信息及其文字說明的一種源資料庫;

•音頻資料庫提供人們存貯和檢索音頻檔案及其文字說明的一種源資料庫;

•視頻資料庫提供人們存貯和檢索視頻檔案及其文字說明的一種源資料庫。

發展

實驗室階段(1970年以前)

這一階段的主要特點是資料庫隨著計算機技術的產生髮展而產生髮展由於計算機軟硬體技術的限制,資料庫規模較小同這一階段的計算機技術一樣,資料庫處於實驗室研究階段,還沒有得到廣泛的套用。資料庫的發展是伴隨著相關計算機軟硬體的發展而發展的。最初人們發明計算機是為了解決越來越複雜的計算問題。1946年,第一台真正意義上的電子計算機在美國賓夕法尼亞大學誕生,標誌著人類進入電腦時代。人們發現,計算機不但要能夠進行計算,還要能夠管理越來越龐大複雜的數據,資料庫隨之產生。最早的資料庫可以追溯到20世紀50年代,那時的數據管理非常簡單。通過大量的分類、比較和表格繪製的機器運行數百萬穿孔卡片來進行數據的處理,其運行結果在紙上列印出來或者製成新的穿孔卡片。而數據管理就是對所有這些穿孔卡片進行物理的儲存和處理。例如1951年由美國調查局所建立的數值資料庫。資料庫的實用,首先套用在按字母順序排列的、以磁存貯器為載體的書目資料庫。這種於60年代初,用於文摘和索引服務的資料庫,開始被改造為計算機控制的照相排字系統。1960年,美國國家醫學圖書館著手設計其MEDLARS系統,1964年使用該系統進行醫學文獻的批式檢索。1965年,美國化學文摘服務社,首先出版了磁帶形式的《化學與生物領域》。同年,美國國家科學基金會、國家衛生協會和國防部,聯合建立了化學註冊系統資料庫。1967年,生物科學情報服務社設立了磁帶版發行機構。1969年,工程索引公司也建立了同樣的機構。同年,美國國會圖書館發行了書目磁帶 。

商業化初始階段(1970~1990年)

這一階段資料庫的特點有資料庫技術研究與資料庫的生產主要在美國資料庫由單機檢索向在線上檢索發展企業意識到資料庫的商業價值,介入資料庫生產,資料庫商業化進程開始美國資料庫數量增加,內容逐漸豐富;1970年以前,資料庫的查找是批量方式進行的,這是在磁帶上檢索情報的唯一方法。由於計算機技術和磁碟技術的發展,使得在70年前後由批式檢索向在線上檢索的轉變成為可能。使用在線上檢索可對磁碟上的資料隨機訪問和採用互動方式修改策略。消除了批式檢索的盲目性。美國空軍的NASA實驗室於1971年使用修改過的軟體,在紐約州的醫學圖書館,對資料庫實現在線上實時檢索。同年,美國國家醫學圖書館自己的在線上系統投入運行。1972年起洛克希德公司開始為多家資料庫生產者提供服務。1980年4月,BRS率先推出了由1000篇文獻組成的全文資料庫,這個資料庫不僅提供標題、文摘,而且可以進行全文檢索。同期的Dialog、Orbit、BRS等在線上檢索系統提供的文獻檢索服務主要集中在以期刊文獻為載體自然科學及套用技術領域,如收購的資料庫除了技術領域之外,更多地關注經濟學、統計學、管理學及商業,則以專利和石油文獻形成自己的特色。70年代中期,不單在美國。而且在歐洲,情報產業界開始認識到“在線上革命”,資料庫生產和在線上檢索,在英國、法國、聯邦德國等國家迅速發展起來。

美國傑奇門在參考許多資料之後,認為書目和非書目資料庫的總數,1968年為25個,1970年在50~100個之間。進入70年代後,美國更多的政府機構開始生產資料庫,資料庫的數量迅速增加,到1975年,總數已超過300個。5年時間資料庫數量大體翻了兩番。早年政府提供獎金的在線上實驗的成功以及資料庫和在線上檢索在情報界的確認,刺激更多的營利機構著手生產資料庫。1975~1980年間,除了資料庫的數量持續增長。由個增長到個之外,內容多樣化是這一時期的主要特點。許多資料庫收錄的內容是社會科學、人類學,以及人們普遍關心的事項或大眾化的課題。所開發的商業性資料庫,包括銷售、金融、經濟、工業廠商等,以及各種專業的課題,諸如房地產保險業務等。非書目資料庫日益受到關注,各種指南和參考性數值資料庫問世,全文資料庫也日漸增多。

全球競爭及網路化發展階段(1980年至今)

這一階段的特點是文獻資料庫數量激增美國以外的眾多已開發國家意識到資料庫生產的重要性,紛紛鼓勵本國資料庫生產,資料庫產業的競爭及對信息資源的爭奪從美國走向全球。1980年以來,世界各國資料庫數量增長速度加快,庫容量激增。以美國為例,美國的資料庫產業迅猛發展。我們可以從下表中可以看到:1975年資料庫的數量還是以百計,十年後資料庫數量則以千計,1985年的資料庫數量是1975年的九倍,平均每年大約增加300個資料庫。而資料庫記錄條數從0.52億條發展到16.8億條,記錄條數翻了32倍多。從1985到1996年的十年間美國資料庫數量增加了6490個,平均每年約增加600個。資料庫記錄條數也從16.8億條增加到108億條。資料庫記錄條數翻了6倍多。而從1996年2000到年的五年間,美國資料庫數量增加了2364個,平均每年約增加460個。資料庫記錄條數從108億條增加到152.5億條,增加了41%的數據量。

1980年,以MDC的NEXIS為開端,原本數目很小的全文資料庫,也開始明顯增多。連報紙也轉變為採用計算機控制的光電排字法,全文報紙資料庫開始出現。資料庫和在線上產業日益為社會所承認。80年代初,家庭計算機銷售量激增,於是資料庫和在線上服務應運興起,以滿足這種新的市場。一直位處前列的兩個服務機構DIALOG和BRS,建立了供衛星通訊網路終端用戶、使用個人計算機和採用簡單提問語言查找大眾化資料庫的服務機構。前者的“知識索引”和後者的“BRS after black”,是為公眾晚間安排的兩項服務,以供查找大眾化資料庫。

跨入80年代以來,世界上其他已開發國家開始認識到資料庫產業對本國國民經濟發展的重要價值,日本和歐洲的一些國家,獨立自主地建立自己的資料庫產業和在線上產業。美國對資料庫的壟斷局面逐漸被打破。在歐洲,英國、法國、聯邦德國等國家,大力推進情報產業,取得了巨大成就。其中法國推行獨立自主方針最為堅決。法國生產資料庫的機構超過100個。其中58個為政府機構服務。情報中心共有15個,其中主要的兩個QUESTEL中心和G.CAM中,各擁有資料庫三四十個之多。日本的資料庫產業發展也很快,日本資料庫一方面依靠進口,另外一方面政府向製作資料庫的民間企業提供財政支持,以促進資料庫產業的更快發展。1990年日本國產資料庫只808個,國產化率為34.3%,到1998年其國產資料庫達到1227個,國產化率為49.5%。蘇聯對其超大型的《文摘雜誌》也建立了資料庫。此外,澳大利亞,加拿大等國家均有自主發展資料庫產業的政策和規劃。

相關詞條

相關搜尋

熱門詞條

聯絡我們