信息檢索

信息檢索

信息檢索一詞出現於20世紀50年代,是指從信息資源的集合中查找所需文獻或查找所需文獻中包含的信息內容的過程。又稱信息存貯與檢索、情報檢索,是指將信息按一定的方式組織和存儲起來,並根據信息用戶的需要找出有關的信息的過程和技術。也就是說,包括“存”和“取”兩個環節和內容。狹義的信息檢索就是信息檢索過程的後半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查詢(Information Search 或Information Seek)。信息檢索方法包括:普通法、追溯法和分段法。

基本信息

起源

信息檢索計算機信息檢索概述
信息檢索起源於圖書館的參考諮詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。

隨著1946年世界上第一台電子計算機問世,計算機技術逐步走進信息檢索領域,並與信息檢索理論緊密結合起來;脫機批量情報檢索系統、在線上實時情報檢索系統相繼研製成功並商業化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和資料庫技術的推動下,信息檢索在教育軍事商業等各領域高速發展,得到了廣泛的套用。Dialog國際在線上情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名的系統之一。

類型

信息檢索虛擬圖書館與網上信息檢索
(一)按檢索對象劃分,信息檢索可以分為:
文獻檢索
數據檢索
事實檢索
以上三種信息檢索類型的主要區別在於:數據檢索和事實檢索是要檢索出包含在文獻中的信息本身,而文獻檢索則檢索出包含所需要信息的文獻即可。

(二)按檢索手段劃分:
手工檢索
機械檢索
計算機檢索
其中現在發展比較迅速的計算機檢索是“網路信息檢索”,也即網路信息搜尋,是指網際網路用戶在網路終端,通過特定的網路搜尋工具或是通過瀏覽的方式,查找並獲取信息的行為。

(三)按檢索途徑劃分:
直接檢索
間接檢索
(四)按信息載體劃分:
文獻信息檢索
非文獻信息檢索

主要環節

信息檢索信息檢索系統的體系結構
信息內容分析與編碼,產生信息記錄及檢索標識。
組織存貯,將全部記錄按檔案、資料庫等形式組成有序的信息集合。
用戶提問處理和檢索輸出。

關鍵部分是信息提問與信息集合的匹配和選擇,即對給定提問與集合中的記錄進行相似性比較,根據一定的匹配標準選出有關信息。它按對象分為文獻檢索、數據檢索和事實檢索;按設備分為手工檢索、機械檢索和計算機檢索。由一定的設備和信息集合構成的服務設施稱為信息檢索系統,如穿孔卡片系統、在線上檢索系統、光碟檢索系統、多媒體檢索系統等。信息檢索最初套用於圖書館和科技信息機構,後來逐漸擴大到其他領域,並與各種管理信息系統結合在一起。與信息檢索有關的理論、技術和服務構成了一個相對獨立的知識領域,是信息學的一個重要分支,並與計算機套用技術相互交叉。

熱點

信息檢索簡單的信息檢索搜尋
智慧型檢索或知識檢索
傳統的全文檢索技術基於關鍵字匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象,特別是在網路資訊時代,利用關鍵字匹配很難滿足人們檢索的要求。智慧型檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計算機”,與“電腦”相關的信息也能檢索出來;進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體系或概念網路,給予用戶智慧型知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進一步縮小查詢範圍至“微機”、“伺服器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟體”、“計算機套用”等範疇。另外,智慧型檢索還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、準確地反饋給用戶最需要的信息。

知識挖掘
主要指文本挖掘技術的發展,目的是幫助人們更好的發現、組織、表示信息,提取知識,滿足信息檢索的高層次需要。知識挖掘包括摘要、分類(聚類)和相似性檢索等方面。

自動摘要就是利用計算機自動地從原始文獻中提取文摘。在信息檢索中,自動摘要有助於用戶快速評價檢索結果的相關程度,在信息服務中,自動摘要有助於多種形式的內容分發,如發往PDA手機等。相似性檢索技術基於文檔內容特徵檢索與其相似或相關的文檔,是實現用戶個性化相關反饋的基礎,也可用於去重分析。自動分類可基於統計或規則,經過機器學習形成預定義分類樹,再根據文檔的內容特徵將其歸類;自動聚類則是根據文檔內容的相關程度進行分組歸併。自動分類(聚類)在信息組織、導航方面非常有用。

異構信息整合檢索和全息檢索
在信息檢索分布化和網路化的趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能夠檢索和整合不同來源和結構的信息,這是異構信息檢索技術發展的基點,包括支持各種格式化檔案,如TEXTHTMLXML、RTF、MS Office、PDF、PS2/PS、MARC、iso2709等處理和檢索;支持多語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統一處理;和關係資料庫檢索的無縫集成以及其他開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從實踐來講,發展到異構信息整合檢索的層面,基於自然語言理解的人機互動以及多媒體信息檢索整合等方面尚有待取得進一步突破。

另外,從工程實踐角度,綜合採用記憶體和外部存儲的多級快取、分散式群集和負載均衡技術也是信息檢索技術發展的重要方面。

隨著網際網路的普及和電子商務的發展,企業和個人可獲取、需處理的信息量呈爆發式增長,而且其中絕大部分都是非結構化和半結構化數據。內容管理的重要性日益凸現,而信息檢索作為內容管理的核心支撐技術,隨著內容管理的發展和普及,亦將套用到各個領域,成為人們日常工作生活的密切夥伴。

檢索原因

1.信息檢索是獲取知識的捷徑
美國普林斯頓大學物理系一個年輕大學生名叫約瀚·菲利普,在圖書館裡借閱有關公開資料,僅用四個月時間,就畫出一張製造核子彈的設計圖。他設計的核子彈,體積小(棒球大小)、重量輕(7.5公斤)、威力大(相當廣島核子彈3/4的威力),造價低(當時僅需兩千美元),致使一些國家(法國巴基斯坦等)紛紛致函美國大使館,爭相購買他的設計拷貝。
二十世紀七十年代,美國核專家泰勒收到一份題為《製造核彈的方法》的報告,他被報告精湛的技術設計所吸引,驚嘆地說:“至今我看到的報告中,它是最詳細、最全面的一份。”但使他更為驚異的是,這份報告竟出於哈佛大學經濟專業的青年學生之手,而這個四百多頁的技術報告的全部信息來源又都是從圖書館那些極為平常的、完全公開的圖書資料中所獲得的。
2.信息檢索是科學研究的嚮導
美國在實施“阿波羅登月計畫”中,對阿波羅飛船的燃料箱進行壓力實驗時,發現甲醇會引起鈦應力腐蝕,為此付出了數百萬美元來研究解決這一問題,事後查明,早在十多年前,就有人研究出來了,方法非常簡單,只需在甲醇中加入2%的水即可,檢索這篇文獻的時間是10多分鐘。在科研開發領域裡,重複勞動在世界各國都不同程度地存在。據統計,美國每年由於重複研究所造成的損失,約占全年研究經費的38%,達20億美元之巨。日本有關化學化工方面的研究課題與國外重複的,大學占40%、民間占47%、國家研究機構占40%,平均重複率在40%以上;我國的重複率則更高。專業研究的程式
3.信息檢索是終身教育的基礎
學校培養學生的目標是學生的智慧型:包括自學能力、研究能力、思維能力、表達能力和組織管理能力。
UNESCO提出,教育已擴大到一個人的整個一生,認為唯有全面的終身教育才能夠培養完善的人,可以防止知識老化,不斷更新知識,適應當代信息社會發展的需求。

四個要素

1.信息檢索的前題----信息意識
所謂信息意識,簡單地說,是人們利用信息系統獲取所需信息的內在動因,具體表現為對信息的敏感性、選擇能力和消化吸收能力。信息意識含有信息認知、信息情感信息行為傾向三個層面。
信息素養(素質)(Information Literacy)一詞最早是由美國信息產業協會主席Paul Zurkowski在1974年給美國政府的報告中提出來的。他認為:信息素質是人們在工作中運用信息、學習信息技術、利用信息解決問題的能力。
2.信息檢索的基礎----信息源
信息源的構成
按文獻載體分----印刷型、縮微型、機讀型、聲像型
按文獻內容和加工程度分--一次信息、二次信息、三次信息
按出版形式分----圖書、報刊、研究報告、會議信息、專利信息、統計數據、政府出版物、檔案、學位論文、標準信息(它們被認為是十大信息源,其中後8種被稱為特種文獻。教育信息資源主要分布在教育類圖書、專業期刊、學位論文等不同類型的出版物中)
3.信息檢索的核心----信息獲取能力
(1)了解各種信息來源
(2)掌握檢索語言
(3)熟練使用檢索工具
(4)能對檢索效果進行判斷和評價
判斷檢索效果的兩個指標:
查全率=被檢出相關信息量/相關信息總量(%)
查準率=被檢出相關信息量/被檢出信息總量(%)
4.信息檢索的關鍵:信息利用
社會進步的過程就是一個知識不斷的生產—流通—再生產的過程。
為了全面、有效地利用現有知識和信息,在學習、科學研究和生活過程中,信息檢索的時間比例逐漸增高。
獲取學術信息的最終目的是通過對所得信息的整理、分析、歸納和總結,根據自己學習、研究過程中的思考和思路,將各種信息進行重組,船造出新的知識和信息,從而達到信息激活和增值的目的。

檢索方法

信息檢索信息檢索
信息檢索方法包括:普通法、追溯法和分段法。

1.普通法是利用書目文摘、索引等檢索工具進行文獻資料查找的方法。運用這種方法的關鍵在於熟悉各種檢索工具的性質、特點和查找過程,從不同角度查找。普通法又可分為順檢法和倒檢法。順檢法是從過去到現在按時間順序檢索,費用多、效率低;倒檢法是逆時間順序從近期向遠期檢索,它強調近期資料,重視當前的信息,主動性強,效果較好。

2.追溯法是利用已有文獻所附的參考文獻不斷追蹤查找的方法,在沒有檢索工具或檢索工具不全時,此法可獲得針對性很強的資料,查準率較高,查全率較差。

3.分段法是追溯法和普通法的綜合,它將兩種方法分期、分段交替使用,直至查到所需資料為止。

一般程式

(一)分析問題
(二)選擇檢索工具
提供線索的指示型檢索工具(二次文獻):書目、館藏目錄、索引、文摘、工具書指南;
提供具體信息的參考工具(三次文獻):詞典、引語工具書、百科全書、類書、政書、傳記資料、手冊、機構名錄、地理資料、統計資料、年鑑、表譜圖冊、政府文獻。
(三)檢索工具的使用
(四)獲取原文

相關搜尋

熱門詞條

聯絡我們