網路搜尋引擎

網路搜尋引擎

21世紀是資訊時代,隨著信息科學技術的不斷發展,網路已成為人們生活中的重要組成部分,網上信息呈幾何級數增長,面對眾多繁雜無序的信息,如何能快速、準確、經濟地查找到所需要的信息,成為人們迫切需要解決的問題。

概述

搜尋引擎是為滿足人們對網路信息的搜尋需求而新興的一種網路工具,它利用網路自動搜尋功能,對各種信息資源分門別類地進行標引、建庫,並對信息進行理解、提取組織處理,從而起到信息導航的作用,幫助人們從不同形式的數位化信息中進行搜尋

網路搜尋引擎網路搜尋引擎

搜尋引擎起源於傳統的信息全文檢索理論。狹義上的搜尋引擎僅指基於網際網路的搜尋引擎;廣義上的搜尋引擎除此之外還包括基於目錄的信息檢索服務。搜尋引擎的研究極具綜合性和挑戰性,它涉及到信息檢索、人工智慧、計算機網路、分散式處理、資料庫、數據挖掘、數字圖書館、自然語言處理等多領域的關鍵理論和技術,其核心問題是資料庫的規模、索引資料庫的質量和標引質量。

工作原理及分類

搜尋引擎由搜尋器索引器檢索器用戶接口四部分。它利用一個名為“蜘蛛”的機器人程式以一定的策略自動進行信息搜尋,然後由索引器對信息進行理解、處理,從中抽取索引項,建立索引庫,再由檢索器根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,將要輸出的結果排序,並按用戶的查詢需求合理反饋信息,由用戶接口來接納用戶查詢,顯示查詢結果,提供個性化查詢項。按照信息蒐集的方法和服務提供方式的不同,搜尋引擎可以分為:

網路搜尋引擎網路搜尋引擎

1. 全文搜尋引擎

全文搜尋引擎是從各個網站提取信息,建立資料庫,檢索與用戶查詢條件相匹配的記錄後,按照一定的排列順序返回結果,是名副其實的搜尋引擎。全文搜尋引擎的自動信息蒐集功能分2 種:一種是定期搜尋,即每隔一段時間,搜尋引擎主動派出“蜘蛛”程式,對一定IP 地址範圍的網際網路站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫;另一種是提交網站搜尋,即網站擁有者主動向搜尋引擎提交網址,它在一定時間內(2 天到數月不等) 定向向你的網站派出“蜘蛛”程式。全文搜尋引擎中最具代表性的有國外著名的Google 及國內的百度搜尋。

2. 目錄索引

網路搜尋引擎網路搜尋引擎
目錄索引是一種人工方式或半自動方式的搜尋引擎,由編輯人員查看信息之後,人工形成信息摘要,並將信息置於事先確定的分類框架中。由於目錄索引只是一個按目錄分類的網站連結列表,因此不能稱為嚴格意義上的搜尋引擎。由於目錄索引中加入了人的智慧型,所以導航質量高,信息更準確,但也正因為如此,使得維護費用偏大,信息更新不及時。目錄索引中最具代表性的為yahoo 、新浪。

3. 元搜尋引擎

元搜尋引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜尋引擎遞交,將返回的結果處理後,作為自己的結果返回給用戶。元搜尋引擎返回結果的信息量更大、更全,但是不能夠充分使用所使用搜尋引擎的功能,用戶需要做更多的篩選。元搜尋引擎的代表是WebCrawler、info market 等。

發展現狀及技術展望

目前,搜尋引擎一般提供的是關鍵字的全文檢索和分類瀏覽的查詢方式,檢索方式單一。分類目錄瀏覽常

網路搜尋引擎網路搜尋引擎
常檢索到很多無關的信息,查全率查準率不高;關鍵字檢索僅僅是機械的詞語匹配,缺乏知識處理能力和理解能力,信息檢索質量不高。此外,資料庫檢索功能和套用上的局限性、排序技術指標單一、分類目標體系缺乏規範、信息加工深度不夠,這些都嚴重影響著搜尋引擎的發展。因此,必須增加檢索途徑,加強網路信息資源的科學標引和組織,推動網路資源標準化進程,積極推進搜尋引擎的發展

1. 精確搜尋技術

採用基於自然語言理解技術的智慧型化搜尋引擎,加深理解用戶搜尋請求; 通過對用戶的不斷了解、分析,提供個性化搜尋;利用XML 等技術使信息結構化,查詢結構化,提高檢索的速度和性能;針對某一行業,某一主題和某一地區的信息而建立專業化搜尋,提高搜尋的準確度。

2. 對等搜尋技術

對等搜尋P2P(Peer To Peer) 技術是以用戶為中心,通過P2P 共享硬碟上的檔案、目錄甚至整個硬碟,將這一理念具體運用到搜尋引擎技術上,使用戶無須通過Web 伺服器,不受信息文檔格式和宿主設備的限制,進行深度搜尋,網上信息的價值得到極大的提升。

3. 交叉語言檢索技術

交叉語言信息檢索是指用戶用母語提交查詢,搜尋引擎在多種語言的資料庫中進行信息檢索,返回能夠回答用戶問題的所有語言的文檔。如果再加上機器翻譯,返回結果可以用母語顯示。該技術目前還處於初步研究階段,主要的困難在於語言之間在表達方式和語義對應上的不確定性。但對於經濟全球化網際網路跨越國界的今天,無疑具有很重要的意義。

4. 移動代理技術

移動代理(Mobile Agent) 技術是一種新型分散式計算技術,是指網路上具有移動功能的、能夠自主運行的,按照用戶的要求完成指定任務的程式。在移動代理模式下,客戶機向伺服器提交的不再是一些簡單的請求,而是包含代碼和數據的移動對象,移動對象代表用戶,按照“程式靠近數據”的原則,在伺服器間自主的移動,完成數據處理的任務。基於移動代理的模式之上的應用程式可以大大節省網路寬頻,有效克服網路延時帶來的種種問題,可以智慧型化地自主異步執行,它克服了搜尋引擎傳統的“數據靠近程式”的運行模式,大大降低了網路的數據流量,節省了網路資源。

發展前景

隨著信息化社會的推進,搜尋已成為網路生活中組織和控制網路信息資源的有效工具,利用搜尋引擎加速信息流通及整和有用知識,提高信息利用率,已成為廣大用戶的共識。我們應更好的利用搜尋引擎,實現信息服務的人性化高效化,為用戶檢索信息提供更大的便利

相關詞條

相關搜尋

熱門詞條

聯絡我們