搜尋引擎技術

搜尋引擎技術

搜尋引擎技術,搜尋引擎是大量網站的頁面信息收集到本地,經過加工處理建立信息資料庫和索引資料庫,從而對用戶提出的各種檢索作出回響,提供用戶所需的信息。常用的方法是按網頁的重要性或相關性給網頁評級,進行相關性排序。

簡介

搜尋引擎技術搜尋引擎技術

搜尋引擎技術,搜尋引擎是指網際網路上專門提供檢索服務的一類網站,這些站點的伺服器通過網路搜尋軟體網路登錄等方式,將Intemet上大量網站的頁面信息收集到本地,經過加工處理建立信息資料庫和索引資料庫,從而對用戶提出的各種檢索作出回響,提供用戶所需的信息或相關指針,用戶的檢索途徑主要包括自由詞全文檢索、關鍵字檢索、分類檢索及其他特殊信息的檢索。下面以網路搜尋機器人為例來說明搜尋引擎技術。

主要分類

1、目錄式搜尋引擎:以人工方式或半自動方式蒐集信息,由編輯員查看信息之後,人工形成信息摘要,並將信息置於事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。該類搜尋引擎因為加入了人的智慧型,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜尋引擎的代表是:Yahoo、looksmart、OpenDirectory、GoGuide等。

2、機器人搜尋引擎:由一個稱為蜘蛛(Spider)的機器人程式以某種策略自動地在網際網路中蒐集和發現信息,由索引器為蒐集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,並將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜尋引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。這類搜尋引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內代表為:“天網”、悠遊、Openfind等。

3、元搜尋引擎:這類搜尋引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜尋引擎遞交,將返回的結果進行重複排除、重新排序等處理後,作為自己的結果返回給用戶。服務方式為面向網頁的全文檢索。這類搜尋引擎的優點是返回結果的信息量更大、更全,缺點是不能夠充分使用所使用搜尋引擎的功能,用戶需要做更多的篩選。這類搜尋引擎的代表是WebCrawler、InfoMarket等。

索引技術

搜尋引擎技術搜尋引擎技術

1、索引技術是搜尋引擎的核心技術之一。搜尋引擎要對所收集到的信息進行整理、分類、索引以產生索引庫,而中文搜尋引擎的核心是分詞技術。分詞技術是利用一定的規則和詞庫,切分出一個句子中的詞,為自動索引做好準備。目前的索引多採用Non—clustered方法,該技術和語言文字的學問有很大的關係。

2、索引器生成從關鍵字到URL的關係索引表。索引表一般使用某種形式的倒排表(1nversionUst),即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰關係或接近關係,並以特定的數據結構存儲在硬碟上。

3、不同的搜尋引擎系統可能採用不盡相同的標引方法。例如Webcrawler利用全文檢索技術,對網頁中每一個單詞進行索引;Lycos只對頁名、標題以及最重要的100個注釋詞等選擇性詞語進行索引;Infoseek則提供概念檢索和詞組檢索,支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。

檢索處理

1、檢索器的主要功能是根據用戶輸入的關鍵字在索引器形成的倒排表中進行檢索,同時完成頁面與檢索之間的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。

2、通過搜尋引擎獲得的檢索結果往往成百上千,為了得到有用的信息,常用的方法是按網頁的重要性或相關性給網頁評級,進行相關性排序。這裡的相關度是指搜尋關鍵字在文檔中出現的額度。當額度越高時則認為該文檔的相關程度越高。能見度也是常用的衡量標準之一。

3、一個網頁的能見度是指該網頁入口超級連結的數目。能見度方法是基於這樣的觀點:一個網頁被其他網頁引用得越多,則該網頁就越有價值。特別地,一個網頁被越重要的網頁所引用,則該網頁的重要程度也就越高。

結果處理

搜尋引擎技術搜尋引擎技術

1、按頻次排定次序通常,如果一個頁面包含了越多的關鍵字,其搜尋目標的相關性應該越好,這是非常合平常理的解決方案。

2、按頁面被訪問度排序在這種方法中,搜尋引擎會記錄它所搜尋到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含比較多的信息,或者有其他吸引入的長處。這種解決方案適合一般的搜尋用戶,而因為大部分的搜尋引擎都不是專業性用戶,所以這種方案也比較適合一般搜尋引擎使用。

3、二次檢索進一步淨化(比flne)結果,按照一定的條件對搜尋結果進行最佳化,可以再選擇類別、相關詞進行二次搜尋等。

4、由於目前的搜尋引擎還不具備智慧型,除非知道要查找的文檔的標題,否則排列第一的結果未必是“最好”的結果。所以有些文檔儘管相關程度高,但並不一定是用戶最需要的文檔。

行業套用

1、政府機關行業套用:實時跟蹤、採集與業務工作相關的信息來源。全面滿足內部工作人員對網際網路信息的全局觀測需求。及時解決政務外網、政務區域網路的信息源問題,實現動態發布。快速解決政府主網站對各地級子網站的信息獲取需求。全面整合信息,實現政府內部跨地區、跨部門的信息資源共享與有效溝通。節約信息採集的人力、物力、時間,提高辦公效率。

2、企業行業套用:實時準確地監控、追蹤競爭對手動態,是企業獲取競爭情報的利器。及時獲取競爭對手的公開信息以便研究同行業的發展與市場需求。為企業決策部門和管理層提供便捷、多途徑的企業戰略決策工具。大幅度地提高企業獲取、利用情報的效率,節省情報信息收集、存儲、挖掘的相關費用,是提高企業核心競爭力的關鍵。提高企業整體分析研究能力、市場快速反應能力,建立起以知識管理為核心的競爭情報數據倉庫,是提高企業核心競爭力的神經中樞。

3、新聞媒體行業套用:快速準確地自動跟蹤、採集數千家網路媒體信息,擴大新聞線索,提高採集速度。支持每天對數萬條新聞進行有效抓取。監控範圍的深度、廣度可以自行設定。支持對所需內容智慧型提取、審核。實現網際網路信息內容採集、瀏覽、編輯、管理、發布的一體化。

4、行業網站套用:實時跟蹤、採集與網站相關的信息來源。及時跟蹤行業的信息來源網站,自動,快速更新網站信息。動態更新信息。實現網際網路信息內容採集、瀏覽、編輯、管理、發布的一體化。針對商務網站提出商務管理模式,大大提高行業網站的商務套用需求。針對資訊網站分類目錄生成,提出用戶生成網站分類結構。並可以實時增加與更新分類結構。不受級數限制。從而大大利高行業的套用性。提供搜尋引擎SEO最佳化專業服務,快速提高行業網站的推廣。提供與CCDC呼叫搜尋引擎的廣告合作。建立行業網站聯盟,提高行業網站知名度。

5、網路信息監察與監控:網路輿情系統。如“千瓦通信-網路輿情雷達監測系統”網站信息與內容監察與監控系統,如“千瓦通信-網站信息與內容監測與監察系統(站內神探)”

使用技巧

搜尋引擎技術搜尋引擎技術

1、在類別中搜尋:許多搜尋引擎(如Yahoo)都顯示類別,如計算機和Internet、商業和經濟。如果您單擊其中一個類別,然後再使用搜尋引擎,您將可以選擇搜尋整個Internet還是搜尋當前類別。顯然,在一個特定類別下進行搜尋所耗費的時間較少,而且能夠避免大量無關的Web站點。當然,您或許還想搜尋整個Internet,以搜尋特定類別之外的信息。

2、使用具體的關鍵字:如果想要搜尋以鳥為主題的Web站點,您可以在搜尋引擎中輸入關鍵字“bird”。但是,搜尋引擎會因此返回大量無關信息,如談論高爾夫的“小鳥球(birdie)”或烹飪gamebirds不同方法的Web站點。為了避免這種問題的出現,請使用更為具體的關鍵字,如“ornithology”(鳥類學,動物學的一個分支)。您所提供的關鍵字越具體,搜尋引擎返回無關Web站點的可能性就越小。

3、使用多個關鍵字:還可以通過使用多個關鍵字來縮小搜尋範圍。例如,如果想要搜尋有關佛羅里達州邁阿密市的信息,則輸入兩個關鍵字“Miami”和“Florida”。如果只輸入其中一個關鍵字,搜尋引擎就會返回諸如MiamiDolphins足球隊或FloridaMarlins棒球隊的無關信息。一般而言,您提供的關鍵字越多,搜尋引擎返回的結果越精確。

4、留意搜尋引擎返回的結果:搜尋引擎返回的Web站點順序可能會影響人們的訪問,所以,為了增加Web站點的點擊率,一些Web站點會付費給搜尋引擎,以在相關Web站點列表中顯示在靠前的位置。好的搜尋引擎會鑑別Web站點的內容,並據此安排它們的順序,但其他搜尋引擎大概不會這么做。

5、搜尋引擎經常對最為常用的關鍵字進行搜尋,所以許多Web站點在自己的網頁中隱藏了同一關鍵字的多個副本。這使得搜尋引擎不再去查找Internet,以返回與關鍵字有關的更多信息。正如讀報紙、聽收音機或看電視新聞一樣,請留意您所獲得的信息的來源。搜尋引擎能夠幫您找到信息,但無法驗證信息的可靠性。因為任何人都可以在網上發布信息。

相關詞條

相關搜尋

熱門詞條

聯絡我們