人工搜尋引擎

人工搜尋引擎

人工搜尋引擎(MASEEN),是搜尋引擎中的一種,全稱“manual search engine”,也翻譯成“手工搜尋引擎”和“人力搜尋引擎”。人工搜尋引擎(manual search engine)是指根據一定的策略、主題和形式,依靠網民蒐集網際網路上的信息,再由MASEEN工作人員對信息進行人工組織和處理後,並將處理後的信息顯示給用戶,是為用戶提供檢索服務的系統。

【概念】
人工搜尋引擎(MASEEN),是搜尋引擎中的一種,全稱“manual search engine”,也翻譯成“手工搜尋引擎”和“人力搜尋引擎”。人工搜尋引擎(manual search engine)是指根據一定的策略、主題和形式,依靠網民蒐集網際網路上的信息,再由MASEEN工作人員對信息進行人工組織和處理後,並將處理後的信息顯示給用戶,是為用戶提供檢索服務的系統。
從使用者的角度看,搜尋引擎提供一個包含搜尋框的頁面,在搜尋框輸入詞語,通過瀏覽器提交給搜尋引擎後,搜尋引擎就會返回跟用戶輸入的內容相關的信息列表。
與機器搜尋引擎(search engine)相比,人工搜尋引擎不依靠運用特定的電腦程式去蒐集網頁,而是依靠人力主動去網際網路上尋找並且收集特定主題的網頁,之後通過搜尋框提供信息檢索服務。
網際網路發展前期,以美國的Digg為代表的挖掘網站非常流行。Digg由人工整理維護,精選網際網路上的優秀信息,並簡要描述,分類放置到不同類別下。也有人把這種基於挖掘的信息分享服務網站稱為人工搜尋引擎,但從嚴格意義上講,它並不是搜尋引擎,也不是人工搜尋引擎,而是人工搜尋引擎的雛形。
【工作原理】
人工搜尋引擎(MASEEN)工作原理和機器搜尋引擎(如百度、Google、yahoo)原理基本一致,但收集網頁卻完全人工化:
1、抓取網頁
人工搜尋引擎沒有獨立的網頁抓取程式(spider)。而是依靠網民一頁一頁地抓取網頁,從而豐富信息資料庫。
2、處理網頁
人工搜尋引擎抓到網頁後,MASEEN工作人員還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵字和編輯內容,建立索引檔案。其他還包括去除垃圾信息(垃圾網頁、垃圾連結和垃圾檔案)的重要度。
3、提供檢索服務
用戶輸入關鍵字進行檢索,搜尋引擎從索引資料庫中找到匹配該關鍵字的網頁;為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
【分類】
1、全文索引
全文搜尋引擎是名副其實的搜尋引擎,MASEEN從網際網路提取各個網站的信息(以網頁文字為主),建立起資料庫,並能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。
2、目錄索引
目錄索引雖然有搜尋功能,但嚴格意義上不能稱為真正的搜尋引擎,只是按目錄分類的網站連結列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵字(Keywords)進行查詢。
3、手動添加
手動搜尋引擎(MASEEN)由用戶自身在網際網路發現的優質的信息(含視頻、網頁、部落格和圖片等)將它們添加在MASEEN的網站中,一方面方便自己日後查看,另一方面為他人的搜尋服務提供資源。
【人工搜尋引擎的發展歷史】
人工搜尋引擎是搜尋引擎歷史的一部分,也是對機器搜尋引擎的補充。
1990年,加拿大麥吉爾大學(University of McGill)計算機學院的師生開發出Archie。當時,全球資訊網(World Wide Web)還沒有出現,人們通過FTP來共享交流資源。Archie能定期蒐集並分析FTP伺服器上的檔案名稱信息,提供查找分別在各個FTP主機中的檔案。用戶必須輸入精確的檔案名稱進行搜尋,Archie告訴用戶哪個FTP伺服器能下載該檔案。雖然Archie蒐集的信息資源不是網頁(HTML檔案),但和搜尋引擎的基本工作方式是一樣的:自動蒐集信息資源、建立索引、提供檢索服務。所以,Archie被公認為現代搜尋引擎的鼻祖。
搜尋引擎的起源:
所有搜尋引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用檔案名稱查找檔案的系統,於是便有了Archie。Archie是第一個自動索引網際網路上匿名FTP網站檔案的程式,但它還不是真正的搜尋引擎。Archie是一個可搜尋的FTP檔案名稱列表,用戶必須輸入精確的檔案名稱搜尋,然後Archie會告訴用戶哪一個FTP地址可以下載該檔案。 由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜尋工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜尋工具。
發 展(1):
世界上第一個Spider程式,是MIT Matthew Gray的World wide Web Wanderer,用於追蹤網際網路發展規模。剛開始它只用來統計網際網路上的伺服器數量,後來則發展為也能夠捕獲網址(URL) 。
搜尋引擎一般由以下三部分組成:
爬行器(機器人、蜘蛛)
索引生成器
查詢檢索器
發 展(2):
Excite 的歷史可以上溯到1993年2月,6個Stanford University(史丹福大學)大學生的想法是分析字詞關係,以對網際網路上的大量信息作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還發布了一個供webmasters在自己網站上使用的搜尋軟體版本,後來被叫做Excite for Web Servers。
註:Excite後來曾以概念搜尋聞名,2002年5月,被Infospace收購的Excite停止自己的搜尋引擎,改用元搜尋引擎 Dogpile
發 展(3):
1994年4月,史丹福大學的兩名博士生,美籍華人楊致遠和David FILO共同創辦了Yahoo!。隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜尋。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜尋的目錄。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜尋效率明顯提高。
發 展(4):
1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(Meta Search Engine)。用戶只需提交一次搜尋請求,由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。
第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜尋引擎概念上好聽,但搜尋效果始終不理想,所以沒有哪個元搜尋引擎有過強勢地位。
發 展(5):
智慧型檢索的產生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網路,給予用戶智慧型知識提示,最終幫助用戶獲得最佳的檢索效果。
例:
(1)查詢“計算機”,與“電腦”相關的信息也能檢索出來;
(2)可以進一步縮小查詢範圍至“微機”、“伺服器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟體”、“計算機套用”等範疇;
(3)還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、準確地反饋給用戶最需要的信息。
發 展(6):
個性化趨勢是搜尋引擎的一個未來發展的重要特徵和必然趨勢之一。一種方式通過搜尋引擎的社區化產品(即對註冊用戶提供服務)的方式來組織個人信息,然後在搜尋引擎基礎信息庫的檢索中引入個人因素進行分析,獲得針對個人不同的搜尋結果。自2004年10月yahoo推出myweb測試版,到11月a9推出個性化功能,到2005年Googlesearchhistory基本上都沿著一條路子走,分析特定用戶的搜尋需求限定的範圍,然後按照用戶需求範圍擴展到網際網路上其他的同類網站給出最相關的結果。另外一種是針對大眾化的,Google個性化搜尋引擎,或者yahooMindSet,或者我們都知道的前台聚類的Vivisimo。但是無論其中的哪一種實現方式,即Google的主動選擇搜尋範圍,還是yahoo(http://my.yahoo.com),vivisimo的在結果中重新組織自己需要的信息,都是一種實驗或者創想,短期內無法成為主流的搜尋引擎套用產品。
發 展(7):
格線技術(great global grid):由於沒有統一的信息組織標準對網路信息資源進行加工處理,難以對無序的網路信息資源進行檢索、交接和共享乃至深層次的開發利用,形成信息孤島。格線技術就是要消除信息孤島實現網際網路上所有資源的全面連通。
美國全球信息格線(Global Information Grid)
Robot(機器人)一詞對編程者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重複執行某項任務的自動程式。由於專門用於檢索信息的Robot程式像蜘蛛(spider)一樣在網路間爬來爬去,因此,搜尋引擎的Robot程式被稱為spider程式。
1993年Matthew Gray開發了 World Wide Web Wanderer,這是第一個利用HTML網頁之間的連結關係來檢測全球資訊網規模的“機器人(Robot)”程式。開始,它僅僅用來統計網際網路上的伺服器數量,後來也能夠捕獲網址(URL)。
1994年4月,史丹福大學(Stanford University)的兩名博士生,美籍華人Jerry Yang(楊致遠)和David Filo共同創辦了Yahoo。隨著訪問量和收錄連結數的增長,Yahoo目錄開始支持簡單的資料庫搜尋。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜尋引擎,事實上只是一個可搜尋的目錄。雅虎於2002年12月23日收購inktomi,2003年7月14日收購包括Fast和Altavista在內的Overture,2003年11月,Yahoo全資收購3721公司。
1994年7月,卡內基•梅隆大學(Carnegie Mellon University) 的Michael Mauldin將John Leavitt的spider程式接入到其索引程式中,創建了Lycos。除了相關性排序外,Lycos還提供了前綴匹配和字元相近限制,Lycos第一個在搜尋結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜尋引擎的數據量。
2004年10月,美國人凱文•羅斯創辦了http://www.digg.com/ 網站,是第一個掘客網站。從2005年的三月開始漸漸為人所知,最初定位於科技新聞的挖掘;於2006年的6月第三次改版,把新聞面擴充的其他的門類,之後,流量迅速彪升。目前Digg已經是全美第24位大眾網站了,正逼近紐約時報(第19位),輕鬆打敗了福克斯新聞網。digg.com的Alexa的排名是全球第100位。每天有超過100萬人聚集在掘客,閱讀、評論和“Digging”4000條信息。
掘客類網站其實是一個文章投票評論站點,它結合了書籤、部落格、RSS 以及無等級的評論控制。它的獨特在於它沒有職業網站編輯,編輯全部取決於用戶。用戶可以隨意提交文章,然後由閱讀者來判斷該文章是否有用,收藏文章的用戶人數越多,說明該文章越有熱點。即用戶認為這篇文章不錯,那么dig一下,當dig數達到一定程度,那么該文章就會出現在首頁或者其他頁面上。
發 展(8):
2008年3月,吉林農業大學本科學生廖方發表《淺談中國搜尋引擎》論文,提出“人工搜尋引擎(MASEEN)”概念,質疑“搜尋引擎(機器)”的未來發展,提出“加大人工對搜尋引擎的搜尋結果乾預”,提倡“搜尋引擎(機器)與人工搜尋引擎相結合”理論。

相關詞條

相關搜尋

熱門詞條

聯絡我們