維基搜尋

維基搜尋

維基搜尋又稱搜尋引擎。維基搜尋指自動從網際網路蒐集信息,經過一定整理以後,提供給用戶進行查詢的系統。網際網路上的信息浩瀚萬千,而且毫無秩序,所有的信息象汪洋上的一個個小島,網頁連結是這些小島之間縱橫交錯的橋樑,而搜尋引擎,則為用戶繪製一幅一目了然的信息地圖,供用戶隨時查閱。

工作原理

(圖)網路搜尋引擎網路搜尋引擎

搜尋引擎的工作原理大致可以分為:

蒐集信息:搜尋引擎的信息蒐集基本都是自動的。搜尋引擎利用稱為網路蜘蛛的自動搜尋機器人程式來連上每一個網頁上的超連結。機器人程式根據網頁鏈到其他中的超連結,就象日常生活中所說的“一傳十,十傳百……”一樣,從少數幾個網頁開始,連到資料庫上所有到其他網頁的連結。理論上,若網頁上有適當的超連結,機器人便可以遍歷絕大部分網頁。
整理信息:搜尋引擎整理信息的過程稱為“建立索引”。搜尋引擎不僅要保存蒐集起來的信息,還要將它們按照一定的規則進行編排。這樣,搜尋引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。想像一下,如果信息是不按任何規則地隨意堆放在搜尋引擎的資料庫中,那么它每次找資料都得把整個資料庫完全翻查一遍,如此一來再快的計算機系統也沒有用。
接受查詢:用戶向搜尋引擎發出查詢,搜尋引擎接受查詢並向用戶返回資料。搜尋引擎每時每刻都要接到來自大量用戶的幾乎是同時發出的查詢,它按照每個用戶的要求檢查自己的索引,在極短時間內找到用戶需要的資料,並返回給用戶。目前,搜尋引擎返回主要是以網頁連結的形式提供的,這樣通過這些連結,用戶便能到達含有自己所需資料的網頁。通常搜尋引擎會在這些連結下提供一小段來自這些網頁的摘要信息以幫助用戶判斷此網頁是否含有自己需要的內容。
整理信息及接受查詢的過程,大量套用了文本信息檢索技術,並根據網路超文本的特點,引入了更多的信息。

發展歷史

(圖)時間線時間線

1990年初當時全球資訊網還未出現,為了查詢散布在各個分散的主機中的檔案,曾有過Archie、Gopher等搜尋工具,隨著網際網路的迅速發展,基於HTTP訪問的web技術的迅速普及,他們就不再能適套用戶的需要。在1994年1月,第一個既可搜尋又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線,它還支持Gopher和Telnet搜尋。同年4月,Yahoo目錄誕生,隨著訪問量和收錄連結數的增長,開始支持簡單的資料庫查詢。這就是我們說的早期的目錄導航系統,他們的缺點是網站收錄/更新都要靠人工維護,所以在信息量劇增的條件下,就不是非常受用了。

1994年7月,Lycos推出了基於robot的數據發掘技術,並支持搜尋結果相關性排序,並且他第一個開始在搜尋結果中使用了網頁自動摘要。Infoseek也是同時期的一個重要代表,他們是搜尋引擎史上一個重要的進步。

1995年,一種新的搜尋引擎工具出現了——元搜尋引擎,第一個元搜尋引擎是華盛頓大學的學生開發的Metacrawler。用戶只需提交一次搜尋請求,由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給用戶。

1995年12月才登場亮相的AltaVista推出了大量的創新功能使它迅速到達當時搜尋引擎的頂峰,它第一個支持自然語言搜尋的搜尋引擎,具備了基於網頁內容分析,智慧型處理的能力,第一個實現高級搜尋語法的搜尋引擎(如AND、OR、NOT等),同時AltaVista還支持搜尋新聞群組,搜尋圖片等具有劃時代意義的功能。同時期還有inktomi、HotBot等搜尋引擎。

1997年8月Northernlight 公司正式推出搜尋引擎,它第一個支持對搜尋結果進行簡單的自動分類,也是當時擁有最大資料庫的搜尋引擎之一。

1998年10月,Google(中文名谷歌)誕生。它是目前世界上最流行的搜尋引擎之一,具備很多獨特而且優秀的功能,並且在界面等實現了革命性創新。

1999年5月,Fast(Alltheweb)公司發布了自己的搜尋引擎AllTheWeb,它的網頁搜尋可利用ODP自動分類,支持Flash和pdf搜尋,支持多語言搜尋,還提供新聞搜尋、圖像搜尋、視頻、MP3、和FTP搜尋,擁有極其強大的高級搜尋功能。它曾經是最流行的搜尋引擎之一,後在2003年2月被Overture收購。

(圖)時間線時間線

中文搜尋引擎領域,1996年8月成立的搜狐公司是最早參與作網路信息分類導航的網站,曾一度有“出門找地圖,上網找搜狐的”美譽。由於其人工分類提交的局限性,隨著網路信息的暴增,逐漸被基於robot自動抓取智慧型分類的新一代信息技術取代。

台灣中正大學吳升教授所領導的GAIS實驗室1998年1月創立了Openfind中文搜尋引擎,是最早開發的中文智慧型搜尋引擎,採用GAIS實驗室推出多元排序(PolyRankTM)核心技術,截止2002年6月,宣布累計抓取網頁35億,開始進入英文搜尋領域。

北大天網是教育網最流行的搜尋引擎,它由北大計算機系網路與分散式系統研究室開發,於1997年10月29日正式在CERNET上提供服務, 2000年初成立天網搜尋引擎新課題組,由國家973重點基礎研究發展規劃項目基金資助開發,收錄網頁約6000萬,利用教育網優勢,有強大的ftp搜尋功能。

百度中文搜尋由超鏈分析專利發明人、前Infoseek資深工程師李彥宏和好友徐勇2000年1月創建,目前支持網頁信息檢索,圖片,Flash,音樂等多媒體信息的檢索。並且百度在中文領域第一個開始使用ppc經營模式。

2002年開始很多公司受搜尋市場前景和Google神話的吸引,積極進入搜尋引擎市場,謀求一席之地。但是不幸的是他們當中很多公司尤其是不少中國公司採用流氓手段進行自己搜尋引擎的推廣工作,常用的手段是瀏覽器劫持、惡意捆綁adware/spyware等等,比較惡劣的典型公司是中搜、3721等等。中搜是由慧聰國際主持開發的,自稱是搜尋領域的後起之秀。目前處於起步階段,但是採用流氓軟體手段推廣後,強占了不少用戶的搜尋引擎選擇。2003年年底慧聰搜尋改名為中國搜尋,推出第三代智慧型搜尋引擎。最近中國搜尋主推桌面搜尋--網路豬,是臭名昭著的流氓軟體之一。

2003年11月,Yahoo全資收購3721公司。2005年8月,阿里巴巴和Yahoo達成戰略合作,全資收購雅虎中國,並更名為阿里巴巴雅虎,並將其業務重點全面轉向搜尋領域。

2004年8月3日,搜狐公司推出中文搜尋引擎搜狗。

2006年9月,微軟公司正式推出了擁有自主研發技術的Live Search,宣布進軍搜尋引擎市場,挑戰Google在網路搜尋領域的霸主地位。

2006年12月,網易公司推出中文搜尋引擎有道。

2008年5月,整合搜尋引擎搜尋島誕生,融合百家之長,號稱中國最好的(山寨)搜尋引擎,搜尋島是一個面向用戶的以整合中國各個垂直領域最好的搜尋引擎建立的。從用戶的角度,搜尋島的體驗非常不錯,故其得到了很多網友的喜愛。它的出現也是網際網路開放性的一個體現,也給各大搜尋引擎廠商一個啟迪,就是一切為用戶著想,要了解並滿足用戶真正的需要。

商務時代

搜尋引擎的商務是一種新的商業模式,在中國大陸還有很多人用網址大全去尋找商業平台網站的時候,搜尋引擎行銷的方式慢慢的興起,越來越多的買家又或賣家通過搜尋引擎來尋找自己的需要。其中以Google最為出名,可以說是一代搜尋引擎的楷模。Google以其優秀的搜尋算法,不被競價排名所籠罩的口碑成為全世界最為出名的搜尋引擎。

未來展望

隨著網際網路的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質素亦變得良莠不齊,沒有保證。所以,未來的搜尋引擎將會朝著知識型搜尋引擎的方向發展,期以為搜尋者提供更準確及適用的資料。目前,網上的百科全書如雨後春筍般發展起來;另一方面,近年來亦有不少公司嘗試在搜尋方面改進,務求更符合用戶的要求。當中諸如Copernic Agent之類的搜尋代理就是其中之一。

相關詞條

相關搜尋

熱門詞條

聯絡我們