邁克·林奇

邁克·林奇

英國第一大網路富豪、“自治”軟體公司的首腦

搜尋巨鱷邁克·林奇來華斡旋 Autonomy中國布局加速
2006-07-24 19:17:08
7月24日凌晨,現年40歲的英國Autonomy全球CEO邁克·林奇( Mike Lynch )和公司COO安迪·康特(Andy katner)一行從英國飛抵北京國際機場。自2003年Autono
my進入中國市場以來,這還是邁克·林奇第二次來華——此前的一次是去年3月,當時由他親自操刀,Autonomy首次在國內網際網路搜尋市場進行了前期部署。
儘管Autonomy大中華區首席代表伍昕對邁克·林奇此行的計畫諱莫如深,但記者從多種途徑獲悉,邁克·林奇此次來華,可能主要是為在企業級搜尋市場進行相關投資。

暗戰企業搜尋

公開資料顯示,Autonomy成立於1996年,曾先後在布魯賽爾的EASDAQ、倫敦股票交易所和美國NASDAQ上市,但因為一向專注於企業級搜尋市場,其名頭遠不如專注於網際網路搜尋的Google來得響亮,雖然自2005年11月以5億美元完成對另一家企業搜尋廠商verity的收購後,Autonomy在企業搜尋市場的份額已飆升至80%,遠超排名第二的Fast及微軟、Google、IBM等廠商。
不過,有跡象表明,Autonomy已有意整個切入到第三代網際網路搜尋領域。2004年7月Autonomy通過其位於美國舊金山的控股公司Blinkx推出的視頻搜尋門戶Blinkx,可視為其向網際網路搜尋市場延伸的試探性舉措。
不無意味的是,在Autonomy向web搜尋進行外延擴張的同時,web搜尋市場巨頭Google、MSN等也在悄然向企業搜尋市場滲透。
自2002年推出搜尋專用設備GSA起,Google就一直不斷擴展其企業搜尋業務線,包括推出Gmail的改良版和桌面搜尋工具,以便通過捆綁不同的產品模組形成整合優勢。但由於種種原因,從那時迄今,其市場份額一直徘徊於1%以下,難有突破。為此,2003年,Google高層曾就是否砍掉企業搜尋業務進行過多次激辯,最後還是決定保留下來,以觀後效。
此後,Google投注到企業市場的砝碼愈來愈大。今年一季度,Google先是推出了一款面向小型企業的新版Google Mini搜尋工具,並在其中集成了企業版桌面搜尋功能,接著又推出企業搜尋設備OneBox 的升級版以及售價更高的企業級搜尋工具。儘管並無革命性的技術,但憑藉同業最低價和個人市場的用戶口碑,Google已開始慢慢打開局面。
與此同時,包括微軟MSN、IBM在內的軟體巨頭也磨刀霍霍,試圖在走入上升通道的企業搜尋市場取一瓢飲。今年5月,在微軟發布最新的企業搜尋工具之後,微軟營運長特納在一次會議上甚至對外放話說:“企業搜尋是我們的地盤,我們不會讓Google奪走它。”
而IBM,雖然沒有如此張揚,卻也在暗中畜勢,一面打造看家搜尋產品,一面則遠交近攻,與Google百度等搜尋廠商展開多種合作。
出人意料的倒是百度。就在邁克·林奇來華的前夕,百度不光一股腦砍掉了運營企業搜尋業務的ES部門,還裁撤了該部門的大部分員工,從此將企業搜尋從自己的擴張版圖中一筆勾銷。百度對外的解釋是,企業軟體與公司的搜尋核心業務背離,且只占據很少的業務線,比例不到2%;選擇撤銷,是為了騰出精力發展包括競價排名、精準廣告在內的網際網路搜尋業務。
有訊息說,百度的部分離職員工已向Autonomy以及國內另一家企業搜尋廠商TRS投遞簡歷並接受面試,但這一訊息沒有得到上述兩家企業的確認。

算法之爭

業內人士認為,包括Google、MSN、百度在內的基於關鍵字搜尋的廠商之所以遲遲難以在企業搜尋市場打開局面,取得較大的市場份額,與關鍵字搜尋引擎技術本身的算法局限性有關。
以pagerank為代表的超鏈分析技術,大多基於如下假設:某個網頁被連結得越多,則其重要性就越大。由於只是根據網頁之間的超鏈關係來決定網頁內容的重要程度,又只限於提取關鍵字而不是提取基於內容識別的概念,該算法一當面臨企業級的精準搜尋要求時,就顯得捉襟見肘。雖然Google已試圖引進其他算法來克服這一局限性,但迄今收效甚微。
在看到pagerank的局限性以後,一些新興的搜尋公司已開始嘗試更新的算法。例如Clusty,該公司通過借鑑Autonomy的模式識別技術以及自動分類等功能,可基於對概念的理解提供搜尋結果的自動分類等功能。
Autonomy的模式識別技術的理論支撐點是貝葉斯機率論和申農資訊理論,其核心是一個名為智慧型信息操作層(IDOL)的底層技術。因為不依賴於語言分析,而只是把語言當成一種符號,根據關鍵字的出現頻率來識別不同文本在上下文環境中的模式,以此來抽取文檔中的文本要素進行概念識別,因此,相比於pagerank算法,IDOL可以提供更精確的文本上下文分析和概念抽取,進而對信息進行超連結、自動聚類、自動分類、主動匹配、信息地圖等自動化操作。
搜尋3.0浮現
Google、百度等當然沒有停止對核心算法的改進,不管是簡單的修修補補,還是投資浩大的技術研發。
多種證據顯示,Google正準備研發包括語義搜尋在內的下一代智慧型搜尋引擎,微軟也開始研發基於Web Block(網頁塊)而不是網頁的搜尋技術,而一家叫Senopy的公司則正在研究自然語言搜尋引擎。
同樣研發自然語言搜尋技術的還有IBM。據悉,IBM公司的研究和開發部門在UIMA平台上早已開始進行基於語言分析、知識庫、問答系統、機器翻譯等功能的自然語言搜尋研究。
在國內,暗中著手人工智慧搜尋的還包括百度、搜狗、海量科技、Aisou等。其中海量推出的digdig更聲稱已掌握了基於“語義數據挖掘”的中文信息處理技術,並涉足到軟體、人物、圖片等垂直搜尋領域。不妨順帶提及的是,在2003年Autonomy進軍中國之初,採用的就是海量的中文分詞技術。
伍昕告訴記者,目前通過語義分析進入第三代搜尋的路徑大約有三種:一種是通過真正的語法、詞法分析理解文字,諸如貓狗到底是什麼之類,不過到現在為止,上述努力基本上無大建樹,因為語言比我們想像的要複雜得多,計算機要想完全理解語言,幾乎是不可能的;還有一種是模仿人腦進行人工智慧分析,但由於比起所需要的精確度,現有電腦的處理能力還遠遠不夠,因此該方法雖然可以做到一定程度的精確搜尋,但至少眼下看來還難有大成;第三種是基於機率論和資訊理論的模型匹配技術,即通過統計分析理解文章的核心概念及概念間的關係。
算法之外,搜尋引擎領域的另一個發展重點是對搜尋結果呈現方式的處理。在美國,像Grokker、Snap這樣的後起之秀即以更個性化的搜尋結果分類、呈現方式等為招徠,吸引了大批忠誠用戶。
不過伍昕表示,上述以web2.0為賣點的搜尋引擎仍沒有走出將非結構化信息進行結構化處理的誤區,其特徵之一就是把每個信息都人工打上標籤,依此來進行人工分類和信息聚合,這其實是吃力不討好的一件事。因為每個文檔、網頁上的信息都涵蓋眾多,張貼一個或幾個標籤,不光不確切、有歧義,而且容易丟掉很多信息,於是給信息管理製造出新的難題。更好的做法應該是對文章的內容進行分析和概念提取,基於此,真正的關聯、分類和聚類才成為可能。
“網際網路其實是一個語義網,Google只做到了很淺的一部分,就是通過關鍵字搜尋把信息從一個地方搬到另一個地方,但其實這裡面可以構建一個知識網,而搜尋引擎應該成為這個知識網的作業系統。”伍昕說。
促使搜尋引擎成為信息作業系統,這其實一直是每一個搜尋廠商的終極目標。不論是個性化搜尋、社區化搜尋、知識問答社區,還是人工智慧、模式匹配、語義搜尋,都是這一努力不可分割的一部分。儘管眼下關於第三代搜尋引擎的激辯中不無喧譁的噪音,也不無誤入歧途的風險,但呼聲甚高的第三代搜尋引擎或者搜尋3.0的浮現和大面積井噴,相信只是個時間問題。

相關詞條

相關搜尋

熱門詞條

聯絡我們