視采採集器

信息採集系統是通過網站管理員指定的網站地址和預定義的抓取規則,自動獲取網頁內容,自動按照自身網站系統的數據結構抽取數據,並發布到網站系統中的一種實用方便的系統。

市場分析

網際網路套用
隨著網際網路的發展及普及,網際網路用戶迅速增長,上網已成為人們生活中的日常內容,人們通過網站閱讀,發表,搜尋,交流,購物等,所有這些上網行為,由點到線,都將匯聚龐大的商業價值。因此,網際網路成為眾多人的夢想帝國,淘金之地。不管您是腰纏萬貫,還是身無分文,這裡只談信息為王,服務至上。因此信息的創造、收集、組織和再加工是網站的生存基礎。信息採集系統可以通過網站管理員指定的網站地址和預定義的抓取規則,自動獲取網頁內容,自動按照自身網站系統的數據結構抽取數據,並發布到網站系統中,讓您不花絲毫心血和金錢,就可以使您的網站一夜之間網羅天下。
信息搜尋
由於各種用戶群體的網路連線,使得網際網路成為一個包羅萬象的信息庫,商業的、學術的、個體的等等信息都可以在網際網路上發布和獲取,因此,企業可以通過網際網路獲取客戶資源、市場行情、商業信息等。但在這茫茫的信息大海,我們常常缺少一種工具來發現我們所關心的內容,並有效的組織和儲備它們,使之成為企業的內部資源。信息採集系統可以根據數據模式,自動通過搜尋引擎檢索數據,將匹配的信息顯示在您的桌面上。
資料錄入
企業管理系統,企業信息管理系統、客戶服務系統等各種信息處理系統,它們只能處理結構化的數據,如學生信息包括用戶名、性別、年齡等屬性,它們必須保存在預定義的結構里。但系統外界會有大量的非結構化數據,如客戶提交的材料、公司內部文檔等。而這些數據通常是人工統計和人工輸入各類信息處理系統中。信息採集系統它能將一篇文檔按信息系統的數據結構自動抽取成多個欄位,並自動將這些欄位導入到企業的各類信息處理系統中。

用戶特點

網站管理員
系統的最終用戶群包含網站的管理員們,對一些給目標地址做了隱藏的網站,可能會使他們操作失敗,特別有些網站對網頁內容作了擾亂處理,使得他們更難準確地定義規則。對於這些問題,系統提供一些範例和匹配通配符,告訴他們的應對方法。並且官方網站提供交流論壇,共享和學習相互之間的經驗。
信息採集用戶
對於信息採集的用戶,系統提供豐富的模板模式供用戶使用,如email匹配模式、電話號碼匹配模式等,只需要用戶選擇一個模板,就可以獲得他們想要的信息。當然官方網站提供豐富模板資源供以下載。
數據結構化用戶
對於數據結構化的套用,會有第三方的技術人員提供支持。
系統預留了輸入輸出的編程接口,一些用戶擴展這些接口,使系統套用到更多的場合下。針對這些用戶,系統提供詳細的接口說明,擴展示例代碼。我們提供開發包,並描述每個類和每個方法的使用方法和功能。
還有一類用戶屬於商人的範疇,他們僅從事規則的製作,在網上交換或出售自己的規則。他們更關心網站的搜尋和內容的質量,他們分兩種類型,一種是獵人,他們能夠發現各種各樣的信息,能夠滿足各類網管的內容需求,他們從數量上獲取大把金錢。當然,對於個別稀有的內容,價格就像黃金一樣了。另一種屬於黑客,他們精通web技術,機智並執著,在他們手裡,都是一些很難發掘到的精品,當然價格都是高昂的。
由於採集系統屬於開放式軟體,會有很多人去分析和使用採集系統中的組件,擴展和完善採集系統。他們使用的級別不僅是系統的界面上,而是深入到代碼的內部上,他們需要參考採集系統的各類技術文檔,所以系統除了用戶手冊,其它的開發文檔也是必不可少的。

系統特性

I/O體系
系統使用統一的輸入輸出接口對各類外部目標進行讀取和發布數據。透明的支持現在和未來各類外部系統的互動要求。
容器體系
容器管理體系,使系統運行更加高效,並且提供更高的用戶互動能力。特性如下:
1. 控制過濾器的並發數,適應不同的目標限制。
2. 過濾器的狀態報告,時刻了解內容的採集過程。
3. 採用復用和調度策略,並發更加高效。
快取體系
快取區為輸出子系統提供全局的數據索引,使輸出子系統具備以下幾種能力:
1. 可以在全局範圍內對數據進行校驗和再加工。
2. 可以跨層次地關聯單元數據,發布採集的中間數據。
外掛程式體系
採集系統支持豐富的外掛程式類型,外掛程式管理器負責載入外掛程式和索引外掛程式。外掛程式分以下幾種類型:
輸入外掛程式、輸出外掛程式和過濾器外掛程式,功能如下:
1. 輸入外掛程式支持不同的外部對象讀取。如http伺服器、ftp伺服器、檔案系統等。
2. 採集外掛程式支持不同的數據格式採集以及特殊的信息採集。如網頁採集、word採集、電子郵件地址採集等。
3. 輸出外掛程式支持各類系統的發布,如bbs系統、信息系統等。

功能說明

結構化採集
系統對半結構化數據進行語義分析,根據語義規則智慧型提取數據。
可視化元數據定義
用戶在可視化的目標界面上指定所要採集的內容。
外掛程式支持
系統擁有豐富的外掛程式功能,支持各類目標的採集和各類系統的發布。如ftp採集,http採集以及資料庫發布,檔案發布。
客戶端環境模擬
模擬客戶端環境,支持客戶端和伺服器端的基本會話功能。如瀏覽器的session機制、cookie機制。支持用戶登錄。
多執行緒採集
系統多任務並發,多執行緒採集。支持執行緒的並發控制和狀態監視。
全局發布
系統提供上下文關聯的全局快取區,發布模組可以聯合不同層次的單元數據。用戶可以檢查和編輯快取區中的單元數據。
分頁採集
根據頁碼規則,自動採集內容的下一頁。
關聯檔案下載
系統可以根據設定自動下載頁面包含的其它檔案。如flash、圖片等。
規則保存
採集對象、過濾規則、發布目標等信息保存在規則檔案里,用戶可以導入導出規則檔案,與它人共享或交換規則檔案。系統提供友好的嚮導頁面供用戶配置規則檔案。
模板修飾
可以按預定義的模板結構發布數據。
結果過濾、替換
自動過濾數據的格式及語法,如過濾html語言,word格式等。支持常量替換和環境變數替換。
重複過濾
自動刪除採集結果中的重複數據。

相關詞條

熱門詞條

聯絡我們