網路數據抽取

網路數據抽取(Web data mining),是指從網路中取得大量的又利用價值的數位化信息。主要包括結構化數據抽取(Structured Data Extraction)、信息集成(Information integreation)和觀點挖掘(Opinion mining)等。

簡介

網路數據抽取(Web data mining),是指從網路中取得大量的又利用價值的數位化信息。主要包括結構化數據抽取(Structured Data extraction)、信息集成(Information integreation)和觀點挖掘(Opinion mining)等。

基本概念

結構化數據抽取(Structured Data Extraction)的目標是從Web頁面中抽取結構化數據。這些結構化數據往往存儲在後台資料庫中,由網頁按一定格式承載著展示給用戶。例如論壇列表頁面、Blog頁面、搜尋引擎結果頁面等。
信息集成(Information integration)是針對結構化數據而言的。其目標是將從不同網站中抽取出的數據統一化後集成入庫。其關鍵問題是如何從不同網站的數據表中識別出意義相同的數據並統一存儲。

實現流程

網路數據抽取技術流程的實現
其具體步驟如下(以最通用的“Knowlesys採集”步驟為例)
第一步,確立採集目標,即由用戶選擇目標網站。
第二步:提取特徵信息,即根據目標網站的網頁格式,提取出採集目標數據的通性。
第三步:網路信息獲取,即利用工具自動的把頁面數據把存到資料庫。

相關詞條

熱門詞條

聯絡我們