論壇採集系統

所以要讓論壇採集器能夠運行,目標論壇必須具備重複出現的特徵。 論壇採集器中的模式大多不是程式自動發現的,目前幾乎所有的論壇採集器產品都需要通過人工來定義。 正則表達式定義正則表達式定義是目前主流套用的技術,主要代表為火車頭採集器。

論壇採集系統是論壇站長的輔助工具,論壇在建設初期,需要大量的內容,手工傳送費時費力,而且難以形成論壇的互動,論壇採集器主要是幫助論壇站長採集、傳送大量帖子內容到指定的板塊,輔助功能是模擬成千上萬的會員上線、看帖、發帖、回帖、頂貼,形成一定的互動效果,吸引新遊客註冊從而成為論壇的常駐會員。另外,論壇採集器也可以用在論壇監控、網路監控等方面。

論壇採集系統核心技術

論壇採集器核心技術是模式定義和模式匹配。模式屬於人工智慧的術語,意思為物體前人積累的經驗的抽象和升華。簡單地說,就是從不斷重複出現的事件中發現和抽象出的規律,是解決問題的經驗的總結。只要是一再重複出現的事物,就可能存在某種模式。
所以要讓論壇採集器能夠運行,目標論壇必須具備重複出現的特徵。目前大多論壇都是動態生成的,這樣就會讓同一模板的頁面包含相同的內容,論壇採集器正是利用這些相同的內容來定位採集數據的。
論壇採集器中的模式大多不是程式自動發現的,目前幾乎所有的論壇採集器產品都需要通過人工來定義。但模式本身是個很複雜,很抽象的內容,所以所有的開發者精力都花在怎樣讓模式定義更簡單,更準確,這也是論壇採集器競爭力的衡量標準。
但我們怎樣來描述模式呢,目前技術主要有兩種方式:正則表達式定義和文檔結構定義。
  正則表達式定義
正則表達式定義是目前主流套用的技術,主要代表為火車頭採集器。此技術簡單,靈活性高。但用戶操作複雜。由於此模式作用於網頁的原始碼上,因此匹配的結果受代碼版面格式影響比較大,並且也不夠直觀,對比較複雜的頁面結構幾乎無能為力。目前已經有幾款產品使用輔助工具來減低用戶的操作難度。
  文檔結構定義
文檔結構定義應該說它是目前最先進的技術,已經具備一定的模式學習能力。主要代表為視采採集器。此模式作用於文檔這一層,不同於正則表達式作用於頁面原始碼。所謂文檔這一層,指的是原始碼運行後所生成的實際對象,即用戶在瀏覽器所看到的內容。所以操作可視化是此技術天生就具備的能力。
由於它是對文檔結構進行匹配,所以它不受頁面原始碼的影響,用戶定義比較直觀,並且程式能夠根據文檔對象獲取更多的邏輯上的特徵信息,匹配更準確,通用性更強。
此技術在學術研究論文上已經呈現過,也在幾家實驗室開發出此類產品。但真正在商業上套用很少。
 
 常用論壇採集系統介紹
 
一、 主要功能
樂思論壇採集器的主要功能為:根據用戶自定義的任務配置,批量而精確地抽取目標論壇欄目中的主題帖與回復帖中的作者,標題,發布時間,內容,欄目等,轉化為為結構化的記錄,保存在本地資料庫中。
二、 系統特點
可以抽取所有主題帖或者最新主題帖內容
可以抽取某個主題帖的所有回覆帖或者最新回復帖的內容
支持命令行格式,可以Windows任務計畫器配合,定期抽取目標數據
支持記錄唯一索引,避免相同信息重複入庫
支持資料庫表結構完全自定義
保證信息的完整性與準確性
支持各種主流資料庫,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
三、 運行環境
作業系統:Windows XP/NT/2000/2003
記憶體:最低32M記憶體,建議128M或以上
硬碟:最少20M空餘硬碟空間
四、 行業套用
樂思論壇採集系統主要用於:入口網站的專業論壇集成,市場調研機構的市場分析,竟爭情報獲取。
入口網站
可以做到:
每天定時抽取目標論壇的信息(標題,作者,內容等)到資料庫中
利益:
輕鬆提供論壇門戶
企業套用
可以做到:
實時而準確地採集本企業的品牌以及競爭對手的品牌在各大論壇中的反饋情況
實時而準確地採集各大行業論壇中的信息,從中了解消費者的需求與反饋,從而發現市場趨勢與機會
利益:
快速而大量地獲取目標商業信息,立刻提高公司的市場行銷能力
廣告與市場研究機構
可以做到:
快速而大量地獲取目標論壇的各種原始信息到資料庫中
利益:
快速形成針對傳統品牌研究,網路用戶研究的的基礎資料庫

相關詞條

熱門詞條

聯絡我們