火車採集器V3.1

火車採集器 (LocoySpider)是一款專業的功能強大的網路數據/信息挖掘軟體,通過靈活的配置,您可以很輕鬆的從網頁上抓取文字、圖片、檔案等任何資源。

基本信息

軟體簡介

軟體大小: 6821 KB
軟體語言: 簡體中文
軟體類別: 國產軟體 / 免費版 / 網路輔助
套用平台: Win9x/NT/2000/XP/2003

軟體功能

----由於時間原因,測試版中入庫和檔案下載尚未完善
1、使用站點+任務方式管理採集節點。通常,一個站點大都有多個分類,如果各個分類只採用一套模版或者模版標記變化不大的情況下我們只要一個任務即可完成整個網站的採集,但是如果每個分類使用一個模版且模版的標記變化比較大,這時候我們就需要對各個分類設定一個對應的採集規則(也稱任務)。因此,使用站點加任務的管理方式有利於日後維護——特別是採集站點比較多的時候;
2、實現採集地址和及內容採集同時進行。按傳統的採集方式是先把地址讀取到本地,然後在對各個地址一個個的分析,這樣的效率明顯很低。火車採集器3.0採用同步進行方式,也就是在獲取完第一條地址之後再接著獲取其他採集地址的時候同時採集內容而且可以同時多任務採集!
3、對來源採集站進行登入採集,編碼JS轉換選擇,保守計算可以實現對95%以上目標進行採集。 一些比較大的或者國際性的軟體大都採用utf8或者unicode編碼來解決各國字元之間的問題。而utf8或者unicode字元在gbk下顯示的將是一堆亂碼,這時候我們就可以利用火車採集器3.0的內部轉碼工具自動轉換!在採集網站的過程中我們發現很多網站都隱藏了真實的地址,通過js調用來防採集(比如:javascript winopen(【參數1】,【參數2】),一般的採集器是沒辦法實現這樣網址的採集的,對火車採集器3.0正式板來說可以通過自定義網址實現這樣地址的採集!
4、地址採集可以通過單條,批量,及文本方式導入添加,無需標籤自動識別網址連線。 採集地址時當我們只需要採集一個網頁時,您添加單條網址即可,如果單任務需要採集多頁面,這是您就可以批量添加網址。如果您有已經有了一個網址的文本集合,那么您直接導入網址即可。火車採集器能智慧型化地識別網址!
5、使用規則標籤對採集條目進行管理,不再局限於普通的標題,內容採集,標籤實現完全自定義。假如我們採集一個藥品的數據,那么我們可能需要的數據包括:生廠商、產品型號、使用說明、產品配置等。這些標籤單單用一個內容和標題是沒辦法實現的,這時候你可以用火車採集器的自定義標籤來完成無數個你想要的任何標籤;
6、對規則標籤的編輯可以無限對其進行剔除廣告和替換,真正得到你所需要的內容,同時程式提供規則類型選擇和基本的HTML代碼排除功能。在任何標籤中都可以添加無限的排除和替換規則提取您需要的任何格式內容。同時火車採集器提供了html標籤排除功能,你可以一次排除 7、人工智慧的內容分頁採集技術,結合您的論壇/CMS系統甚至將採集的文章可以還原成採集時原來的分頁數。現在大多數的cms系統都有手動分頁標籤,因此我們在採集帶分頁的目標站時,可以給採集回來的內容添加分頁標誌,實現了跟目標站一樣的分頁格式。當然,您可以更加靈活的運用分頁標誌以達到您想要的任何格式;
8、採集內容測試功能。這個功能是其他任何採集器所無法比擬的,火車採集器可以跳過網址採集直接先進行內容採集測試和內容規則的定義。這個功能的最大特點就是,可以避免在一些特殊的網站上浪費時間。因為網址採集一般都比較簡單。當我們按步驟採集完網址的時候卻發現自己沒有能力採集內容那不是很浪費時間?所以,給您個提示,您可以先進行內容採集測試,發現可以採集再採集網址!
9、 【發布方式1】採集內容及連線保存到軟體資料庫,方便對內容進行管理,對比避免重複採集。這個比線上採集的強大之處是,您不需要任何伺服器、資料庫的支持,也不需要占用您伺服器的任何空間。所有的數據全部保存在本地的資料庫中,避免了下次數據重複採集!當然,您如果覺得占用您pc空間,您可以清空任何任務的資料庫。不過我想現在每個人的硬碟至少都有80g以上吧,占用一點點的硬碟並不影響您機器的性能;
10、【發布方式2】採集內容可以選擇保存為本地檔案,方便閱覽收藏。這個功能也是其他任何採集器目前沒辦法實現的,您除了可以選擇線上發布外還可以選擇保存為本地檔案,包括txt hmtl csv格式,當然您可以複選的,也就是選擇發布方式1的同時選擇保存為本地檔案,兩個任務同時進行互不干擾;
11、【發布方式3】採集內容可以選擇線上發表到您的網站(軟體主打功能)。也就是離線採集,您可以在本級採集數據,然後通過自定義模組發布到任何系統中!
12、【發布方式4】採集內容可以選擇對口保存在本地及遠程資料庫,目前開放ACCESS,MSSQL及MYSQL配置接口。這個功能將大大的提高採集的入庫速度。不過直接對資料庫進行操作風險較大,強烈建議在對已存的資料庫進行備份。我們建議,只有對資料庫熟悉的朋友才利用此功能。請謹慎使用此功能,我們不對此造成的任何風險承擔任何責任,一切後果皆由操作者自行負責;
13、【發布方式5】採集內容可以選擇保存為本地標準SQL運行語句檔案,可實現向任意資料庫的數據導入。有了這個功能,您可以把數據入庫到任何sql資料庫的系統中,即使是您的系統沒有任何文章提交接口——只要您的系統有簡單的數據讀取功能就可以了!
注意:在入庫方式選擇直接對數據進行操作前請自行備份資料庫,以防不測!如果您對資料庫的操作不熟悉我們不建議您這么做!
14、自定義論壇/文章系統接口模組,可以實現對各種主流文章/論壇系統的線上內容導入。這個也是火車最為強大的功能之一,通過自定義模組您可以入庫到所有您想入庫的任何系統!同時我們會提供大量的主流模組的登入發表系統,發表模組請到論壇的火車採集器3.0模組區去下載;
15、支持使用代理伺服器採集。這個功能實現了ip封鎖的突破。簡單的例子是,有些國外的網站被封鎖了ip,而他的內容您又非常需要,這時候您就可以通過代理伺服器來實現!
16、實現自定義檔案後綴名類型的檔案分段斷點下載,破解簡單防護得到真實地址下載檔案,自定義更名/保存及地址保存接口。目前大部分的採集器大都只能實現圖、,flash的採集,對於其他的採集器無能為力。火車採集器3.0可以自定義檔案下載類型的後綴名,突破大部分的防護功能獲得真實的下載地址。同時,您可以自定義檔案的保存地址實現跟文章系統同步;
17、同時進行多站點多任務多執行緒採集。這個可以根據您pc的配置來定義執行緒和任務數,只要您的pc配置夠好,就可以同時進行夠多的任務!
18、自動將您的模組和任務規則發布到論壇與大家共享。如果您有好的採集任何規則和模組希望跟其他的網友分享的話,那么可以用火車採集器內置板塊直接傳送到論壇對應的板塊。請放心,在您沒有操作的情況下,系統是不會把您的模組發布到論壇那的。
19、真正意義的軟體計畫任務,實現對某些網站的動態內容更新監視。這個功能可以大大的提高您的工作效率,當您啟用自動任務調度的時候,火車採集器將自動幫您監視目標網站的內容更新!
更新:加入了自動分析連結的真實地址和開放了Mysql,SqlServer的直接入庫功能更正了3.0.1基礎上的N多Bug,不一一寫出了,該版本是論壇上提及的VIP版本修改而來

相關搜尋

熱門詞條

聯絡我們