網頁抓取

網頁抓取主要有三個方面: 1、蒐集新出現的網頁; 2、蒐集那些在上次蒐集後有改變的網頁; 3、發現自從上次蒐集後已經不再存了的網頁,並從庫中刪除。

基本介紹

網頁抓取主要有三個方面:

1、蒐集新出現的網頁;

2、蒐集那些在上次蒐集後有改變的網頁;

3、發現自從上次蒐集後已經不再存了的網頁,並從庫中刪除。

優先策略

通常是儘可能的首先抓取重要性的網頁,這樣保證在有限的資源內儘可能地照顧到那些重要性高的網頁。

什麼是重要性高的網頁呢,主要由這三個方面決定的:

連結歡迎度

連結歡迎度主要是由反向連結的數目和質量決定的。

連結重要度

連結重要度它是關於一個URL字元串的函式,僅僅考察字元串本身,它主要通過一些模式,如認為包含|“。com”,“HOME”的URL重要度高,以及包含較少斜槓的URL重要度高等。

平均連結的深度

平均連結的深度表示在一個種子站點集合中,每個種子站點如果存在一條鏈路到達該網頁,那么平均連結深度又是該網頁的一個連結指標,因為距離種子站點越近說明被訪問的機會越多。

相關詞條

相關搜尋

熱門詞條

聯絡我們