Simhash

Simhash是用來網頁去重最常用的hash方法,速度很快。

算法簡介

simHash是用來網頁去重最常用的hash方法,速度很快.

Simhash Simhash

算法偽代碼

1,將一個f維的向量V初始化為0;f位的二進制數S初始化為0;

2,對每一個特徵:用傳統的hash算法對該特徵產生一個f位的簽名b。對i=1到f:

如果b的第i位為1,則V的第i個元素加上該特徵的權重;

否則,V的第i個元素減去該特徵的權重。

3,如果V的第i個元素大於0,則S的第i位為1,否則為0;

4,輸出S作為簽名。

相關詞條

相關搜尋

熱門詞條

聯絡我們