精確匹配檢索

精確匹配檢索

精確匹配檢索是指檢索詞與資源庫中某一欄位完全相同的檢索方式。模糊匹配是指無論詞的位置怎樣,只要出現該詞即可。精確匹配是指將輸入的檢索詞當固定詞組進行檢索,而模糊匹配則會自動拆分檢索詞為單元概念,並進行邏輯與運算。精確匹配可以精確找到定位信息,但是僅僅通過精確匹配是很難滿足所有的情況的。

基本信息

背景

近年來,網際網路的普及大大促進了信息檢索技術的發展和套用,正如上文提到的一批搜尋引擎產品已經產生,為用戶提供了很好的快速信息獲取和網路信息導航工具,目前最著名的搜尋引擎包括Google、AltaVista等,國內百度的中文搜尋引擎也取得了很好的成績。

目前搜尋引擎面臨兩個主要挑戰:一是檢索的質量仍然需要提高。常常檢索的是大量的無用的結果,真正有用的結果卻被淹沒在其中不容易發現。搜尋引擎的索引和以前相比已經有了極大的增長,一般檢索時都會返回大量的結果。但是人們查看和選擇結果的能力與耐心沒有得到相應的提高,通常還是只會注意最前面的部分。因此,搜尋引擎的“精度”,尤其是檢索結果排在前面的部分對於用戶的有用性。是非常重要的,有時候相對於查全率來說顯得更加突出。

基本概念

在文獻檢索中,模糊匹配是指無論詞的位置怎樣,只要出現該詞即可。精確匹配是指只有整個欄位與檢索詞相同才匹配。精確匹配是指將輸入的檢索詞當固定詞組進行檢索,而模糊匹配則會自動拆分檢索詞為單元概念,並進行邏輯與運算。

精確匹配檢索設計

精確匹配模型

在“布爾模型”、“向量空間模型”和“機率模型”基礎之上,下面是一種信息檢索精確匹配模型。採用國標漢字字元集GBK/2:GB2312中包含的6763個漢字作為文檔特徵項 。

精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索

①文檔特徵項可以表示為向量形式: ,其中n=6763, 代表國標漢字字元集GBK/2:GB2312中包含的6763個漢字中的某個特定漢字。漢字編碼是用雙位元組形式,編碼分為9個區,高位元組分別為:B0~B7,B8~BF,C0~C7,C8~CF,D0~D7,D8~DF,E0~E7,E8~EF,F0~F7;相應的低位元組編碼均為:A1~FE。

精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索
精確匹配檢索 精確匹配檢索

②假設被檢索文檔為D。其向量表示形式為:

其中n=6763,。在集合{0,1}中取值。如果特徵分項在文檔D中出現,即∈D,則相應=1;如果特徵分項在文檔D中沒有出現,即不屬於D,則相應=0。
⑧用戶查詢可表示為Q,其向量形式為:。這裡的m值理論上不受限制,但從實際出發考慮m應該小於等於n,為了方便兩個向量的運算,在此取m=n(差項用數字0填補)。同樣在集合(0,1}中取值。如果特徵分項在文檔Q中出現,即∈Q,則相應=1;如果特徵分項在文檔Q中沒有出現,即不屬於Q,則相應=0。
④將向量D、Q做數量積運算,設向量D、Q的數量積為R。
精確匹配檢索 精確匹配檢索

i)如果R=0,則說明用戶檢索條件在被檢索的文檔中不存在。
ii)如果R≠0,下面繼續判斷。計算


ii)如果0<cos α<1,則說明用戶檢索條件不完全存在於被檢索文檔中。
如果cos α=1,則說明用戶檢索條件完全存在於被檢索文檔中,但不能說明是否連續存在。要判斷是否連續存在,則需要採集到被檢索文檔中漢字的位置關係,這可以依據數據索引結構和數據索引方式來完成,其結構圖如圖所示。
精確匹配檢索 精確匹配檢索

上圖數據索引結構說明,數據索引結構分為三級,第一級為字級索引結構,包含highByte(高位元組)、lowByte(低位元組)和指向下一級的結構指針,這裡分為高位元組和低位元組是因為漢字編碼為雙位元組編碼,結構中包含6768個單元,是按照國標漢字字元集GBK2:GB2312實現的;第二級為文檔級索引結構,包含docid(文檔編號)、docname(文檔路徑和檔案名稱)兩部分;第三級主要為地址鏈結構,用來存放漢字在文檔中位置(位置用相對於文檔開頭的偏移量表示)。從這整個匹配模型可以看出,用戶檢索條件與被檢索文檔匹配是採用一種精確匹配模型。查全率基本上不存在問題,查準率也有很大的提高(因為有“出現頻率”這個關鍵參數作為保證)。

精確匹配檢索結果

使用精確匹配,僅當網民的搜尋詞與開發者提交的關鍵字完全一致時,搜尋結果才能出現。如設定開啟精確匹配擴展(地域詞擴展)功能,則當設定的關鍵字中,包含地域性詞時,位於該地域的網民(按IP位址判斷)搜尋除去地域詞以外的部分,也可能展現您的推廣結果。

在精確匹配下:

1.能觸髮結果的搜尋詞:一模一樣的詞

2.不能觸髮結果的搜尋詞包括:

(1)同義近義詞

(2)相關詞

(3)變體形式(如,加空格、語序顛倒、錯別字等)

(4)完全包含關鍵字的短語(語序不能顛倒)

3.如開啟精確匹配擴展(地域詞擴展)功能,在該地域下能觸髮結果。

如:

搜尋詞為:淄博英語培訓

可觸發搜尋結果的關鍵字:英語培訓(僅限於位於淄博的情況下)

優勢

精確匹配地域詞擴展功能可以幫助企業從地理位置角度精準的挖掘更多潛在客戶,覆蓋更多流量。

網民的搜尋習慣千差萬別,在表達對同一種產品業務的需求時,他們可能使用的搜尋詞是多種多樣的。如果使用精確匹配,您需要一一羅列網民可能使用的搜尋詞,作為關鍵字提交到系統中來,同時,由於不可能羅列完全,使用精確匹配會大大降低您獲取潛在客戶的機會。

搜尋引擎廣告的匹配算法

匹配模式

搜尋引擎廣告的匹配模式有三種:精確匹配、短語匹配、廣泛匹配。其三種匹配模式基本釋義如下:

(1)精確匹配:等同

(2)短語匹配:包含

(3)廣泛匹配:相關

不過產品定義的也不是一成不變的,各匹配模式按產品規則有特定的Ad Retrieval過程。

廣告觸發方法與匹配模式

精確匹配:直接查找最進準的,從資料庫裡面找到關鍵字完全一致的目標

短語匹配:

(1)針對query進行子片段的抽取

(2) 然後將每一個子片段查hash索引,得到相關廣告

廣泛匹配:通過IR的方法進行查找,定義相關性或者訓練模型,得到query和廣告的similarity,然後判斷相似度是否滿足要求。

因為流量分布是長尾的,其中很大一部分的query是只出現一次的,而且流量作為商品具有不可枚舉,同一個語義的query其表達方式多種多樣,所以僅僅通過精確匹配是很難滿足所有的情況的。

相關詞條

熱門詞條

聯絡我們