關聯規則:在1993年，R.Agrawal等人[1]首次提出了關聯規則的 -百科知識中文網

事物介紹

若A一是項目集，若且唯若A T時，我們說事務T包含了A。一條關聯規則就是形如A B的蘊含關係，其中A J，B J且A B= 。如果D中包含A B的比例是s，就稱關聯規則A B在D中的支持度為s，也可以表示為機率P（A B）；如果D中包含A的同時也包含B的比例是c ，則說關聯規則A B的置信度為c，表示為條件機率P（B|A）。就是：
Support（A B）= P（A B）
Confidence（A B）= P（B|A）

定義

什麼是關聯規則
在描述有關關聯規則的一些細節之前，我們先來看一個有趣的故事："尿布與啤酒"的故事。
在一家超市里，有一個有趣的現象：尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙增加了。這不是一個笑話，而是發生在美國沃爾瑪連鎖店超市的真實案例，並一直為商家所津津樂道。沃爾瑪擁有世界上最大的數據倉庫系統，為了能夠準確了解顧客在其門店的購買習慣，沃爾瑪對其顧客的購物行為進行購物籃分析，想知道顧客經常一起購買的商品有哪些。沃爾瑪數據倉庫里集中了其各門店的詳細原始交易數據。在這些原始交易數據的基礎上，沃爾瑪利用數據挖掘方法對這些數據進行分析和挖掘。一個意外的發現是："跟尿布一起購買最多的商品竟是啤酒！經過大量實際調查和分析，揭示了一個隱藏在"尿布與啤酒"背後的美國人的一種行為模式：在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。產生這一現象的原因是：美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。
按常規思維，尿布與啤酒風馬牛不相及，若不是藉助數據挖掘技術對大量交易數據進行挖掘分析，沃爾瑪是不可能發現數據內在這一有價值的規律的。
數據關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之間存在某種規律性，就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中數據的關聯函式，即使知道也是不確定的，因此關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量數據中項集之間有趣的關聯或相關聯繫。Agrawal等於1993年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題，以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行最佳化，如引入隨機採樣、並行的思想等，以提高算法挖掘規則的效率；對關聯規則的套用進行推廣。關聯規則挖掘在數據挖掘中是一個重要的課題，最近幾年已被業界所廣泛研究。

挖掘過程

關聯規則挖掘過程主要包含兩個階段：第一階段必須先從資料集合中找出所有的高頻項目組(FrequentItemsets)，第二階段再由這些高頻項目組中產生關聯規則(AssociationRules)。
關聯規則挖掘的第一階段必須從原始資料集合中，找出所有高頻項目組(LargeItemsets)。高頻的意思是指某一項目組出現的頻率相對於所有記錄而言，必須達到某一水平。一項目組出現的頻率稱為支持度(Support)，以一個包含A與B兩個項目的2-itemset為例，我們可以經由公式(1)求得包含{A,B}項目組的支持度，若支持度大於等於所設定的最小支持度(MinimumSupport)門檻值時，則{A,B}稱為高頻項目組。一個滿足最小支持度的k-itemset，則稱為高頻k-項目組(Frequentk-itemset)，一般表示為Largek或Frequentk。算法並從Largek的項目組中再產生Largek+1，直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要產生關聯規則(AssociationRules)。從高頻項目組產生關聯規則，是利用前一步驟的高頻k-項目組來產生規則，在最小信賴度(MinimumConfidence)的條件門檻下，若一規則所求得的信賴度滿足最小信賴度，稱此規則為關聯規則。例如：經由高頻k-項目組{A,B}所產生的規則AB，其信賴度可經由公式(2)求得，若信賴度大於等於最小信賴度，則稱AB為關聯規則。
就沃爾馬案例而言，使用關聯規則挖掘技術，對交易資料庫中的紀錄進行資料挖掘，首先必須要設定最小支持度與最小信賴度兩個門檻值，在此假設最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關聯規則將必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布，啤酒」，滿足下列條件，將可接受「尿布，啤酒」的關聯規則。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%於此套用範例中的意義為:在所有的交易紀錄資料中，至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布，啤酒)>=70%於此套用範例中的意義為:在所有包含尿布的交易紀錄資料中，至少有70%的交易會同時購買啤酒。因此，今後若有某消費者出現購買尿布的行為，超市將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布，啤酒」關聯規則，因為就該超市過去的交易紀錄而言，支持了“大部份購買尿布的交易，會同時購買啤酒”的消費行為。
從上面的介紹還可以看出，關聯規則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始資料庫中的指標值是取連續的數據，則在關聯規則挖掘之前應該進行適當的數據離散化（實際上就是將某個區間的值對應於某個值），數據的離散化是數據挖掘前的重要環節，離散化的過程是否合理將直接影響關聯規則的挖掘結果。

關聯規則的分類

按照不同情況，關聯規則可以進行分類如下：
1.基於規則中處理的變數的類別，關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的，它顯示了這些變數之間的關係；而數值型關聯規則可以和多維關聯或多層關聯規則結合起來，對數值型欄位進行處理，將其進行動態的分割，或者直接對原始的數據進行處理，當然數值型關聯規則中也可以包含種類變數。例如：性別=“女”=>職業=“秘書”，是布爾型關聯規則；性別=“女”=>avg（收入）=2300，涉及的收入是數值類型，所以是一個數值型關聯規則。
2.基於規則中數據的抽象層次，可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中，所有的變數都沒有考慮到現實的數據是具有多個不同的層次的；而在多層的關聯規則中，對數據的多層性已經進行了充分的考慮。例如：IBM台式機=>Sony印表機，是一個細節數據上的單層關聯規則；台式機=>Sony印表機，是一個較高層次和細節層次之間的多層關聯規則。
3.基於規則中涉及到的數據的維數，關聯規則可以分為單維的和多維的。
在單維的關聯規則中，我們只涉及到數據的一個維，如用戶購買的物品；而在多維的關聯規則中，要處理的數據將會涉及多個維。換成另一句話，單維關聯規則是處理單個屬性中的一些關係；多維關聯規則是處理各個屬性之間的某些關係。例如：啤酒=>尿布，這條規則只涉及到用戶的購買的物品；性別=“女”=>職業=“秘書”，這條規則就涉及到兩個欄位的信息，是兩個維上的一條關聯規則。

支持度

支持度（support）和置信度（confidence）兩個閾值是描述關聯規則的兩個重要概念，支持度反映關聯規則在資料庫中的重要性，置信度衡量關聯規則的可信程度。如果某條規則同時滿足最小支持度（min-support）和最小置信度（min-confidence），則稱它為強關聯規則。

國內外的套用

就目前而言，關聯規則挖掘技術已經被廣泛套用在西方金融行業企業中，它可以成功預測銀行客戶需求。一旦獲得了這些信息，銀行就可以改善自身行銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息，供使用本行ATM機的用戶了解。如果資料庫中顯示，某個高信用限額的客戶更換了地址，這個客戶很有可能新近購買了一棟更大的住宅，因此會有可能需要更高信用限額，更高端的新信用卡，或者需要一個住房改善貸款，這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話諮詢的時候，資料庫可以有力地幫助電話銷售代表。銷售代表的電腦螢幕上可以顯示出客戶的特點，同時也可以顯示出顧客會對什麼產品感興趣。
同時，一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘，然後設定用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設定相應的交叉銷售，也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國，“數據海量，信息缺乏”是商業銀行在數據大集中之後普遍所面對的尷尬。目前金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能，卻無法發現數據中存在的各種有用的信息，譬如對這些數據進行分析，發現其數據模式及特徵，然後可能發現某個客戶、消費群體或組織的金融和商業興趣，並可觀察金融市場的變化趨勢。可以說，關聯規則挖掘的技術在我國的研究與套用並不是很廣泛深入。

近年研究

由於許多套用問題往往比超市購買問題更複雜，大量研究從不同的角度對關聯規則做了擴展，將更多的因素集成到關聯規則挖掘方法之中，以此豐富關聯規則的套用領域，拓寬支持管理決策的範圍。如考慮屬性之間的類別層次關係，時態關係，多表挖掘等。近年來圍繞關聯規則的研究主要集中於兩個方面，即擴展經典關聯規則能夠解決問題的範圍，改善經典關聯規則挖掘算法效率和規則興趣性。

關聯規則

事物介紹

定義

挖掘過程

關聯規則的分類

相關概念

相關算法

支持度

國內外的套用

近年研究

相關詞條

關聯式規則

關聯規則技術研究

關聯規則算法

偽關聯規則

關聯交易

關聯經濟

基於約束的關聯規則挖掘

模糊關聯規則的研究與套用

相關搜尋

熱門詞條