數據挖掘:實用案例分析

數據挖掘:實用案例分析

《數據挖掘:實用案例分析》是數據挖掘實戰領域頗具特色的一部作品,作者曾為10餘個行業上百家大型企業提供數據挖掘服務,本書是其在數據挖掘領域探索近10年的經驗總結之作。全書以實踐和實用為宗旨,深度與廣度兼顧,實踐與理論並舉。      隨書光碟中提供了本書的相關資料和案例資源,以及6個動手實驗所使用的完整數據,方便讀者動手實踐書中所講解的案例。

《數據挖掘:實用案例分析》

基本信息

數據挖掘實戰領域頗具特色的一部作品,作者曾為10餘個行業上百家大型企業提供數據挖掘服務,本書是其在數據挖掘領域探索近10年的經驗總結之作。全書以實踐和實用為宗旨,深度與廣度兼顧,實踐與理論並舉。

內容概述

共12章,分三個部分。第一部分是基礎篇(第1~4章),主要對數據挖掘的基本概念、套用分類、建模方法及常用的建模工具進行了介紹,並對本書所用到的數據挖掘建模平台TipDM進行了說明。第二部分是實戰篇(第5~10章),以案例的形式對數據挖掘技術在金融、電信、電力、網際網路、生產製造以及公共服務等行業的套用場景進行了討論;首先介紹案例背景,然後闡述分析方法與過程,最後完成模型構建;在介紹建模過程的同時穿插操作訓練,把相關的知識點嵌入相應的操作過程中;此外,第10章精心設計了6個實驗項目,讀者可以通過本章介紹的方法動手實踐,以鞏固數據挖掘知識,在分析建模過程的同時,進一步增強動手能力。第三部分是高級篇(第11~12章),主要介紹基於第三方接口的數據挖掘二次開發技術,重點對常用的WEKA和MATLAB數據挖掘算法接口進行了探討;最後對基於Hadoop框架的海量數據挖掘進行了說明,以滿足讀者更高層次的需求。隨書光碟中提供了本書的相關資料和案例資源,以及6個動手實驗所使用的完整數據,方便讀者動手實踐書中所講解的案例。

作者簡介

張良均:資深數據挖掘專家和模式識別專家,有近10年的數據挖掘套用與諮詢經驗,8年多的數據倉庫系統管理與實施經驗,超過10年的系統開發與設計經驗。為電信、電力、零售、農業、銀行、電力、生物、化工、醫藥等多個行業上百家大型企業提供過數據挖掘套用與諮詢服務,實踐經驗非常豐富。此外,他精通JavaEE企業級套用開發,是廣東工業大學和華南師範大學客座教授,著有《神經網路實用教程》一書。

劉名軍:廣州泰迪智慧型科技有限公司CTO,信息系統高級項目管理,畢業於中山大學計算機科學與技術專業獲學士學位,主要負責軟體研發部門工作和項目客戶實施工程,精於數據挖掘算法及套用,尤其是分類或預測模型發現、數據總結、聚類、關聯規則發現這幾個方面。另外具有豐富的計算機軟體、數據挖掘算法及套用的經驗。

出版信息

作者:張良均陳俊德劉名軍陳榮
叢書名:大數據技術叢書
出版社:機械工業出版社
ISBN:9787111425915
上架時間:2013-7-4
出版日期:2013年7月
開本:16開
頁碼:1
版次:1-1
所屬分類:計算機>資料庫>資料庫存儲與管理

目錄

《數據挖掘:實用案例分析》

前言
第一部分基礎篇
第1章初識數據挖掘2
1.1什麼是數據挖掘2
1.2數據挖掘在企業商務智慧型套用中的定位2
1.2.1數據挖掘給企業帶來最大的投資收益3
1.2.2數據挖掘從本質上提升商務智慧型平台的價值3
1.2.3數據挖掘讓商務智慧型流程真正形成閉環4
1.3信息類bi套用與知識類bi套用5
1.4數據挖掘現狀及套用前景5
1.5本章小結7
第2章數據挖掘的套用分類8
2.1分類與回歸8
2.1.1分類與回歸建模原理9
2.1.2分類與回歸算法10
2.2聚類11
2.2.1聚類分析建模原理11
2.2.2聚類算法12
2.3關聯規則13
.2.3.1什麼是關聯規則13
2.3.2關聯規則算法14
2.4時序模式14
2.4.1什麼是時序模式14
2.4.2時間序列的組合成分15
2.4.3時間序列的組合模型15
2.4.4時序算法16
2.5偏差檢測16
2.6本章小結17
第3章數據挖掘建模18
3.1數據挖掘的過程18
3.2數據挖掘建模過程18
3.2.1定義挖掘目標18
3.2.2數據取樣19
3.2.3數據探索20
3.2.4預處理21
3.2.5模式發現23
3.2.6模型構建23
3.2.7模型評價24
3.3常用的建模工具27
3.4本章小結29
第4章頂尖數據挖掘平台tipdm31
4.1tipdm產品功能31
4.1.1tipdm平台提供的數據探索及預處理算法31
4.1.2tipdm平台提供的分類與回歸算法32
4.1.3tipdm平台提供的時序模式算法34
4.1.4tipdm平台提供的聚類分析算法35
4.1.5tipdm平台提供的關聯規則算法35
4.2tipdm使用說明37
4.3tipdm產品特點39
4.3.1支持crisp-dm數據挖掘標準流程39
4.3.2提供豐富的數據挖掘模型和靈活算法40
4.3.3具有多模型的整合能力40
4.3.4提供靈活多樣的套用開發接口40
4.3.5海量數據的處理能力40
4.3.6適應不同類型層次人員需求41
4.4本章小結42
第二部分實戰篇
第5章數據挖掘在金融電信行業的套用44
5.1案例一:基於公司價值評價的證券策略投資44
5.1.1挖掘目標的提出44
5.1.2分析方法與過程44
5.1.3建模仿真51
5.1.4核心知識點52
5.1.5拓展思考53
5.2案例二:電信3g客戶識別系統54
5.2.1挖掘目標的提出54
5.2.2分析方法與過程54
5.2.3建模仿真58
5.2.4核心知識點61
5.2.5拓展思考63
5.3案例三:基於客戶分群的精準智慧型行銷64
5.3.1挖掘目標的提出64
5.3.2分析方法與過程65
5.3.3建模仿真75
5.3.4核心知識點81
5.3.5拓展思考82
5.4本章小結83
第6章數據挖掘在電力行業的套用84
6.1案例一:電力負荷預測84
6.1.1挖掘目標的提出84
6.1.2分析方法與過程85
6.1.3建模仿真90
6.1.4核心知識點94
6.1.5拓展思考95
6.2案例二:自適應防竊漏電實時診斷96
6.2.1挖掘目標的提出96
6.2.2分析方法與過程96
6.2.3建模仿真107
6.2.4核心知識點110
6.2.5擴展思考111
6.3本章小結112
第7章數據挖掘在網際網路行業的套用113
7.1案例一:商業零售行業中的購物籃分析113
7.1.1挖掘目標的提出113
7.1.2分析方法與過程113
7.1.3建模仿真118
7.1.4核心知識點120
7.1.5拓展思考121
7.2案例二:電子商務網站用戶行為分析124
7.2.1挖掘目標的提出124
7.2.2分析方法與過程124
7.2.3建模仿真129
7.2.4核心知識點132
7.2.5拓展思考132
7.3案例三:網路入侵智慧型檢測134
7.3.1挖掘目標的提出134
7.3.2分析方法與過程136
7.3.3建模仿真137
7.3.4核心知識點141
7.3.5拓展思考141
7.4案例四:基於用戶行為分析的定向網路廣告投放142
7.4.1挖掘目標的提出142
7.4.2分析方法與過程143
7.4.3建模仿真146
7.4.4結果及分析158
7.4.5核心知識點159
7.4.6拓展思考160
7.5案例五:企業信息系統用戶服務感知評價161
7.5.1挖掘目標的提出161
7.5.2分析方法與過程161
7.5.3建模仿真186
7.5.4核心知識點192
7.5.5拓展思考193
7.6本章小結194
第8章數據挖掘在生產製造行業中的套用195
8.1案例一:基於小波變換的樁基完整性檢測195
8.1.1挖掘目標的提出195
8.1.2分析方法與過程196
8.1.3仿真過程202
8.1.4核心知識點204
8.1.5拓展思考204
8.2案例二:基於水色圖像的水質評價205
8.2.1挖掘目標的提出205
8.2.2分析方法與過程206
8.2.3建模仿真210
8.2.4核心知識點213
8.2.5拓展思考214
8.3案例三:生物質廢物混合厭氧消化優勢組分互補機制216
8.3.1挖掘目標的提出216
8.3.2分析方法與過程217
8.3.3建模仿真221
8.3.4核心知識點223
8.3.5拓展思考224
8.4案例四:基於rfm的企業客戶關係分析224
8.4.1挖掘目標的提出224
8.4.2分析過程與方法226
8.4.3建模仿真229
8.4.4核心知識點236
8.4.5拓展思考236
8.5案例五:水產養殖投入產出多目標最佳化仿真239
8.5.1挖掘目標的提出239
8.5.2分析方法與過程240
8.5.3建模仿真244
8.5.4核心知識點249
8.5.5拓展思考250
8.6本章小結252
第9章數據挖掘在公共服務行業的套用253
9.1案例一:乳腺癌證素變化規律及截斷療法253
9.1.1挖掘目標的提出253
9.1.2分析方法與過程255
9.1.3建模仿真265
9.1.4核心知識點274
9.1.5拓展思考274
9.2案例二:捲菸消費者購買行為分析277
9.2.1挖掘目標的提出277
9.2.2分析過程與方法278
9.2.3挖掘建模281
9.2.4核心知識點287
9.2.5拓展思考288
9.3案例三:納稅人偷漏稅評估288
9.3.1挖掘目標的提出288
9.3.2分析方法與過程290
9.3.3建模仿真294
9.3.4核心知識點300
9.3.5拓展思考301
9.4案例四:道路缺陷自動識別302
9.4.1挖掘目標的提出302
9.4.2分析方法與過程304
9.4.3建模仿真319
9.4.4核心知識點322
9.4.5拓展思考322
9.5案例五:航空公司客運信息挖掘322
9.5.1挖掘目標的提出322
9.5.2分析方法與過程323
9.5.3建模仿真327
9.5.4核心知識點348
9.5.5拓展思考352
9.6本章小結353
第10章動手實踐354
10.1實驗一:數據探索及數據預處理354
10.2實驗二:神經網路模型的構建與使用356
10.3實驗三:決策樹模型的構建與使用358
10.4實驗四:聚類算法的構建與使用360
10.5實驗五:關聯規則模型的構建與使用361
10.6實驗六:時間序列模型的構建與使用363
10.7本章小結364
第三部分高級篇
第11章基於第三方接口的數據挖掘二次開發366
11.1weka數據挖掘接口366
11.1.1weka功能及其算法366
11.1.2weka包結構367
11.1.3weka算法入口370
11.1.4二次開發相關輸出370
11.2matlab數據挖掘接口370
11.3案例:基於matlab接口的數據挖掘二次開發372
11.3.1接口算法編程372
11.3.2用javabuilder創建java組件385
11.3.3安裝matlab運行時環境386
11.3.4jdk環境及設定386
11.4本章小結389
第12章基於hadoop框架的海量數據挖掘開發390
12.1基於雲計算的海量數據挖掘技術特點390
12.2基於hadoop的並行數據挖掘算法工具箱tipcdm392
12.3案例:基於海量計量數據的電力客戶線上分群方法392
12.3.1挖掘目標的提出392
12.3.2分析方法與過程393
12.3.3建模仿真399
12.3.4核心知識點400
12.4本章小結401
參考文獻402

內容簡介

前言
為什麼要寫這本書
現在,什麼程式設計師最稀缺?什麼技術最火?回答:數據挖掘!
數據挖掘是從大量數據(包括文本)中挖掘出隱含的、先前未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支持的模型,提供預測性決策支持的方法、工具和過程。數據挖掘有助於企業發現業務的趨勢,揭示已知的事實,預測未知的結果,因此“數據挖掘”已成為企業保持競爭力的必要方法。
近年來企業所處理的數據每五年就會呈現倍數增長。大部分的企業並沒有數據不足的問題,過度的數據重複與不一致才是大問題,這使得企業在使用、有效管理以及將這些數據用於決策過程方面都遭遇到了問題。因此未來幾年,隨著大數據迅速發展,數據挖掘將是極為重要的成長領域,其套用會越來越廣泛,可以說,只要企業掌握有分析價值的數據源,皆可進行高價值的數據挖掘分析。目前數據挖掘主要套用在電信、零售、農業、網際網路、金融、電力、生物、化工和醫療等行業。典型的套用如:客戶細分、流失預警、價值評估、交叉銷售、欺詐發現、精準行銷、故障診斷等。
總的來說,跟國外相比,我國由於信息化程度不太高、企業內部信息不完整,零售業、銀行、保險、證券等對數據挖掘的套用並不太理想。但隨著市場競爭的加劇,各行業套用數據挖掘技術的意願越來越強烈,可以預計,未來幾年各行業的數據分析套用一定會從傳統的統計分析發展到大規模數據挖掘套用。
本書作者從實踐出發,結合大量數據挖掘工程案例,總結出數據挖掘建模過程應完成的任務主要包括:數據探索、數據預處理、分類與回歸、聚類分析、時序預測、關聯規則挖掘、偏差檢測等。因此,本書的編排以解決某個套用的挖掘目標為前提,先介紹案例背景,再闡述分析方法與過程,最後完成模型構建,在介紹建模過程的同時穿插操作訓練,把相關的知識點嵌入相應的操作過程中。
本書光碟中附數據挖掘建模案例數據檔案、數據挖掘算法工具包源程式及使用說明。
讀者對象
*需求分析及系統設計人員。
這類人員可以在理解數據挖掘原理及建模過程的基礎上,結合數據挖掘案例完成精確行銷、客戶分群、交叉銷售、客戶流失分析、客戶信用記分、欺詐發現等數據挖掘套用的需求分析和設計。
*數據挖掘開發人員。
這類人員可以在理解數據挖掘套用需求和設計方案的基礎上,結合本書提供的基於第三方接口快速完成數據挖掘套用的編程實現。
*開設有數據挖掘課程的高校教師和學生。
目前國內不少高校將數據挖掘引入本科教學中,在數學、自動化、電子信息、金融等專業開設了數據挖掘技術相關的課程。目前這一課程的教學仍主要限於理論介紹,因為過於抽象,學生理解起來往往比較困難,教學效果不甚理想。本書提供的基於實戰案例和建模實踐的教學,能夠使師生充分發揮互動性和創造性,理論聯繫實際,從而獲得最佳的教學效果。
*進行數據挖掘套用研究的科研人員。
許多科研院所為了更好地對科研工作進行管理,紛紛開發了適應自身特點的科研業務管理系統,並在使用過程中積累了大量的科研信息數據。但是,這些科研業務管理系統一般沒有對這些數據進行深入分析的功能,對數據所隱藏的價值並沒有充分挖掘利用。科研人員需要數據挖掘建模工具及有關方法論來深挖科研信息的價值,從而提高科研水平。
*關注高級數據分析的人員。
業務報告和商業智慧型解決方案對於了解過去和現在的狀況是非常有用的。但是,數據挖掘的預測分析解決方案還能使這類人員預見未來的發展狀況,讓他們的機構能夠先發制人,而不是處於被動。因為數據挖掘的預測分析解決方案將複雜的統計方法和機器學習技術套用到數據之中,通過使用預測分析技術來揭示隱藏在交易系統或企業資源計畫(ERP)、結構資料庫和普通檔案中的模式和趨勢,從而為這類人員的決策提供科學依據。
如何閱讀本書
本書共12章,分三個部分,通過對一個個真實案例深入淺出的剖析,使讀者在不知不覺中能快速領悟看似深不可測的數據挖掘理論。讀者在閱讀過程中,應充分利用隨書配套的案例建模數據,藉助相關的數據挖掘建模工具,通過動手實踐,幫助快速理解相關知識和理論。
.第一部分是基礎篇(第1~4章),主要對數據挖掘的基本概念、套用分類、建模方法及常用的建模工具進行了介紹;第4章對本書所用到的數據挖掘建模平台TipDM進行了說明。
第二部分是實戰篇(第5~10章),其中第5~9章為案例部分,重點對數據挖掘技術在金融、電信、電力、網際網路、生產製造以及公共服務等行業的套用場景進行了討論。在過程組織上,按照先介紹案例背景、挖掘目標,再闡述分析方法與過程,最後完成模型構建的順序進行,在介紹建模過程的同時穿插操作訓練,把相關的知識點嵌入相應的操作過程中;第10章為實驗部分,讀者可以通過本章介紹的方法,動手實踐以鞏固數據挖掘知識及建模過程。
第三部分是高級篇(第11~12章),其中第11章對基於第三方接口的數據挖掘二次開發技術進行了說明,通過示例,介紹了如何基於WEKA和MATLAB等工具實現數據挖掘算法接口編程;第12章介紹了基於Hadoop框架開發的並行數據挖掘算法工具箱——TipCDM,並通過一個實際案例,介紹了基於雲計算的海量數據挖掘的具體套用及實現過程。
勘誤和支持
除封面署名外,參加本書編寫工作的還有:張益銘、周積榮、曹晶、蔣世忠、張秋妮、曹焱峰、余春迪、阮鵬、余燕團、王軍曉等。由於作者的水平有限,加之編寫時間倉促,書中難免會出現一些錯誤或者不準確的地方,懇請讀者批評指正。為此,讀者可通過作者微博(http://t.qq.com/waveletz)或TipDM官網(www.tipdm.com)反饋有關問題。也可通過熱線電話(40068-40020)或企業QQ(40068-40020)進行線上諮詢。
讀者可以將書中的錯誤及遇到的任何問題反饋給我們,我們將儘量線上上為讀者提供最滿意的解答。隨書光碟中提供了全部建模數據檔案及源程式,也可以從智慧型中國網站(www.5iai.com)下載,我們會將相應的功能更新及時更正。如果您有更多的寶貴意見,也歡迎傳送郵件至信箱[email protected],期待能夠得到你們的真摯反饋。
致謝
本書的案例主要來自作者承擔的國家及省部級項目和與合作單位的研究套用實踐,如獨立承擔的科技部中小企業創新基金項目——基於雲計算和SOA架構的海量數據挖掘平台;與廣東省電科院合作的智慧型用電海量數據挖掘項目;與廣州翰思軟體有限公司合作的基於數據挖掘和GIS技術的房地產自動評估系統;與廣州因孚網路科技有限公司合作的基於雲計算的海量數據挖掘平台的研發及套用示範;與西南交通大學合作的數據挖掘技術在混合厭氧消化系統優勢營養互補機制研究;與南京中醫藥大學合作的數據挖掘技術在乳腺癌證素變化規律及截斷療法研究;與華南師範大學合作的企業信息預測開發平台;與廣東工業大學合作的套用統計實踐教學基地建設項目;與廣東石油化工學院合作的雲計算環境下Web結構挖掘研究及套用等。
本書編寫過程中,得到了廣大企事業單位科研人員的大力支持!在此謹向廣東電力科學研究院、廣西電力科學研究院、廣東電信規劃設計院、珠江/黃海水產研究所、華南師範大學、廣東工業大學、西南交通大學、南京中醫藥大學、華南理工大學、湖南師範大學、廣州中醫藥大學、武漢理工大學、廣東石油化工學院、中山大學、浙江大學、廣州大學、河南理工大學、甘肅中醫學院、番禺職業技術學院、大連海事大學、廣州從興電子開發有限公司、廣州泰迪智慧型科技有限公司、廣州太普軟體科技有限公司、中科普開(北京)科技有限公司、EasyHadoop社區等單位給予支持的專家及師生致以深深的謝意。
在本書的出版過程中,得到了參與中國數據挖掘建模競賽(http://c.5iai.com)的眾多師生及機械工業出版社華章公司楊福川老師、白宇編輯等無私的幫助與支持,在此一併表示感謝。
張良均
2013年4月於廣州
↓展開全部內容
書摘
第一部分
基礎篇
本部分內容
*初識數據挖掘
*數據挖掘的套用分類
*數據挖掘建模
*頂尖數據挖掘平台TipDM
第1章初識數據挖掘
隨著計算機技術、網路技術、通信技術和Internet技術的發展,以及各行各業業務操作流程的自動化,企業內積累了大量業務數據,這些數據動輒以TB計算。這些數據和由此產生的信息是企業的財富,它如實地記錄著企業運作的狀況。面對大量的數據,迫使人們不斷尋找新的工具,來對企業的運營規律進行探索,為商業決策提供有價值的信息,使企業獲得利潤。能滿足企業這一迫切需求的有力工具就是數據挖掘。對於企業而言,數據挖掘有助於發現業務的趨勢,揭示已知的事實,預測未知的結果。從這個意義上講,知識是力量,數據挖掘是財富。
1.1什麼是數據挖掘
數據挖掘(DataMining,DM):就是從大量數據(包括文本)中挖掘出隱含的、未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支持的模型,提供預測性決策支持的方法、工具和過程;是利用各種分析工具在海量數據中發現模型和數據之間關係的過程。這些模型和關係可以被企業用來分析風險、進行預測。
數據挖掘的目的就是從數據中“淘金”,就是從數據中獲取智慧型的過程。
GartnerGroup提出:“數據挖掘是通過仔細分析大量數據來揭示有意義的新的關係、模式和趨勢的過程。它使用模式認知技術、統計技術和數學技術。”
TheMETAGroup的AaronZornes表示:“數據挖掘是一個從大型資料庫中提取以前不知道的可操作性信息的知識挖掘過程。”
總之,由於企業內產生了大量的業務數據,這些數據和由此產生的信息是企業的財富,它如實記錄了企業運作的狀況。通過數據挖掘分析,能幫助企業發現業務的趨勢,揭示已知的事實,預測未知的結果。數據挖掘已成為企業保持競爭力的必要方法。
1.2數據挖掘在企業商務智慧型套用中的定位
報告和商業智慧型解決方案對於了解過去和現在的狀況是非常有用的。但是,預測分析解決方案還能使用戶預見未來的發展狀況,使其能夠先發制人,而不是處於被動。數據分析和數據挖掘系統的目的是帶給我們更多的決策支持信息,並不是取代數據報表。報表系統依然有其不可取代的優勢,並且將會長期與數據分析、挖掘系統並存下去。
1.2.1數據挖掘給企業帶來最大的投資收益
預測分析解決方案將複雜的統計方法和機器學習技術套用到數據之中,通過使用預測分析技術來揭示隱藏在交易系統或企業資源計畫(ERP)、結構資料庫和普通檔案中的模式和趨勢。數據分析能力的演進如圖1-1所示,圖中TipDM是廣州TipDM團隊組織研發的海量數據挖掘工具。
圖1 1數據分析能力的演進
.1.2.2數據挖掘從本質上提升商務智慧型平台的價值
傳統的商務智慧型套用都局限在數據倉庫、OLAP和各種類型報表的展現上。傳統的OLAP分析和報表分析只能反映企業過去以及現在的營運問題,而不能明確地、可量化地回答企業問題的原因、可能的解決方式並預測企業的經營活動。
數據挖掘功能是現有商務智慧型平台的核心組成部分,TipDM數據挖掘工具能夠從本質上提升企業商務智慧型平台的價值,真正把企業積累的數據轉化為企業營運和管理的知識。TipDM數據挖掘工具不但能夠幫助企業定性、定量地去了解各種業務問題的本質,而且能夠幫助企業定性、定量地了解各種市場活動和企業內部運作可能帶來的收益,從而不斷發現新的收益增長點。商務智慧型分析中的數據挖掘建模如圖1-2所示。
圖1 2商務智慧型分析中的數據挖掘建模
1.2.3數據挖掘讓商務智慧型流程真正形成閉環
數據挖掘的套用讓企業的商務智慧型流程真正形成了閉環。它幫助企業不斷了解自身運作中的各種問題、發現新的市場機會,並適時調整企業經營的策略,從而螺鏇式地提高企業的經營情況和管理水平。如圖1-3所示。
圖1 3數據挖掘讓商務智慧型流程形成閉環
1.3信息類BI套用與知識類BI套用
BI(BusinessIntelligence,商業智慧型)是一種運用了數據倉庫、線上分析和數據挖掘等技術來處理和分析數據的嶄新技術,目的是為企業決策者提供決策支持。
BI是一個數據加工工廠,BI的原材料是海量的數據,BI的產品是由數據加工而來的信息和知識;BI將這些產品推送給企業決策者,企業決策者利用BI工廠的產品做出正確的決策,促進企業的發展。這就是BI——連線數據與決策者,變數據為價值。
BI套用的兩大類別是信息類套用和知識類套用,兩者的主要區別見表1 1。
表1 1信息類BI與知識類BI的區別
信息類BI套用
知識類BI套用(TipDM)
指由原始數據加工而來的數據查詢、報表圖表、多維分析、數據可視化等套用,這些套用的共同特點是:將數據轉換為決策者可接受的信息展現給決策者。例如將銀行交易數據加工為銀行財務報表
指通過數據挖掘技術和工具,將數據中隱含的關係發掘出來,利用計算機直接將數據加工為知識,展現給決策者
僅負責提供信息,而不會主動去分析數據。例如,銀行財務報表工具沒有深入分析客戶流失和銀行利率之間關係的能力,而只能靠決策者結合信息,通過人的思考得出知識
會主動去數據中探查數據關聯關係,發掘那些決策者人腦無法迅速發掘的隱含知識,並將其以可理解的形式呈現在決策者面前
信息類BI套用都局限在數據倉庫、OLAP和各種類型報表的展現上。其只能反映企業過去以及現在的營運問題,而不能明確、可量化地回答企業問題的原因、問題可能的解決方式以及預測企業的經營活動。另外,伴隨著業務系統的不斷發展以及數據倉庫中數據的不斷積累和補充,企業分析人員無法應對如此多的數據,無法從繁縟的報表中得到有益的信息,從而陷入信息爆炸的困境。
知識類BI是現有商務智慧型平台的關鍵組成部分,能從本質上提升企業商務智慧型平台的價值,真正把企業積累的數據轉化為企業營運和管理的知識。其不但能夠幫助企業定性、定量地了解各種業務問題的本質,而且能夠幫助企業定性、定量地了解各種市場活動和企業內部運作可能帶來的收益,從而不斷發現新的收益增長點。
1.4數據挖掘現狀及套用前景
“數據海量,信息缺乏”是大多數金融企業所面對的尷尬。目前,金融業實施的大多數資料庫只能實現數據的錄入、查詢、統計等較低層次的功能,卻無法發現數據中存在的各種有用信息,例如對這些數據進行分析,發現其數據模式及特徵,然後可能發現某個客戶、消費群體或組織的金融和商業需求,並觀察金融市場的變化趨勢。
作為一門套用技術,數據挖掘可謂涵蓋廣泛,尤其在已開發國家,數據挖掘技術的觸角已經伸向了各行各業。只要企業擁有具分析價值的數據源,皆可利用數據挖掘工具進行有目的的挖掘分析。一般較常見的套用案例多發生在零售業、製造業、財務金融保險、通信業以及醫療服務等。數據挖掘的套用領域具體可以分為以下三類:
*商業與電子商務數據。銀行、管理部門、網路套用在商業運作過程中產生大量數據,這些行業需要通過數據分析做出有效的決策。
*科學、工程學和衛生保健數據。工程領域的數據往往比商業數據更複雜,此外,科學家和工程師越來越多地使用模擬系統。
*網路數據。網路上的數據不僅在數量上日益膨脹,在內容上也越來越複雜。網路數據已經不僅僅包括圖像、文本,還包括數據流和數值數據。
可以說,未來若干年,數據挖掘將會成為極為重要的成長領域,數據挖掘的套用也會越來越廣泛。研究結果顯示,企業所處理的數據每五年就會呈現倍數增長。
大部分的企業並沒有數據不足的問題,而過度的數據重複與不一致才是大問題,這使得企業無論在使用、有效管理、以及將這些數據用於決策過程方面都遭遇到了問題。因此市場需要的是能夠將數據轉變成可靠與可用信息的系統。
不同領域的專家對數據挖掘都表現出了極大的興趣,例如在信息服務業中出現了一些套用,在Internet數據倉儲和線上服務中也給企業增加了許多生機。同時在產學合作下,又發展出了許多實用的系統,例如MDT、CoverstoryandSpotlight、NichWorkVisualizationSystem、LBS、FALCON、FAIS、NYNEX、TASA等。目前已被許多研究者視為結合資料庫系統和機器學習技術的重要領域。對於研究者來說,數據挖掘是個充滿潛力和機遇無限的研究領域。
由於數據挖掘能分析出數據中的有用信息,給企業帶來顯著的經濟效益,這使得數據挖掘技術越來越普及。IDC預測,2015年中國大數據市場規模或達169億美元,數據挖掘市場規模大約為140億美元,並對歐洲和北美62家採用了數據挖掘技術的企業進行調查分析,發現這些企業的3年平均投資回報率為401%,其中25%的企業的投資回報率超過600%。
美國PaloAlto管理集團公司對歐洲、北美和日本375家大中型企業的數據挖掘技術的採用情況進行了調查。結果顯示,在金融領域,數據挖掘技術的套用水平已經達到或接近70%,在行銷領域也達到50%,並且在未來的數年中,各個套用領域對該技術的採納水平都將提高約50%。
近年來,甲骨文、IBM、微軟和SAP耗費超過150億美元收購專門從事數據挖掘的軟體公司。這個產業預計有1000億美元市場容量,並以每年10%的速度增長,是軟體產業整體增速的兩倍。英國電信要發布一種新的產品,通過直郵的方式向客戶推薦這種產品,使用數據挖掘技術可以使直郵的回應率提高100%;GUS日用品零售商店需要準確預測未來的商品銷售量,降低庫存成本,使用數據挖掘技術使庫存成本比原來減少了3.8%;滙豐銀行需要對不斷增長的客戶群進行分類,針對每種產品找出最有價值的客戶,使用數據挖掘技術行銷費用減少了30%;美國國防財務部每年有上百萬筆的軍火交易,使用數據挖掘技術能夠發現可能存在的欺詐交易,然後進行深入調查,這樣節約了大量的調查成本。
1.5本章小結
本章主要介紹數據挖掘的相關知識。看到數據挖掘的前景如此美好,是否有躍躍欲試的感覺呢?第2章將介紹數據挖掘的算法及套用場景,看看你身邊是否有可套用的場景呢?
第2章數據挖掘的套用分類
由於數據挖掘能分析出數據中的有用信息,給企業帶來顯著的經濟效益,這使得數據挖掘技術越來越普及。如在銷售數據中發掘顧客的消費習慣,並可從交易記錄中找出顧客偏好的產品組合,其他包括找出流失顧客的特徵與推出新產品的時機點等都是零售業常見的實例;利用數據挖掘分析顧客群的消費行為與交易紀錄,結合基本數據,並依其對品牌價值等級的高低來區隔顧客,進而達到差異化行銷的目的;製造業對數據挖掘的需求多運用在品質控管方面,從製造過程中找出影響產品品質最重要的因素,以期提高作業流程的效率。
近幾年,電話公司、信用卡公司、保險公司以及股票交易商對詐欺行為的偵測都很有興趣,這些行業每年因為詐欺行為而遭受的損失都非常巨大,數據挖掘可以從一些信用不良的客戶數據中找出相似特徵並預測可能的詐欺交易,達到減少損失的目的。金融業可以利用數據挖掘來分析市場動向,並預測個別公司的營運以及股價走向。數據挖掘的另一個獨特的用法是在醫療業,用來預測手術、用藥、診斷或是流程控制的效率。
歸納起來,數據挖掘技術的基本任務主要體現在分類與回歸、聚類、關聯規則、時序模式、偏差檢測五個方面。圖2 1是典型的數據挖掘套用場景。
圖2 1數據挖掘套用示例
2.1分類與回歸
我們經常會碰到這樣的問題:
1)如何將信用卡申請人分為低、中、高風險群?
2)如何預測哪些顧客在未來半年內會取消該公司服務,哪些電話用戶會申請增值服務?
3)如何預測銀行可以安全地貸給貸款人的貸款量?
4)哪些使用2G通信網路的手機用戶有可能轉換到3G通信網路?
5)如何有效預測房地產開發中存在的風險?
除此之外,市場經理需要進行數據分析,以便幫助他預測具有某些特徵的顧客會購買一台新的計算機;醫學研究者希望分析乳腺癌數據,預測病人應當接受三種具體治療方案的哪一種;這些都是分類與回歸的例子。
2.1.1分類與回歸建模原理
分類(Classification):指將數據映射到預先定義好的群組或類。
因為在分析測試數據之前,類別就已經確定了,所以分類通常被稱為有監督的學習。分類算法要求基於數據屬性值來定義類別,通常通過已知所屬類別的數據的特徵來描述類別。
分類就是構造一個分類函式(分類模型),把具有某些特徵的數據項映射到某個給定的類別上。該過程由兩步構成。
*模型創建:通過對訓練數據集的學習來建立分類模型。
*模型使用:使用分類模型對測試數據和新的數據進行分類。
其中的訓練數據集是帶有類標號的,也就是說在分類之前,要劃分的類別是已經確定的。通常分類模型是以分類規則、決策樹或數學表達式的形式給出,圖2 2就是一個三分類問題。
圖2 2分類問題
回歸(Regression):用屬性的歷史數據預測未來趨勢。
回歸首先假設一些已知類型的函式(例如線性函式、Logistic函式等)可以擬合目標數據,然後利用某種誤差分析確定一個與目標數據擬合程度最好的函式,圖2 3就是一個非線性回歸問題。
回歸模式的函式定義與分類模式相似,主要差別在於分類模式採用離散預測值(例如類標號),而回歸模式採用連續的預測值。在這種觀點下,分類和回歸都是預測問題。但數據挖掘業界普遍認為:用預測法預測類標號為分類,預測連續值(例如使用回歸方法)為預測。許多問題可以用線性回歸解決,許多非線性問題可以通過對變數進行變化,從而轉換為線性問題來解決。分類與回歸建模原理如圖2-4所示。
圖2 3回歸問題
圖2 4分類與回歸建模原理
2.1.2分類與回歸算法
分類與回歸常用算法見表2 1。
表2 1主要分類與回歸算法
算法名稱
算法描述
BP(BackPropagation,反向傳播)
一種按誤差逆傳播算法訓練的多層前饋網路,是目前套用最廣泛的神經網路模型之一
LM(Levenberg-Marquardt)
基於梯度下降法和牛頓法結合的最佳化算法,特點是疊代次數少,收斂速度快,精確度高
(續)
算法名稱
算法描述
FNN(FuzzyNeuralNetwork,
模糊神經網路)
具有模糊權係數或者輸入信號是模糊量的神經網路,是模糊系統與神經網路相結合的產物,匯聚了神經網路與模糊系統的優點
RBF(RadialBasisFunction,
徑向基函式)
具有單隱層的三層前饋網路。是一種局部逼近網路,能夠以任意精度逼近任意連續函式,特別適合於解決分類問題
ANFIS(AdaptiveNeuralFuzzyInferenceSystem,自適應神經
模糊推理系統)
功能上與一階T-S模糊推理系統等價的自適應網路,是將神經網路的學習機制引入模糊系統,構成一個帶有人類感覺和認知成分的自適應系統
WNN(WaveletNeuralNetwork,
小波神經網路)
基於小波變換而構成的神經網路模型,即用非線性小波基取代通常的神經元非線性激勵函式(如?Sigmoid?函式),把小波變換與神經網路有機地結合起來,充分繼承了兩者的優點
SVM(SupportVectorMachine,
支持向量機)
V.Vapnik等人在研究統計學習理論的基礎上發展起來的一種新的機器學習算法,在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢。支持向量機根據有限的樣本信息在模型的複雜性和學習能力之間尋求最佳折衷,以獲得最好的推廣能力
CART(ClassificationAndRegressionTree,分類與回歸樹)
一種十分有效的非參數分類和回歸方法,通過構建樹、修剪樹、評估樹來構建一個二叉樹
2.2聚類
我們經常會碰到這樣的問題:
1)如何通過一些特定的症狀歸納某類特定的疾病?
2)誰是銀行信用卡的黃金客戶?
3)誰喜歡打國際長途,在什麼時間,打到哪裡?
4)對住宅區進行聚類,確定自動提款機ATM的安放位置。
5)如何對用戶WAP上網行為進行分析,通過客戶分群進行精確行銷?
除此之外,促銷應該針對哪一類客戶,這類客戶具有哪些特徵?這類問題往往是在促銷前首要解決的問題,對整個客戶做分群,將客戶分組在各自的群組裡,然後對每個不同的群組,採取不同的行銷策略。這些都是聚類分析的例子。
2.2.1聚類分析建模原理
聚類(Clustering)分析:是在沒有給定劃分類的情況下,根據信息相似度進行信息聚類的一種方法,因此聚類又稱為無指導的學習。
與分類不同,分類需要先定義類別和訓練樣本,是有指導的學習。聚類就是將數據劃分或分割成相交或者不相交的群組的過程,通過確定數據之間在預先指定的屬性上的相似性,就可以完成聚類任務。
聚類的輸入是一組未被標記的數據,根據數據自身的距離或相似度進行劃分。劃分的原則是保持最大的組內相似性和最小的組間相似性,也就是使不同聚類中的數據儘可能地不同,而同一聚類中的數據儘可能地相似。比如根據股票價格的波動情況,可以將股票分成不同的類,總共可以分成幾類,各類包含哪些股票,每一類的特徵是什麼,這對投資者,尤其對投資基金的人來說,可能是很重要的信息。當然,聚類除了將樣本分類外,還可以完成孤立點挖掘,如將其套用於網路入侵檢測或金融風險欺詐探測中。聚類分析建模原理如圖2-5所示。
圖2 5聚類分析建模原理
2.2.2聚類算法
常用聚類算法分類見表2 2。
表2 2主要聚類算法分類
類別
主要算法
劃分(分裂)方法
K-means(K-平均值)
K-MEDOIDS(K-中心點)
CLARANS(基於選擇的算法)
層次方法
BIRCH(平衡疊代規約和聚類)
CURE(代表點聚類)
CHAMELEON(動態模型)
基於密度的方法
DBSCAN(基於高密度連線區域)
DENCLUE(密度分布函式)
OPTICS(對象排序識別)
基於格線的方法
STING(統計信息網路)
CLIOUE(聚類高維空間)
WAVE-CLUSTER(小波變換)
基於模型的方法
統計學方法
神經網路方法
2.3關聯規則
我們經常會碰到這樣的問題:
1)商業銷售上,如何通過交叉銷售得到更大的收入?
2)保險方面,如何分析索賠要求發現潛在的欺詐行為?
3)銀行方面,如何分析顧客消費行業,以便有針對性地向其推薦感興趣的服務?
4)哪些製造零件和設備設定與故障事件關聯?
5)哪些病人和藥物屬性與結果關聯?
6)哪些商品是已經購買商品A的人最有可能購買的?
除此之外,人們希望從大量的商業交易記錄中發現有價值的關聯知識,以幫助進行商品目錄的設計、交叉行銷或其他有關的商業決策。在商業銷售上,關聯規則可用於交叉銷售,以得到更大的收入;在保險業務方面,如果出現了不常見的索賠要求組合,則可能為欺詐行為,需要進一步調查;在醫療方面,可找出可能的治療組合;在銀行方面,對顧客進行分析,可以推薦感興趣的服務等。這些都屬於關聯規則挖掘問題,關聯規則挖掘的目的是在一個數據集中找出各項之間的關係,從大量的數據中挖掘出有價值的描述數據項之間相互聯繫的有關知識。隨著收集和存儲在資料庫中的數據規模越來越大,人們對從這些數據中挖掘相應的關聯知識越來越有興趣。

相關搜尋

熱門詞條

聯絡我們