數據挖掘十大算法

數據挖掘十大算法

《數據挖掘十大算法》是2014年清華大學出版社出版的圖書,作者是(美)吳信東、庫瑪爾。

內容簡介

數據挖掘這一學科近年來發展十分迅速,不僅產生了大量不同類型的挖掘算法,而且也表現出與機器學習等學科深度融合的態勢。無論是從事研究的專家學者還是從事套用的開發人員都十分希望能一窺其大略,從而比較準確地把握數據挖掘領域當前的主幹技術,並比較全面地了解當前的發展趨勢。
當前,在市場上流通的數據挖掘方面的著作已經不算少了,主要是兩大類:一類是具有完整體系的教材類圖書,一類是面向特定領域的套用型圖書。前者主要是服務教學,所以側重原理、邏輯嚴謹,但是通常對數據挖掘的前沿介紹比較欠缺。後者往往集中於介紹某一領域的問題和方法,或者是關於某些典型工具的使用方法,其優點在於直觀有效,但相對於整個數據挖掘領域其覆蓋面偏小。

為此,很有必要對整個數據挖掘領域的近期發展和前沿成果進行梳理,而這一類信息往往散見於相關的大量學術期刊和會議文集中,限於視野和精力,任何個人都難以完成這一任務。在此基礎上,還需要對當前龐大的數據挖掘知識體系進行恰當的取捨和凝練,這一工作必須依靠該領域的高水平學者。所以,國際數據挖掘社區合眾人之力,在2006年推出了TheTopTenAlgorithmsinDataMining這一繼往開來之作。

目錄

第1章C4.51

1.1引言2

1.2算法描述3

1.3算法特性6

1.3.1決策樹剪枝6

1.3.2連續型屬性8

1.3.3缺失值處理8

1.3.4規則集誘導9

1.4軟體實現10

1.5示例10

1.5.1Golf數據集10

1.5.2Soybean數據集11

1.6高級主題11

1.6.1二級存儲12

1.6.2斜決策樹12

1.6.3特徵選擇12

1.6.4集成方法12

1.6.5分類規則13

1.6.6模型重述13

1.7習題14

參考文獻15

第2章kmeans18

2.1引言19

2.2算法描述19

2.3可用軟體22

2.4示例23

2.5高級主題27

2.6小結28

2.7習題28

參考文獻29

第3章SVM: 支持向量機31

3.1支持向量分類器32

3.2支持向量分類器的軟間隔最佳化34

3.3核技巧35

3.4理論基礎38

3.5支持向量回歸器40

3.6軟體實現41

3.7當前和未來的研究41

3.7.1計算效率41

3.7.2核的選擇41

3.7.3泛化分析42

3.7.4結構化支持向量機的學習42

3.8習題43

參考文獻44

第4章Apriori47

4.1引言48

4.2算法描述48

4.2.1挖掘頻繁模式和關聯規則48

4.2.2挖掘序列模式52

4.2.3討論53

4.3軟體實現54

4.4示例55

4.4.1可行示例55

4.4.2性能評估60

4.5高級主題61

4.5.1改進Apriori類型的頻繁模式挖掘61

4.5.2無候選的頻繁模式挖掘62

4.5.3增量式方法63

4.5.4稠密表示: 閉合模式和最大模式63

4.5.5量化的關聯規則64

4.5.6其他的重要性/興趣度度量方法65

4.5.7類別關聯規則66

4.5.8使用更豐富的形式: 序列、樹和圖66

4.6小結67

4.7習題67

參考文獻68

第5章EM72

5.1引言73

5.2算法描述74

5.3軟體實現74

5.4示例75

5.4.1例5.1: 多元正態混合75

5.4.2例5.2: 混合因子分析78

5.5高級主題80

5.6習題81

參考文獻87

第6章PageRank90

6.1引言91

6.2算法描述92

6.3一個擴展: TimedPageRank95

6.4小結96

6.5習題96

參考文獻97

第7章AdaBoost98

7.1引言99

7.2算法描述99

7.2.1符號定義99

7.2.2通用推舉過程100

7.2.3AdaBoost算法101

7.3示例103

7.3.1異或問題求解103

7.3.2真實數據上的性能104

7.4實際套用105

7.5高級主題107

7.5.1理論問題107

7.5.2多類別AdaBoost110

7.5.3其他高級主題111

7.6軟體實現111

7.7習題112

參考文獻113

第8章kNN: k最近鄰115

8.1引言116

8.2算法描述116

8.2.1巨觀描述116

8.2.2若干議題117

8.2.3軟體實現118

8.3示例118

8.4高級主題120

8.5習題121

致謝121

參考文獻122

第9章Naive Bayes124

9.1引言125

9.2算法描述125

9.3獨立給力127

9.4模型擴展128

9.5軟體實現130

9.6示例130

9.6.1例1130

9.6.2例2132

9.7高級主題133

9.8習題133

參考文獻134

第10章CART: 分類和回歸樹136

10.1前身137

10.2概述138

10.3示例138

10.4算法描述140

10.5分裂準則141

10.6先驗機率和類別均衡142

10.7缺失值的處理144

10.8屬性的重要度145

10.9動態特徵構造146

10.10代價敏感學習147

10.11停止準則、剪枝、樹序列和樹選擇147

10.12機率樹149

10.13理論基礎150

10.14CART之後的相關研究150

10.15可用軟體151

10.16習題152

參考文獻153

相關詞條

熱門詞條

聯絡我們