零基礎學大數據算法

零基礎學大數據算法

《零基礎學大數據算法》通俗易懂的大數據算法教程。通篇採用師生對話的形式,旨在用通俗的語言、輕鬆的氣氛,幫助讀者理解大數據計算領域中的基礎算法和思想。

書籍信息

零基礎學大數據算法

作者:王宏志 林可

出版社:電子工業出版社

SBN:9787121289378

版次:01

商品編碼:11981244

包裝:平裝

開本:16開

出版時間:2016-06-01

頁數:268

正文語種:中文

內容簡介

本書是通俗易懂的大數據算法教程。通篇採用師生對話的形式,旨在用通俗的語言、輕鬆的氣氛,幫助讀者理解大數據計算領域中的基礎算法和思想。本書由背景篇、理論篇、套用篇和實踐篇四部分組成。背景篇介紹大數據、算法、大數據算法等基本概念和背景;理論篇介紹解決大數據問題的亞線性算法、磁碟算法、並行算法、眾包算法的基本思想和理論知識;套用篇介紹與大數據問題息息相關的數據挖掘和推薦系統的相關知識;實踐篇從實際套用出發,引導讀者動手操作,幫助讀者通過實際程式和實驗驗證磁碟算法、並行算法和眾包算法。在講解每一個大數據問題之前,本書都會介紹大量的經典算法和基礎數據結構知識,不僅可以幫助學習過數據結構與算法、算法設計與分析等課程的同學複習,同時能夠讓入門的“小菜鳥”們,不會因為沒有學習過經典算法而對本書望而卻步,輕鬆地掌握大數據算法!

作者介紹

博士畢業以來一直哈爾濱工業大學計算機學院任職,根據2012年教育部學科評估,該學科排名第4。王博士現任軟體與理論學科副教授,博士生導師。發表論文100餘篇,出版學術專著《XML查詢處理》和英文專著《Innovative Techniques and Applications of Entity Resolution》,撰寫3篇專著章節,擁有3項軟體著作權,完成經典教材《算法導論(第三版)》最後5章的翻譯,其論文被SCI/EI檢索60餘次,引用300餘次,其中5篇論文發表於**國際會議上。獲得微軟學者(亞太地區40人獲獎)、中國優秀資料庫工程師(全國10人獲獎)、IBM博士英才(大中華區8人獲獎)等稱號,“海量數據計算的理論和技術”獲得黑龍江省自然科學獎1項,其博士論文“XML數據查詢處理技術的研究”獲得哈爾濱工業大學優秀博士論文和中國計算機學會優秀博士論文。其在2014年與慕課網開設《大數據算法》課程,這是國內首次公開開設與大數據算法相關的課程,迄今已經有超過2萬人選課。其2008年在國際**會議VLDB上發表的論文是2000年以來第一篇國內學者獨立完成的VLDB論文,在國內外產生了較大影響。2011年在微軟亞洲研究院期間提出的海量圖數據的匹配算法國際上首次將子圖匹配算法擴展到了在規模為10億級別的圖上,該算法於2012年發表以來已被引用超過30次,並已經進入微軟亞洲研究院的Trinity系統。王博士在國內外多個知名資料庫會議擔任程式委員會委員20餘次,在國際學術領域有一定影響。王博士在大數據管理、Web數據管理、數據質量管理、圖數據管理的研究和開發方面都有用豐富的經驗。

書籍目錄

第1 篇 背景篇
第1 章 何謂大數據 4
1.1 身邊的大數據 4
1.2 大數據的特點和套用 6
第2 章 何謂算法 8
2.1 算法的定義 8
2.2 算法的分析 14
2.3 基礎數據結構――線性表 24
2.4 遞歸――以階乘為例 28
第3 章 何謂大數據算法 31
第2 篇 理論篇
第4 章 窺一斑而見全豹――亞線性算法 34
4.1 亞線性算法的定義 34
4.2 空間亞線性算法 35
4.2.1 水庫抽樣 35
4.2.2 數據流中的頻繁元素 37
4.3 時間亞線性計算算法 40
4.3.1 圖論基礎回顧 40
4.3.2 平面圖直徑 45
4.3.3 最小生成樹 46
4.4 時間亞線性判定算法 53
4.4.1 全0 數組的判定 53
4.4.2 數組有序的判定 55
第5 章 價錢與性能的平衡――磁碟算法 58
5.1 磁碟算法概述 58
5.2 外排序 62
5.3 外存數據結構――磁碟查找樹 71
5.3.1 二叉搜尋樹回顧 71
5.3.2 外存數據結構――B 樹 78
5.3.3 高維外存查找結構――KD 樹 80
5.4 表排序 83
5.5 表排序的套用 86
5.5.1 歐拉迴路技術 86
5.5.2 父子關係判定 87
5.5.3 前序計數 88
5.6 時間前向處理技術 90
5.7 縮圖法 98
第6 章 1+1>2――並行算法 103
6.1 MapReduce 初探 103
6.2 MapReduce 算法實例 106
6.2.1 字數統計 106
6.2.2 平均數計算 108
6.2.3 單詞共現矩陣計算 111
6.3 MapReduce 進階算法 115
6.3.1 join 操作 115
6.3.2 MapReduce 圖算法概述 122
6.3.3 基於路徑的圖算法 125
第7 章 超越MapReduce 的並行計算 131
7.1 MapReduce 平台的局限 131
7.2 基於圖處理平台的並行算法 136
7.2.1 概述 136
7.2.2 BSP 模型下的單源最短路徑 137
7.2.3 計運算元圖同構 141
第8 章 眾人拾柴火焰高――眾包算法 144
8.1 眾包概述 144
8.1.1 眾包的定義 144
8.1.2 眾包套用舉例 146
8.1.3 眾包的特點 149
8.2 眾包算法例析 152
第3 篇 套用篇
第9 章 大數據中有黃金――數據挖掘 158
9.1 數據挖掘概述 158
9.2 數據挖掘的分類 159
9.3 聚類算法――k-means 160
9.4 分類算法――Naive Bayes 166
第10 章 推薦系統 170
10.1 推薦系統概述 170
10.2 基於內容的推薦方法 173
10.3 協同過濾模型 176
第4 篇 實踐篇
第11 章 磁碟算法實踐 186
第12 章 並行算法實踐 194
12.1 Hadoop MapReduce 實踐 194
12.1.1 環境搭建 194
12.1.2 配置Hadoop 201
12.1.3 “Hello World”程式―― WordCount 203
12.1.4 Hadoop 實踐案例――記錄去重 213
12.1.5 Hadoop 實踐案例――等值連線 216
12.1.6 多機配置 221
12.2 適於疊代並行計算的平台――Spark 224
12.2.1 Spark 初探 224
12.2.2 單詞出現行計數 230
12.2.3 在Spark 上實現WordCount 236
12.2.4 在HDFS 上使用Spark 241
12.2.5 Spark 的核心操作――Transformation 和Action 244
12.2.6 Spark 實踐案例――PageRank 247
第13 章 眾包算法實踐 251
13.1 認識AMT 251
13.2 成為眾包工人 252

相關詞條

熱門詞條

聯絡我們