Spark：大數據集群計算的生產實踐

Spark：大數據集群計算的生產實踐

《Spark：大數據集群計算的生產實踐》一書原作者Ilya Ganelin（伊利亞·甘列林）等，中文版由李剛譯，周志湖審校，電子工業出版社2017年5月出版

內容提要

《Spark：大數據集群計算的生產實踐》涵蓋了開發及維護生產級Spark套用的各種方法、組件與有用實踐。全書分為6章，第1 ~ 2章幫助讀者深入理解Spark的內部機制以及它們在生產流程中的含義；第3章和第5章闡述了針對配置參數的法則和權衡方案，用來調優Spark，改善性能，獲得高可用性和容錯性；第4章專門討論Spark套用中的安全問題；第6章則全面介紹生產流，以及把一個套用遷移到一個生產工作流中時所需要的各種組件，同時對Spark生態系統進行了梳理。

《Spark：大數據集群計算的生產實踐》不會講述入門級內容，讀者在閱讀前應已具備Spark基本原理的知識。《Spark：大數據集群計算的生產實踐》適合Spark開發人員、Spark套用的項目經理，以及那些考慮將開發的Spark應用程式遷移到生產環境的系統管理員（或者DevOps）閱讀。

目錄

第1章成功運行Spark job 1

安裝所需組件 2

-- 原生安裝Spark Standalone集群 3

分散式計算的發展史 3

-- 步入雲時代 5

-- 理解資源管理 6

使用各種類型的存儲格式 9

-- 文本檔案 11

-- Sequence檔案 13

-- Avro檔案 13

-- Parquet檔案 13

監控和度量的意義 14

-- Spark UI 14

-- Spark Standalone UI 17

-- Metrics REST API 17

-- Metrics System 18

-- 外部監控工具 18

總結 19

第2章集群管理 21

背景知識 23

Spark組件 26

-- Driver 27

-- workers與executors 28

-- 配置 30

Spark Standalone 33

-- 架構 34

-- 單節點設定場景 34

-- 多節點設定 36

YARN 36

-- 架構 38

-- 動態資源分配 41

-- 場景 43

Mesos 45

-- 安裝 46

-- 架構 47

-- 動態資源分配 49

-- 基本安裝場景 50

比較 52

總結 56

第3章性能調優 59

Spark 執行模型 60

分區 62

-- 控制並行度 62

-- 分區器 64

shuffle數據 65

-- shuffle與數據分區 67

-- 運算元與shuffle 70

-- shuffle並不總是壞事 75

序列化 75

-- Kryo註冊器 77

Spark快取 77

-- SparkSQL 快取 81

記憶體管理 82

-- 垃圾回收 83

共享變數 84

-- 廣播變數 85

-- 累加器 87

數據局部性 90

總結 91

第4章安全 93

架構 94

-- Security Manager 94

-- 設定配置 95

ACL 97

-- 配置 97

-- 提交job 98

-- Web UI 99

網路安全 107

加密 108

事件日誌 113

Kerberos 114

Apache Sentry 114

總結 115

第5章容錯或job執行 117

Spark job的生命周期 118

-- Spark master 119

-- Spark driver 122

-- Spark worker 124

-- job生命周期 124

job調度 125

-- 應用程式內部調度 125

-- 用外部工具進行調度 133

容錯 135

-- 內部容錯與外部容錯 136

-- SLA 137

-- RDD 138

-- Batch vs Streaming 145

-- 測試策略 148

-- 推薦配置 155

總結 158

第6章超越Spark 159

數據倉庫 159

-- SparkSQL CLI 161

-- Thrift JDBC/ODBC伺服器 162

-- Hive on Spark 162

機器學習 164

-- DataFrame 165

-- MLlib和ML 167

-- Mahout on Spark 174

-- Hivemall On Spark 175

外部的框架 176

-- Spark Package 177

-- XGBoost 179

-- spark-jobserver 179

未來的工作 182

-- 與參數伺服器集成 184

-- 深度學習 192

Spark在企業中的套用 200

-- 用Spark及Kafka收集用戶活動日誌 200

-- 用Spark做實時推薦 202

-- Twitter Bots的實時分類 204

總結 205

相關詞條

Spark：大數據集群計算的生產實踐

《Spark：大數據集群計算的生產實踐》一書原作者Ilya Ganelin（伊利亞·甘列林）等，中文版由李剛譯，周志湖審校，電子工業出版社2017年5月出版
內容提要目錄

熱門詞條

聯絡我們