
大數據實時處理-基于Spark的大數據實時處理及應用培訓
第一講Spark大數據實時處理技術
1)大數據處理技術
2)Spark實時處理技術
3)Spark生態系統BDAS
4)Spark架構分析
第二講 Spark安裝配置及監控
1)Ubuntu環境的準備
2)Hadoop2.X和Scala
3)搭建Spark開發環境
4)Idea編譯和運行
5)Spark監控管理
第三講 Scala編程語言使用概述
1) Scala編程語言
2) 基本數據類型
3) 操作基本數據類型
4) 類和對象
5) 組合和繼承
第四講 Spark分布式計算框架
1)Spark計算模型
2)彈性分布式數據集RDD
3)Spark的數據存儲
4)Transformation算子分類及功能
5)Actions算子分類及功能
第五講 Spark內部工作機制詳解
1) Spark底層實現原理
2) Spark應用執行機制
3) Spark調度與任務分配模塊
4) FIFO和FAIR調度算法
第六講 Spark數據讀取與存儲
1)Spark的I/O機制
2)Spark中的數據壓縮
3)Spark的數據讀取與存儲
4)Spark數據讀寫流程
第七講 Spark通信模塊和容錯機制
1)Spark通信模塊
2)通信框架AKKA
3)容錯機制和Lineage依賴
4)檢查點機制進行容錯
5)Shuffle過程
第八講SQL On Spark
1) BDAS數據分析軟件棧
2) SQL On Spark
3) Spark SQL工具使用
4) Shark工具使用
5) Hive on Spark工具
6) Spark操作HBase中的數據
第九講 Spark流數據處理工具Streaming
1)流數據處理工具Streaming
2) Spark Streaming架構
3) Spark Streaming原理
4) Spark Streaming實例
第十講Spark中的大數據挖掘工具MLlib
1)大數據挖掘工具MLlib
2)MLlib的數據存儲
3)MLlib中的聚類和分類
4)MLlib算法應用實例
5)利用MLlib進行
第十一講 Spark大規模圖處理工具GraphX
1)大規模圖處理工具GraphX
2)GraphX的運行架構
3)GraphX操作使用
4)GraphX使用實例
第十二講 Spark與其他大數據技術的融合與應用
1)與Hadoop/Yarn集群應用的協作
2)與Docker等其它云工具配合
3)Spark在Yahoo!的應用
4)Spark在電商中的應用
六、培訓
1,了解大數據實時處理技術的相關知識。
2,學習Spark的核心技術方法以及應用特征。
3,深入使用Spark在大數據實時處理中的使用。
4,掌握BDAS相關工具及其主要功能。