班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號) |
每個班級的人數限3到5人,互動授課, 保障效果,小班授課。 |
上間和地點 |
上部份地點:【上?!客瑵髮W(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈 最近開間(周末班/連續班/晚班):2019年1月26日 |
實驗設備 |
◆小班教學,教學效果好 ☆注重質量☆邊講邊練 ☆合格學員免費推薦工作 ★實驗設備請點擊這兒查看★ |
質量保障 |
1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽; 2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。 3、培訓合格學員可享受免費推薦就業機會?!詈细駥W員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。 |
部份程大綱 |
|
- 01 Scala入門
安裝Scala
配置IDEA環境
使用Scala REPL
使用Scala Doc
聲明值和變量
常用類型
算術和操作符重載
調用函數和方法
apply、update方法
option類型
If else表達式、while表達式、for表達式
函數
過程、懶值、異常
02 Scala數據結構
主要的集合特質
數組、映射、元組、隊列、堆棧、列表、集
添加去除元素操作符
將函數映射到集合
化簡、折疊、掃描
拉鏈操作
迭代器
流(不可變列表)
懶視圖
與java集合的互操作總結
線程安全的集合
并行集合
操作符概述
03 Scala模式匹配
更好的switch
守衛
模式中的變量
類型模式
匹配數組、列表和元組
提取器
變量聲明中的模式
For表達式中的模式
樣例類
Copy方法和帶名參數
Case語句的中置表達式
匹配嵌套結構
密封類、模擬枚舉、偏函數
04 高階函數 & 類 & 對象
作為參數的函數
匿名函數、高階函數
參數(類型)推斷
閉包、柯里化、控制抽象
簡單類和無參方法
Getter、Setter方法
對象私有字段
Bean屬性、構造器
嵌套類
單例對象、伴生對象
Apply方法
應用程序對象
枚舉
05 Scala包和引入 & 繼承
包、作用域、包對象
包可見性、引入
重命名和隱藏方法
繼承類
重寫方法
類型檢查和轉換
受保護的字段和方法
超類的構造
重寫字段
匿名子類
抽象類
構造順序和提前定義
Scala繼承層級
06 Scala特質
不允許多重繼承
當做接口使用的特質
帶有具體實現的特質
帶有特質的對象
疊加在一起的特質
在特質中重寫抽象方法
當做富接口使用的特質
特質中的具體字段
特質中的抽象字段
07 注解 & 類型參數
什么可以被注解
注解參數
注解實現
針對java特性的注解
用于優化的注解
泛型類、泛型函數
類型變量限定
視圖界定
上下文界定
08 Scala隱式轉換
隱式轉換
利用隱式轉換豐富類庫功能
引入隱式轉換
隱式轉換規則
隱式參數
利用隱式參數進行隱式轉換
上下文界定
讀取行、讀取字符
讀取詞法單元和數字
09 Scala高級類型
類型與類的區別
classOf與getClass的區別
單例類型
類型投影
類型別名
結構類型
復合類型
中置類型
自身類型
10 Scala Akka實例實操
需求分析
業務需求分解
項目源代碼
新建Maven項目AkkaSystem
WorkInfo類抽象
ActorMessage
Master
Worker
案例運行
第四階段
大數據spark生態體系
11 Spark基礎解析
什么是Spark、Spark特點
Spark的用戶和用途
Spark集群安裝
配置Job History Server
配置Spark HA
執行第一個spark程序
Spark應用提交
啟動Spark Shell
在IDEA中編寫WordCount程序
在IDEA中本地調試WordCount程序
在IDEA中遠程調試WordCount程序
12 SparkCore應用解析(一)
RDD概述
RDD彈性
RDD特點
RDD編程模型
RDD持久化
RDD檢查點機制
RDD的依賴關系
DAG的生成
鍵值對RDD的轉化操作
鍵值對RDD的行動操作
鍵值對RDD的數據分區
13 SparkCore應用解析(二)
文本文件輸入輸出
JSON文件輸入輸出
CSV文件輸入輸出
SequenceFile文件輸入輸出
對象文件輸入輸出
Hadoop輸入輸出格式
文件系統的輸入輸出
數據庫的輸入輸出
RDD編程進階
累加器、自定義累加器
廣播變量
14 SparkSQL應用解析(一)
什么是Spark SQL
RDD vs DataFrames vs DataSet
SparkSQL命令行查詢流程
IDEA創建SparkSQL程序
新的起始點SparkSession
創建DataFrames
DataFrame常用操作
Dataset和RDD互操作
類型之間的轉換總結
用戶自定義UDF函數
用戶自定義聚合函數
15 SparkSQL應用解析(二)
SparkSQL數據源
通用加載/保存方法
Parquet文件
Hive數據庫
JSON數據集
JDBC
JDBC/ODBC服務器
運行Spark SQL CLI
計算所有訂單中每年的銷售單數、銷售總額案例
計算所有訂單每年最大金額訂單的銷售額案例
計算所有訂單中每年最暢銷貨品案例
16 SparkStreaming應用解析
什么是Spark Streaming
Spark與Storm的對比
運行Spark Streaming
架構與抽象
初始化StreamingContext
什么是Dstreams
DStreams輸入
DStreams轉換
DStreams輸出
累加器和廣播變量
DataFrame ans SQL Operations
Caching / Persistence
7x24 不間斷運行
性能考量
17 SparkGraphX 應用解析(一)
什么是Spark GraphX
彈性分布式屬性圖
運行圖計算程序
圖存儲模式
GraphX存儲模式
vertices、edges以及triplets
圖的構建
BSP計算模式
圖操作一覽
操作一覽
轉換操作
結構操作
頂點關聯操作
聚合操作、緩存操作
18 SparkGraphX 應用解析(二)
Pregel API
pregel計算模型
pregel實現最短路徑
GraphX實例
PageRank排名算法
PageRank算法原理
Spark GraphX實現
廣度優先遍歷(參考)
單源最短路徑(參考)
連通圖(參考)
三角計數(參考)
PageRank實例
19 Spark內核解析(一)
RDD抽象
計算抽象、集群模式
RPC網絡通信抽象
啟動Standalone集群
核心組件
核心組件交互流程
Block管理
整體應用
start-daemon.sh腳本解析
spark-class腳本解析
start-master.sh腳本解析
start-slaves.sh腳本解析
start-all.sh腳本解析
spark-submit腳本解析
20 Spark內核解析(二)
Spark通信架構
Endpoint啟動過程
Endpoint Send & Ask流程
Endpoint receive流程
Endpoint Inbox處理流程
Endpoint畫像
Master節點和Work節點啟動流程
Client啟動流程
Driver和DriverRunner
SparkContext解析
SparkContext創建過程
SparkContext簡易結構與交互關系
Master對Application資源分配
Worker創建Executor
第四階段
大數據spark生態體系
21 Spark內核解析(三)
Job提交和Task的拆分
Task的執行流程
Task的回饋流程
Task的迭代流程
Spark的數據存儲
數據寫入過程分析
數據讀取過程分析
Partition如何轉化為Block
partition和block的對應關系
Spark Shuffle過程
Spill過程
Collect、Sort
Spill
Merge
Copy
Merge Sort
MapReduce與Spark過程對比
22 Spark內核解析(四)
Spark內存管理
堆內內存、堆外內存
內存管理接口、靜態內存管理
統一內存管理
RDD 的持久化機制
RDD 緩存的過程
淘汰和落盤
多任務間內存分配
Shuffle 的內存占用
部署模式解析
standalone框架
yarn集群模式、mesos集群模式
spark 三種部署模式的區別
異常分析1:worker異常退出
異常分析2:executor異常退出
異常分析3:master 異常退出
wordcount程序運行原理窺探
23 Spark優化解析(一)
調優基本原則
數據傾斜優化
如何定位導致數據傾斜的代碼
如何緩解/消除數據傾斜
Shuffle調優
HashShuffleManager運行原理
SortShuffleManager運行原理
程序開發調優
原則一:避免創建重復的RDD
原則二:盡可能復用同一個RDD
原則三:對多次使用的RDD進行持久化
原則四:盡量避免使用shuffle類算子
原則五:使用map-side預聚合的shuffle操作
原則六:使用高性能的算子
原則七:廣播大變量
原則八:使用Kryo優化序列化性能
原則九:優化數據結構
24 優化解析 & 機器學習
運行資源調優
JVM虛擬機優化
GC優化
Spark的內存管理優化
根據日志進一步調優
京東商城基于Spark的風控系統的實現
Spark在美團的實踐
數據處理平臺架構中的SMACK組合
大數據架構選擇
機器學習算法常用指標
機器學習凸優化算法分析及案例實操
機器學習L1、L2正則化算法分析及案例實操
PCA降維算法分析及案例實操
ICA降維算法分析及案例實操
非平衡數據處理
模型優化
損失函數
25 機器學習(二)
矩陣奇異值分解SVD
線性回歸算法
邏輯回歸算法
貝葉斯分類算法
SVM支持向量機算法
決策樹算法
K近鄰算法
KMEANS聚類算法
EM算法
FPGrowth關聯規則算法
Apriori關聯規則算法
協同過濾推薦算法
ALS交替最小二乘算法
SVD推薦系統算法
隨機森林算法
AdaBoost算法
XgBoost算法、GBDT算法
26 Flink入門
流處理技術的演變
初識Flink
批處理與流處理
Flink基本架構
JobManager與TaskManager
無界數據流與有界數據流
數據流編程模型
Flink集群搭建
Standalone模式安裝
Yarn模式安裝
27 Flink運行架構
任務提交流程
任務調度原理
Worker與Slots
程序與數據流
并行數據流
task與operator chains
Flink DataStream API
Flink運行模型
Flink程序架構
執行環境
28 Flink source & sink
基于File的數據源
基于Socket的數據源
基于集合(Collection)的數據源
writeAsText
WriteAsCsv
print/printToErr
writeUsingOutputFormat
writeToSocket
Transformation
Map
29 Flink Transformation
FlatMap、Filter
Connect
CoMap,CoFlatMap
Split、Select
Union、KeyBy
Reduce、Fold
Aggregations
Time、Window
CountWindow
TimeWindow
30 Time與Window
Window Reduce
Window Fold
Aggregation on Window
EventTime的引入
Watermark
EvnetTimeWindow API
滾動窗口
滑動窗口
會話窗口
總結
第四階段
大數據spark生態體系
31 Elasticsearch入門
什么是Elasticsearch?
Elasticsearch的適用場景、特點、核心概念
Elasticsearch安裝部署、head插件安裝
獲取Transport Client案例
創建索引案例
刪除索引案例
新建文檔(源數據json串)
新建文檔(源數據map方式添加json)
新建文檔(源數據es構建器添加json)
搜索文檔數據(單個索引)
32 Elasticsearch案例實操
搜索文檔數據(多個索引)
更新文檔數據(update)
更新文檔數據(upsert)
刪除文檔數據(prepareDelete)
查詢所有(matchAllQuery)
對所有字段分詞查詢(queryStringQuery)
通配符查詢(wildcardQuery)
詞條查詢(TermQuery)
模糊查詢(fuzzy)
映射操作案例
33 Python基礎
認識python
編寫第一個python程序
注釋
變量以及類型
標示符和關鍵字
輸入&輸出
運算符
數據類型轉換
判斷語句介紹
if判斷語句
34 Python基礎
if嵌套
while循環
for循環
break和continue
字符串輸入&輸出
下標和切片
元組(tuple)
函數
文件操作
類和對象
35 Python基礎
封裝
繼承
多態
設計模式
異常
模塊
列表推導式
集合
垃圾回收
編碼風格
|