班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號) |
每個班級的人數限3到5人,互動授課, 保障效果,小班授課。 |
上間和地點 |
上部份地點:【上?!客瑵髮W(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈 最近開間(周末班/連續班/晚班):2019年1月26日 |
實驗設備 |
◆小班教學,教學效果好 ☆注重質量☆邊講邊練 ☆合格學員免費推薦工作 ★實驗設備請點擊這兒查看★ |
質量保障 |
1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽; 2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。 3、培訓合格學員可享受免費推薦就業機會。☆合格學員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。 |
部份程大綱 |
|
- 培訓特色
Spark已經被不少互聯網公司采用,大部分數據挖掘算法和迭代式算法在逐步MapReduce平臺遷移到Spark平臺中,包括阿里巴巴(廣告系統),騰訊(廣點通精準推薦),百度,優酷土豆,360,支付寶等互聯網公司已經在線上產品中使用spark,且取得了令人滿意的效果,另外,部分省份的運營商也正在嘗試使用spark解決數據挖掘和分析問題,部分銀行,如工商銀行,也正在嘗試spark平臺。
- 目標收益
本課程將為大家全面而又深入的介紹Spark平臺的構建流程,涉及Spark系統基礎知識,概念及架構, Spark實戰技巧,Spark經典案例等。
通過本課程實踐,幫助學員對Spark生態系統有一個清晰明了的認識;理解Spark系統適用的場景;掌握Spark等初中級應用開發技能;搭建穩定可靠的Spark集群,滿足生產環境的標準;了解和清楚大數據應用的幾個行業中的經典案例,包括阿里巴巴,騰訊,百度等互聯網行業,中國移動和聯通等運營商。
- 培訓對象
- 各類 IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。
- 學員基礎
- 1) 了解Java語言(Scala語言會作為課程內容進行介紹);
2) 了解Linux系統;
- 課程大綱
- 主題 內容
Spark大數據架構概述及案例簡介
- 1. 1介紹Spark大數據層級架構及各層軟件設計要求,包括數據收集,大數據存儲,大數據計算框架,大數據應用等
1.2. Hadoop與Spark區別與關系
1.3. Spark生態系統概述以及版本演化,并給出spark版本選擇建議
1.4. Spark典型案例簡介(簡要介紹案例,具體在后面各節會詳細介紹)
Spark商品推薦系統、用戶標簽系統
- Spark產生動機與基本概念
- 2.1 Spark產生背景,與MapReduce對比,其優缺點是什么
2.2 Spark核心概念
(1)RDD
(2)基本操作:transformation與 action
2.2 Spark程序架構
(1)Driver/executor
(2)容錯機制
- Spark安裝部署
- 3.1 Spark運行模式簡介、standlone模式、Spark on yarn模式
3.2 搭建一個spark on yarn集群、搭建yarn集群、運行第一個spark程序
- Spark程序設計實例
- 4.1 Scala語言基礎,常用語法以及庫函數
4.2 Spark程序設計方法
1.Spark程序基本構成,SparkContext,RDD,transformation/action
2.Spark API介紹
(1) 如何創建RDD(scala集合,HDFS文件,HBase文件等)
(2)如何基于RDD進行數據處理,介紹常見的分布式算子
(3)如何保存處理結果(返回到driver端,寫入hdfs等)
(4)廣播變量與累加器
4.3 Spark程序設計實例
(1)分布式Pi估算程序
(2)K-means分類算法實現
(3)邏輯回歸算法實現
- Spark內部原理
- 5.1 Spark程序運行流程概述
介紹Spark從提交,到調度,到最后執行完成整個過程
5.2 Spark內部執行流程
介紹Spark程序內部的邏輯查詢計劃,物理查詢計劃,調度等幾個環節
5.3 Spark shuffle實現
介紹Spark shuffle發展史及實現邏輯
5.4 Spark算子的內部機制
以reduce By Key和group By Key為例介紹spark算子的內部實現原理
- Spark與外部系統整合
- 6.1 Spark與Kafka和flume結合
介紹如何使用kafka和flume將數據導入hadoop中,以便使用spark處理
6.2 Spark與Storm結合
介紹如何使用spark實時處理數據
6.3 Spark與HBase和HDFS結合
介紹Spark如何與HBase和HDFS實現數據的讀寫交互
6.4 Spark與關系型數據庫和hive結合
介紹如何使用spark與關系型數據庫和hive結合
- Spark調優方法
- Spark調優思想、方法
- Spark案例分析
- 基于Spark的商品推薦系統,包括:項目背景、項目架構、項目實施
- Spark Streaming應用及案例分析
- 8.1 Spark Streaming產生動機
8.2 Spark Streaming程序設計
(1)創建DStream
(2)基于DStream進行流式處理
8.3 Spark Streaming容錯與性能優化
(1)Spark Streaming容錯機制
(2)如何對spark Streaming進行優化
8.4 Spark Streaming案例分析
基于Spark Streaming的用戶標簽系統,內容包括項目背景,項目架構以及實施方法
- Spark SQL
- 9.1 Spark SQL定位
9.2 如何使用SparkSQL處理數據
(1)使用SparkSQL處理HDFS上數據
(2)使用SparkSQL處理Hive中的數據
9.3 Spark SQL與Spark及Spark Streaming結合
- MLlib
- 10. 介紹Spark的數據挖掘庫MLlib,重點介紹其內部的幾個分類算法,聚類算法和推薦算法,包括邏輯回歸,K-Means,協同過濾等
- GraphX
- 11. 介紹Spark內部的圖計算框架GraphX,重點介紹它的基本原理及使用方法
|