目標(biāo)收益
本次Spark培訓(xùn)將為大家全面而又深入的介紹Spark、Hadoop平臺(tái)的構(gòu)建流程,涉及Spark、Hadoo系統(tǒng)基礎(chǔ)知識(shí),概念及架構(gòu), Spark、Hadoo實(shí)戰(zhàn)技巧,Spark、Hadoo經(jīng)典案例等。
通過本課程實(shí)踐,幫助學(xué)員對(duì)Spark、Hadoo生態(tài)系統(tǒng)有一個(gè)清晰明了的認(rèn)識(shí);理解Spark、Hadoo系統(tǒng)適用的場(chǎng)景;掌握Spark、Hadoo等初中級(jí)應(yīng)用開發(fā)技能;搭建穩(wěn)定可靠的Spar、Hadoo k集群,滿足生產(chǎn)環(huán)境的標(biāo)準(zhǔn);了解和清楚大數(shù)據(jù)應(yīng)用的幾個(gè)行業(yè)中的經(jīng)典案例,包括阿里巴巴,華為等。
培訓(xùn)對(duì)象
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。對(duì)于懷有設(shè)計(jì)疑問和問題,需要梳理解答的團(tuán)隊(duì)和個(gè)人,效果最佳。
學(xué)員基礎(chǔ)
了解Linux系統(tǒng)及相關(guān)語言環(huán)境
課程大綱
Spark
生態(tài)介紹
? Mapreduce、storm和spark模型的比較和使用場(chǎng)景介紹
? Spark產(chǎn)生背景
? Spark(內(nèi)存計(jì)算框架)
? SparkSteaming(流式計(jì)算框架)
? Spark SQL(ad-hoc)
? Mllib(MachineLearning)
? GraphX(bagel將被代)
? DlinkDB介紹
? SparkR介紹
Spark
安裝部署
? Spark安裝簡(jiǎn)介
? Spark的源碼編譯
? Spark Standalone安裝
? Spark Standalone HA安裝
? Spark應(yīng)用程序部署工具spark-submit
? Spark的高可用性部署
Spark
運(yùn)行架構(gòu)和解析
? Spark的運(yùn)行架構(gòu)
? 基本術(shù)語
? 運(yùn)行架構(gòu)
? Spark on Standalone運(yùn)行過程
? Spark on YARN 運(yùn)行過程
? Spark運(yùn)行實(shí)例解析
? Spark on Standalone實(shí)例解析
? Spark on YARN實(shí)例解析
Spark
scala編程
? Scala基本語法
? Scala開發(fā)環(huán)境搭建
? Scala開發(fā)Spark應(yīng)用程序
? 使用java編程
? 使用scala編程
? 使用python編程
Spark
編程模型和解析
? Spark的編程模型
? Spark編程模型解析
? RDD的特點(diǎn)、操作、依賴關(guān)系
? Spark應(yīng)用程序的配置
Spark Streaming原理和實(shí)踐
? Spark Streaming與Strom的區(qū)別
? Kafka的部署
? Kafka與Spark Streaming的整合
? Spark Streaming原理
? Spark流式處理架構(gòu)
? DStream的特點(diǎn)
? Dstream的操作和RDD的區(qū)別
? Spark Streaming的優(yōu)化
? Spark Streaming實(shí)例
? 文本實(shí)例
? 網(wǎng)絡(luò)數(shù)據(jù)處理
? Kafka+Spark Streaming實(shí)現(xiàn)日志的實(shí)時(shí)分析案例
Spark
SQL原理和實(shí)踐
? Spark SQL原理
? Spark SQL的Catalyst優(yōu)化器
? Spark SQL內(nèi)核
? Spark SQL和Hive
? Spark SQL的實(shí)例和編程
? Spark SQL的實(shí)例操作demo
? Spark SQL的編程
? DataFrame架構(gòu)和原理
? DataFrame支持的統(tǒng)計(jì)和數(shù)學(xué)函數(shù)介紹
? 從RDD創(chuàng)建DataFrame
? 從Hive表創(chuàng)建DataFrame
? 從數(shù)據(jù)源創(chuàng)建DataFrame
Spark的數(shù)據(jù)源
? Spark與HDFS的整合
? HDFS RDD原理和實(shí)現(xiàn)
? Spark與Hbase的整合
? Spark與Cassendera整合
? Hbase RDD的分區(qū)讀取
? Hbase RDD的原理和實(shí)現(xiàn)
? Spark parallelism RDD的工作機(jī)制
Spark 數(shù)據(jù)挖掘
? Mllib的介紹
? graphX核心原理
? table operator和graph operator區(qū)別
? vertices、edges和triplets介紹
? 構(gòu)建一個(gè)graph
? SparkR原理
? SparkR實(shí)戰(zhàn)
典型項(xiàng)目
案例實(shí)戰(zhàn)
? 基于spark日志分析
? 個(gè)性化推薦系統(tǒng):帶你揭開其神秘面紗
? 在線投放引擎
? 揭開淘寶點(diǎn)擊推薦系統(tǒng)的神秘面紗
? 淘寶數(shù)據(jù)服務(wù)架構(gòu)—實(shí)時(shí)計(jì)算平臺(tái)
Spark的優(yōu)化
? 序列化優(yōu)化——Kryo
? Spark參數(shù)優(yōu)化實(shí)戰(zhàn)
? Spark 任務(wù)的均勻分布策略
? Partition key傾斜的解決方案
? Spark任務(wù)的監(jiān)控
? GC的優(yōu)化
? Spark Streaming吞吐量?jī)?yōu)化
? Spark RDD使用內(nèi)存的優(yōu)化策略
? Spark在使用中的感想分享