Spark 基礎(chǔ)
【理論部分】Java Lambda語法簡介 、Spark基礎(chǔ)原理與運行架構(gòu)、Spark部署方式
【實戰(zhàn)部分】Spark開發(fā)環(huán)境搭建、使用Spark Web UI、如何將Spark程序運行到Y(jié)ARN上
【課程目標】掌握Spark基本原理,能夠搭建Spark開發(fā)和運行環(huán)境。
Spark 程序設(shè)計
【理論部分】Spark編程模型、內(nèi)存彈性分布式數(shù)據(jù)集的工作原理和機制、Spark RDD transform、持久化、checkpoint、容錯與性能優(yōu)化
【實戰(zhàn)部分】如何利用intellij idea開發(fā)一個spark程序并運行到集群中、如何利用spark設(shè)計電影受眾分析程序
【課程目標】掌握常見的Spark API,熟練使用Spark開發(fā)大數(shù)據(jù)分析程序。
Spark SQL
【理論部分】流式計算基礎(chǔ)、spark streaming基礎(chǔ)原理 、基礎(chǔ)API介紹(包括map,filter,flatMap、foreachRDD,saveAsTextFile等)和高級API介紹(window, transform和mapWithState),Redis介紹
【實戰(zhàn)部分】利用Spark Streaming讀取HDFS中的數(shù)據(jù),經(jīng)統(tǒng)計(按照window統(tǒng)計)后寫入HDFS:利用Spark Streaming讀取HDFS中的數(shù)據(jù),經(jīng)統(tǒng)計后寫入Redis和HBase:利用mapWithState實現(xiàn)wordcount
【課程目標】掌握Spark Streaming工作原理及常見的API,能夠使用Spark Streaming編寫流式實時計算程序。
Spark Streaming進階
【理論部分】保存kafka offset并恢復、spark streaming容錯機制、spark streaming調(diào)優(yōu)方法、structured streaming原理及關(guān)鍵API
【實戰(zhàn)部分】利用Spark Streaming+kafka+redis實現(xiàn)“用戶手機app行為分析系統(tǒng)”、實現(xiàn)streuctured streaming版本的wordcount
【課程目標】掌握Spark Streaming調(diào)優(yōu)方法和高級編程技巧,能夠使用高級API編寫更加魯棒的分布式流式計算程序。
Spark MLlib數(shù)據(jù)分析挖掘程序
【理論部分】數(shù)據(jù)挖掘與機器學習基礎(chǔ)知識,以及機器學習案例、Spark MLib分類、聚類、推薦等算法,用戶畫像系統(tǒng)設(shè)計。
【實戰(zhàn)部分】回歸預測和局部加權(quán)線性回歸預測算法、最近鄰KNN預測分析的算法、協(xié)同過濾算法的Spark實現(xiàn)技術(shù)應用、決策樹分類分析挖掘算法、邏輯回歸分類分析挖掘算法、貝葉斯分類分析挖掘算法等,互聯(lián)網(wǎng)用戶性別預測。
【課程目標】掌握常見的機器學習算法,能夠使用Spark MLLib工具包解決機器學習問題。 |