第一部份: 數(shù)據(jù)平臺整體介紹
(1) 數(shù)據(jù)平臺整體介紹
(2) 各種異構(gòu)數(shù)據(jù)清洗加載
(3) 任務調(diào)度系統(tǒng)設計
(4) 業(yè)務快速迭代過程中,數(shù)據(jù)模型如何構(gòu)建
(5) 大數(shù)據(jù)平臺基本組件以及技術(shù)選型
第二部份:環(huán)境準備
(1) Hadoop安裝配置管理
(2) spark安裝配置管理
(3) sqoop,flume安裝配置
(4) 數(shù)據(jù)壓縮存儲格式,幾種數(shù)據(jù)存儲格式對比
第三部份: 數(shù)據(jù)同步收集(一)
(1) 如何從rdbms同步數(shù)據(jù)到hdfs
(2) 自己開發(fā)ETL 數(shù)據(jù)抽取工具
(2) sqoop的使用
(3) 后臺日志,nginx日志等數(shù)據(jù)的清洗規(guī)范化,介紹 hadoop streaming,mapreduce,
使用spark/Scala模式匹配 等方式清洗日志
(4) 特殊格式日志如何清洗
第四部份: 數(shù)據(jù)同步收集(二)
(1) 異地跨網(wǎng)段數(shù)據(jù)同步清洗方案
(2) 超大數(shù)據(jù)量日志同步清洗,并保證數(shù)據(jù)的準確性
(3) 同步數(shù)據(jù)小文件過多如何處理
(4) 歷史數(shù)據(jù)歸檔處理,冷熱數(shù)據(jù)存儲
第五部份:數(shù)據(jù)同步收集(三)
(1) 準小時級別數(shù)據(jù)更新處理
(2) 使用spark streaming,kafka 等實時處理后臺,nginx 日志
(3) mySQL binlog實時日志處理
第六部份:任務調(diào)度系統(tǒng)設計
(1) 定時任務設計以及處理
(2) 觸發(fā),依賴模式的任務調(diào)度系統(tǒng)設計
(3) 調(diào)度系統(tǒng)中如何做到ETL任務依賴關(guān)系自動解析
(4) 手把手教你實現(xiàn)一個任務調(diào)度系統(tǒng)
第七部份:調(diào)度系統(tǒng)選擇
(1) oozie,azkaban,airflow等調(diào)度系統(tǒng)介紹
(2) airbnb airflow基本架構(gòu)設計
(3) Airflow 任務調(diào)度系統(tǒng)配置和使用
(4) Airflow 高級使用
(5) Airflow 二次開發(fā),自定義某些功能模塊
第八部份: ETL任務系統(tǒng)設計
(1) 數(shù)據(jù)抽取,加載工具的實現(xiàn)
(2) ETL任務模板的實現(xiàn)
(3) ETL任務元數(shù)據(jù)設計
(4) 企業(yè)級數(shù)據(jù)倉庫模型設計:維度建模,分層,寬表設計等
第九部份:adhoc查詢以及查詢平臺
(1) presto,impala,spark-sql 的使用
(2) hue搭建以及使用
(3) zeppelin搭建以及使用,zeppelin中調(diào)試spark,pyspark等
(5) 更快的查詢,毫秒級的響應速度之elasticsearch
第十部份:數(shù)據(jù)羅盤
(1) 數(shù)據(jù)羅盤常圖表樣式
(2) airbnb開發(fā)的Superset 安裝以及使用
(3) Superset架構(gòu)介紹以及使用案例
(4) Superset簡單定制化開發(fā)
第十一部份:數(shù)據(jù)安全
(1) 從hdfs層面來空值數(shù)據(jù)的訪問權(quán)限
(2) 如何保障敏感表,敏感字段的安全性
(3) 應用層面,查詢服務層來保障安全
第十二部份:大數(shù)據(jù)平臺監(jiān)控
(1) etl任務監(jiān)控,數(shù)據(jù)質(zhì)量監(jiān)控
(2) etl作業(yè)日志,yarn日志解析以及監(jiān)控
(3) 數(shù)據(jù)量增長,數(shù)據(jù)量未來發(fā)展準確預估
(4) 借助對象存儲,把冷熱數(shù)據(jù)分離處理
|