第一部份: 數(shù)據(jù)平臺(tái)整體介紹
(1) 數(shù)據(jù)平臺(tái)整體介紹
(2) 各種異構(gòu)數(shù)據(jù)清洗加載
(3) 任務(wù)調(diào)度系統(tǒng)設(shè)計(jì)
(4) 業(yè)務(wù)快速迭代過(guò)程中,數(shù)據(jù)模型如何構(gòu)建
(5) 大數(shù)據(jù)平臺(tái)基本組件以及技術(shù)選型
第二部份:環(huán)境準(zhǔn)備
(1) Hadoop安裝配置管理
(2) spark安裝配置管理
(3) sqoop,flume安裝配置
(4) 數(shù)據(jù)壓縮存儲(chǔ)格式,幾種數(shù)據(jù)存儲(chǔ)格式對(duì)比
第三部份: 數(shù)據(jù)同步收集(一)
(1) 如何從rdbms同步數(shù)據(jù)到hdfs
(2) 自己開(kāi)發(fā)ETL 數(shù)據(jù)抽取工具
(2) sqoop的使用
(3) 后臺(tái)日志,nginx日志等數(shù)據(jù)的清洗規(guī)范化,介紹 hadoop streaming,mapreduce,
使用spark/Scala模式匹配 等方式清洗日志
(4) 特殊格式日志如何清洗
第四部份: 數(shù)據(jù)同步收集(二)
(1) 異地跨網(wǎng)段數(shù)據(jù)同步清洗方案
(2) 超大數(shù)據(jù)量日志同步清洗,并保證數(shù)據(jù)的準(zhǔn)確性
(3) 同步數(shù)據(jù)小文件過(guò)多如何處理
(4) 歷史數(shù)據(jù)歸檔處理,冷熱數(shù)據(jù)存儲(chǔ)
第五部份:數(shù)據(jù)同步收集(三)
(1) 準(zhǔn)小時(shí)級(jí)別數(shù)據(jù)更新處理
(2) 使用spark streaming,kafka 等實(shí)時(shí)處理后臺(tái),nginx 日志
(3) mySQL binlog實(shí)時(shí)日志處理
第六部份:任務(wù)調(diào)度系統(tǒng)設(shè)計(jì)
(1) 定時(shí)任務(wù)設(shè)計(jì)以及處理
(2) 觸發(fā),依賴模式的任務(wù)調(diào)度系統(tǒng)設(shè)計(jì)
(3) 調(diào)度系統(tǒng)中如何做到ETL任務(wù)依賴關(guān)系自動(dòng)解析
(4) 手把手教你實(shí)現(xiàn)一個(gè)任務(wù)調(diào)度系統(tǒng)
第七部份:調(diào)度系統(tǒng)選擇
(1) oozie,azkaban,airflow等調(diào)度系統(tǒng)介紹
(2) airbnb airflow基本架構(gòu)設(shè)計(jì)
(3) Airflow 任務(wù)調(diào)度系統(tǒng)配置和使用
(4) Airflow 高級(jí)使用
(5) Airflow 二次開(kāi)發(fā),自定義某些功能模塊
第八部份: ETL任務(wù)系統(tǒng)設(shè)計(jì)
(1) 數(shù)據(jù)抽取,加載工具的實(shí)現(xiàn)
(2) ETL任務(wù)模板的實(shí)現(xiàn)
(3) ETL任務(wù)元數(shù)據(jù)設(shè)計(jì)
(4) 企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì):維度建模,分層,寬表設(shè)計(jì)等
第九部份:adhoc查詢以及查詢平臺(tái)
(1) presto,impala,spark-sql 的使用
(2) hue搭建以及使用
(3) zeppelin搭建以及使用,zeppelin中調(diào)試spark,pyspark等
(5) 更快的查詢,毫秒級(jí)的響應(yīng)速度之elasticsearch
第十部份:數(shù)據(jù)羅盤(pán)
(1) 數(shù)據(jù)羅盤(pán)常圖表樣式
(2) airbnb開(kāi)發(fā)的Superset 安裝以及使用
(3) Superset架構(gòu)介紹以及使用案例
(4) Superset簡(jiǎn)單定制化開(kāi)發(fā)
第十一部份:數(shù)據(jù)安全
(1) 從hdfs層面來(lái)空值數(shù)據(jù)的訪問(wèn)權(quán)限
(2) 如何保障敏感表,敏感字段的安全性
(3) 應(yīng)用層面,查詢服務(wù)層來(lái)保障安全
第十二部份:大數(shù)據(jù)平臺(tái)監(jiān)控
(1) etl任務(wù)監(jiān)控,數(shù)據(jù)質(zhì)量監(jiān)控
(2) etl作業(yè)日志,yarn日志解析以及監(jiān)控
(3) 數(shù)據(jù)量增長(zhǎng),數(shù)據(jù)量未來(lái)發(fā)展準(zhǔn)確預(yù)估
(4) 借助對(duì)象存儲(chǔ),把冷熱數(shù)據(jù)分離處理
|