培訓(xùn)內(nèi)容:
第一部分:如何構(gòu)建分布式數(shù)據(jù)倉庫平臺
1.?怎么樣才算是真正意義的大數(shù)據(jù)平臺
2.????? 開源Hadoop介紹
3.?數(shù)據(jù)采集過程與分布式存儲
?
1)ETL介紹
?
2)Sqoop
?
3)HDFS
4.?數(shù)據(jù)倉庫與數(shù)據(jù)分析
?
1)MapReduce
?
2)Hive
?
3)Pig
?
4)HBase
5.?集群監(jiān)控與調(diào)度組件
?
1)Ganglia監(jiān)控
?
2)Hadoop集群權(quán)限管理
?
3)Hbase列數(shù)據(jù)庫監(jiān)控
?
4)Oozie介紹
6.????? Hue介紹
7.????? 運(yùn)營商全國用戶上網(wǎng)記錄案例介紹
8.????? 網(wǎng)上輿情分析
第二部分:大數(shù)據(jù)平臺部署及案例
1.?我們應(yīng)該選哪種Hadoop?
?
1)選哪個版本?為什么?
?
2)選哪種發(fā)行版本?為什么?
2.?集群硬件應(yīng)該如何選配?
?
1)內(nèi)存
?
2)CPU
?
3)硬盤
3.?部署案例講解
?
1)英特爾Hadoop詳解
?
2)某省級通信運(yùn)營商清帳單查詢系統(tǒng)介紹
第三部分:Hbase列數(shù)據(jù)庫及應(yīng)用案例
1.?Hbase感性認(rèn)識
?
1)Hbase簡介
?
2)Hbase特點(diǎn)
?
3)HBase與RDBMS對比
?
4)HBase體系結(jié)構(gòu)
?
5)Hbase常見概念
?
6)性能優(yōu)化
2.?Hbase主要組成
?
7)Zookeeper、Hmaster
?
8)HRegionServer、Region
?
9)HStore存儲、Hfile
?
10)Hbase內(nèi)部掃描RowKey的原理
?
11)Hbase內(nèi)部讀寫原理
?
12)HBase設(shè)計(jì)原理、架構(gòu)分析
?
13)Hadoop+HBase伸縮性(自動擴(kuò)容、熱部署)
?
14)HBase相關(guān)表結(jié)構(gòu)設(shè)計(jì)(列族、列詳細(xì)分析)
?
15)HBase主HMaster與備用HMaster間的切換原理
?
16)HBase基本命令介紹
3.?如何使用Hbase?
?
17)Hbase的6種使用方式
?
18)HBase Shell方式訪問;
?
19)HBase Java API方式訪問;
?
20)Hive+Hbase方式訪問;
?
21)Pig+Hbase方式訪問;
4.?Hbase+Zookeeper使用配置
?
22)Zookeeper簡介
?
23)Zookeeper與 HBase 的關(guān)系
5.????? Hbase的RowKey設(shè)計(jì)原則
6.?項(xiàng)目案例:
?
24)HBase在小米業(yè)務(wù)的應(yīng)用
第四部分:大數(shù)據(jù)挖掘介紹與應(yīng)用案例
1.?大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘區(qū)別?
?
1)傳統(tǒng)數(shù)據(jù)挖掘
?
2)SPSS Modeler 14.2
?
3)SAS簡介
?
4)Mahout簡介
?
5)R語言介紹
?
6)R語言連接HIVE
2.?算法介紹和應(yīng)用
?
1)關(guān)聯(lián)分析
?
2)K-means
?
3)決策數(shù)據(jù)C5.0
?
4)邏輯線性Logistic回歸
?
5)主成分/因子分析
?
6)Apriori算法
?
7)預(yù)測算法
?
8)神經(jīng)網(wǎng)絡(luò)
?
9)協(xié)同過濾挖掘算法
3.?項(xiàng)目案例詳解
?
1)用戶行為編好分析
?
2)客戶流失預(yù)測分析
?
3)營銷產(chǎn)品推薦系統(tǒng)
?
4)TF-IDF與余弦相似性的應(yīng)用