數(shù)據(jù)倉庫培訓(xùn)課程大綱:
第一部分:
第1個(gè)主題:云計(jì)算的四大核心技術(shù)
HDFS、MapReduce、HBase、Hive
第2個(gè)主題:Hive集群與管理
1、Hadoop集群的搭建
2、Hadoop集群的監(jiān)控
3、Hadoop集群的管理
4、集群下運(yùn)行MapReduce程序
5、安裝并啟動Hive
6、測試Hive
第3主題:Hive的命令、數(shù)據(jù)類型和文件格式
1、Hive的CLI
2、Hive的集合數(shù)據(jù)類型
3、編碼和模式
第4主題:開發(fā)Hive
1. 連接Java調(diào)試器到Hive
2. 通過Eclipse來開發(fā)Hive代碼
3. Hive的單元測試
第5題:HQL
1. HQL的數(shù)據(jù)定義
2. 使用HQL操作數(shù)據(jù)
3. 深入HQL查詢
第6題:HQL的視圖和索引
1、HQL的視圖:降低查詢的復(fù)雜度和限定特定的條件
2、HQL的索引:索引的創(chuàng)建和管理、定制索引
第二部分:
第1個(gè)主題:Hive中的函數(shù)
1. 使用Hive中已有的函數(shù)
2. 自定義聚合函數(shù)
3. 自定義表生成函數(shù)
4. 在自定義函數(shù)中訪問緩存
第2個(gè)主題:Hive的存儲過程
1、為何需要Hive中的存儲過程
2、 在后臺中運(yùn)行的存儲過程
3、HiveStorageHandler
4、 存儲過程的具體編寫和使用
第3個(gè)主題:Hive架構(gòu)優(yōu)化
1、 降低IO負(fù)載
2、 表的分區(qū)、動態(tài)分區(qū)
3、 壓縮
4、分布式緩存
第4個(gè)主題:徹底優(yōu)化HQL
1、 HQL優(yōu)化的具體策略和方式
2、 Map和Reduce
3、數(shù)據(jù)傾斜
4,執(zhí)行計(jì)劃
第5個(gè)主題:在AWS上使用Hive
1. 使用并管理EMR Hive集群
2. EMR集群的詳細(xì)配置
3.持久層、元數(shù)據(jù)
4.集群中的HDFS和S3(配置、日志等)
第6個(gè)主題:Hive的Thrift
1. 配置、啟動、使用Thrift
2. Thrift的管理
3. 管理Hive Server
4.ThriftMetaStore