班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號) |
每個班級的人數限3到5人,互動授課, 保障效果,小班授課。 |
上間和地點 |
上部份地點:【上?!客瑵髮W(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈 最近開間(周末班/連續班/晚班):2019年1月26日 |
實驗設備 |
◆小班教學,教學效果好 ☆注重質量☆邊講邊練 ☆合格學員免費推薦工作 ★實驗設備請點擊這兒查看★ |
質量保障 |
1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽; 2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。 3、培訓合格學員可享受免費推薦就業機會?!詈细駥W員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。 |
部份程大綱 |
|
- 01 大數據概論 & Hadoop生態
大數據概念
大數據的特點(4V)
大數據應用場景
大數據發展前景
大數據部門業務流程分析
大數據部門組織結構(重點)
Hadoop是什么
Hadoop發展歷史
Hadoop三大發行版本
Hadoop的優勢(4高)
02 Hadoop入門
Hadoop組成
HDFS架構概述
YARN架構概述
MapReduce架構概述
大數據技術生態體系
推薦系統框架圖
Hadoop運行環境搭建
虛擬機環境準備
安裝JDK、安裝Hadoop
Hadoop目錄結構
03 Hadoop運行模式
本地運行模式
官方Grep案例
官方WordCount案例
偽分布式運行模式
啟動HDFS并運行MapReduce程序
啟動YARN并運行MapReduce程序
配置歷史服務器
配置日志的聚集
配置文件說明
完全分布式運行模式
04 完全分布式模式&源碼編譯
虛擬機準備
編寫集群分發腳本xsync
集群配置
集群單點啟動
SSH無密登錄配置
群起集群
集群啟動/停止方式總結
集群時間同步
Hadoop編譯源碼
常見錯誤及解決方案
05 HDFS入門
HDFS概述
HDFS產出背景及定義
HDFS優缺點
HDFS組成架構
HDFS文件塊大小
HDFS的Shell操作
HDFS客戶端操作
HDFS客戶端環境準備
HDFS的API操作
HDFS文件上傳
06 HDFS的API操作
HDFS文件下載
HDFS文件夾刪除
HDFS文件名更改
HDFS文件詳情查看
HDFS文件和文件夾判斷
HDFS的I/O流操作
HDFS文件上傳
HDFS文件下載
07 HDFS的框架原理
定位文件讀取
HDFS的數據流
HDFS寫數據流程
剖析文件寫入
網絡拓撲-節點距離計算
機架感知
副本存儲節點選擇
HDFS讀數據流程
08 NN & DN工作機制
NameNode&2NN工作機制
Fsimage和Edits解析
CheckPoint時間設置
NameNode故障處理
集群安全模式
NameNode多目錄配置
DataNode工作機制
數據完整性
09 DN工作機制&新特性
掉線時限參數設置
服役新數據節點
退役舊數據節點
添加白名單
黑名單退役
Datanode多目錄配置
HDFS 2.X新特性
集群間數據拷貝
10 新特性& HA框架原理
小文件存檔
回收站
快照管理
HA概述
HDFS-HA工作機制
HDFS-HA工作要點
HDFS-HA自動故障轉移工作機制
HDFS-HA集群配置
第三階段
大數據Hadoop生態體系
11 HDFS-HA集群配置
環境準備
規劃集群
配置Zookeeper集群
配置HDFS-HA集群
啟動HDFS-HA集群
配置HDFS-HA自動故障轉移
YARN-HA配置
YARN-HA工作機制
配置YARN-HA集群
HDFS Federation架構設計
12 MapReduce框架原理
MapReduce核心思想
MapReduce進程
MapReduce編程規范(八股文)
MapReduce程序運行流程分析
MapReduce工作流程
常用數據序列化類型
自定義bean對象實現序列化接口
FileInputFormat切片機制
CombineTextInputFormat切片機制
自定義InputFormat
13 Shuffle機制
MapTask工作機制
并行度決定機制
Shuffle機制
Partition分區
WritableComparable排序
GroupingComparator分組(輔助排序)
Combiner合并
數據傾斜&Distributedcache
ReduceTask工作機制
自定義OutputFormat
14 數據壓縮 & Yarn
MapReduce支持的壓縮編碼
采用壓縮的位置
壓縮配置參數
計數器應用、數據清洗
Yarn基本架構、工作機制
Yarn資源調度器、任務推測執行
MapReduce作業提交全過程
MapReduce開發總結
MapReduce參數優化
企業高頻真題講解20道
15 MapReduce案例(一)
案例一:統計一堆文件中單詞出現的個數
案例二:把單詞按照ASCII碼奇偶分區
案例三:對每一個maptask的輸出局部匯總
案例四:大量小文件的切片優化
案例五:統計手機號耗費的流量
案例六:按照手機歸屬地不同省份輸出到不同文件中
案例七:按照總流量倒序排序
案例八:不同省份輸出文件內部排序
案例九:求每個訂單中最貴的商品
案例十:Reduce端表合并(數據傾斜)
16 MapReduce案例(二)
案例十一:Map端表合并(Distributedcache)
案例十二:小文件處理(自定義InputFormat)
案例十三:自定義日志輸出路徑(自定義OutputFormat)
案例十四:日志清洗(數據清洗)
案例十五:倒排索引(多job串聯)
案例十六:找博客共同好友分析
案例十七:對數據流的壓縮和解壓縮
案例十八:在Map輸出端采用壓縮
案例十九:在Reduce輸出端采用壓縮
案例二十:TopN案例
17 Zookeeper原理
Zookeeper概述、特點
Zookeeper數據結構
Zookeeper應用場景
Zookeeper下載地址
Zookeeper本地模式安裝
配置參數解讀
Zookeeper內部原理
Zookeeper選舉機制
Zookeeper節點類型
Stat結構體
18 Zookeeper原理&實戰
監聽器原理、寫數據流程
分布式安裝部署
客戶端命令行操作
API應用環境搭建
創建ZooKeeper客戶端案例
創建子節點案例
獲取子節點并監聽節點變化案例
判斷Znode是否存在案例
監聽服務器節點動態上下線案例
企業高頻真題講解3道
19 Hive入門&安裝
什么是Hive
Hive的優缺點
Hive架構原理
Hive和數據庫比較
Hive安裝地址
Hive安裝部署
將本地文件導入Hive案例
MySql安裝
安裝MySql服務器
安裝MySql客戶端
20 Hive遠程連接
MySql中user表中主機配置
Hive元數據配置到MySql
驅動拷貝
配置Metastore到MySql
多窗口啟動Hive測試
HiveJDBC訪問
啟動hiveserver2服務
啟動beeline
連接hiveserver2
Hive常用交互命令
第三階段
大數據Hadoop生態體系
21 Hive命令 & 數據類型
Hive其他命令操作
Hive常見屬性配置
Hive數據倉庫位置配置
Hive查詢后信息顯示配置
Hive運行日志信息配置
參數配置方式
Hive數據類型
Hive基本數據類型
Hive集合數據類型
類型轉化
22 Hive DDL數據定義
創建數據庫
查詢數據庫
修改數據庫
刪除數據庫
創建管理表
創建外部表
管理表與外部表的互相轉換
分區表基本操作
分區表注意事項
修改表、刪除表
23 Hive DML數據操作
向表中裝載數據(Load)
通過查詢語句向表中插入數據(Insert)
查詢語句中創建表并加載數據(as select)
創建表時通過location指定加載數據路徑
Import數據到指定hive表中
Insert導出
Hadoop命令導出到本地
Hive Shell 命令導出
Export導出到HDFS上
清除表中數據(Truncate)
24 Hive查詢
全表和特定列查詢
列別名
算術運算符、常用函數
LIMIT語句
WHERE語句
比較運算符(BETWEEN/IN/ IS NULL)
LIKE和RLIKE
邏輯運算符(AND/OR/NOT)
分組、GROUP BY語句
HAVING語句
25 Hive JOIN & 排序
等值JOIN & 表的別名
內連接
左外連接、右外連接
滿外連接、多表連接
笛卡爾積 JOIN
全局排序(Order By)
按照別名排序、多個列排序
每個MapReduce內部排序(Sort By)
分區排序(Distribute By)
CLUSTER BY
26 Hive分桶 & 函數
分桶表數據存儲
分桶抽樣查詢
常用查詢函數
空字段賦值
CASE WHEN
行轉列
列轉行
窗口函數
Rank
系統內置函數
27 Hive函數 & 壓縮 & 存儲
自定義UDF、UDAF、UDTF函數
壓縮和存儲
源碼編譯支持Snappy壓縮
開啟Map輸出階段壓縮
開啟Reduce輸出階段壓縮
列式存儲和行式存儲
TextFile格式、Orc格式
Parquet格式
主流文件存儲格式對比實驗
存儲和壓縮結合案例
28 企業級調優
Fetch抓取
本地模式
表的優化
小表、大表Join
大表Join大表
MapJoin
Group By
Count(Distinct) 去重統計
笛卡爾積
行列過濾
29 Hive企業級調優(二)
動態分區調整
分桶、分區
Map數
小文件進行合并
復雜文件增加Map數
Reduce數
并行執行、嚴格模式
JVM重用、推測執行
壓縮
EXPLAIN(執行計劃)
30 企業級調優 & 項目實戰
項目視頻表
項目用戶表
項目技術選型
數據清洗
數據分析
ETL之ETLUtil
ETL之Mapper
ETL之Runner
執行ETL
項目數據準備
第三階段
大數據Hadoop生態體系
31 Hive項目實戰&企業真題
統計視頻觀看數Top10
統計視頻類別熱度Top10
統計出視頻觀看數最高的20個視頻的所屬類別以及類別包含Top20視頻的個數
統計視頻觀看數Top50所關聯視頻的所屬類別Rank
統計每個類別中的視頻熱度Top10,以Music為例
統計每個類別中視頻流量Top10,以Music為例
統計上傳視頻最多的用戶Top10以及他們上傳的觀看次數在前20的視頻
統計每個類別視頻觀看數Top10
項目總結
企業高頻真題講解2道
32 Cloudera Manager & Impala
CM概念
CM功能
CM環境準備
CM安裝部署
CM案例實操
Impala入門
什么是Impala
Impala優缺點
Impala架構
Impala下載地址
33 Impala安裝
Impala安裝方式
Impala監護管理
Impala初體驗
Impala的操作命令
Impala的外部shell
Impala的內部shell
Impala的數據類型
DDL數據定義
創建數據庫
查詢數據庫
34 Impala操作
創建管理表、外部表
創建分區表
向表中導入數據
查詢分區表中的數據
增加多個分區
刪除分區、查看分區
數據導入、導出
自定義函數
存儲和壓縮
優化
35 IDEA
IDEA介紹
Windows下安裝過程
啟動應用后簡單配置
創建工程
設置顯示常見的視圖
工程界面展示
創建package和class
設置常用配置20項
設置快捷鍵、自定義模板
關聯Tomcat、Web項目案例實操
36 數據采集框架Flume
Flume定義
Flume組成架構
Flume拓撲結構
Flume Agent內部原理
Flume事務
Flume快速入門
Flume下載地址、安裝部署
案例一:監控端口數據官方案例
案例二:實時讀取本地文件到HDFS案例
案例三:實時讀取目錄文件到HDFS案例
37 Flume高級
案例四:單數據源多出口案例(選擇器)
案例五:單數據源多出口案例(Sink組)
案例六:多數據源匯總案例
自定義組件
案例七:自定義Source案例
案例八:自定義Sink案例
Flume監控之Ganglia
Ganglia的安裝與部署
操作Flume測試監控
企業高頻真題講解6道
38 Kafka入門
消息隊列
為什么需要消息隊列
什么是Kafka
Kafka架構
環境準備
Kafka集群部署
Kafka命令行操作
Kafka工作流程分析
數據寫入方式
數據分區(Partition)
39 Kafka原理
數據副本(Replication)
數據寫入流程
數據保存
存儲方式
存儲策略
Zookeeper存儲
本地存儲
數據消費
高級API
低級API
40 Kafka高級
消費者組
消費方式
消費者組案例
Kafka生產者Java API
創建生產者(新API)
創建生產者帶回調函數(新API)
自定義分區生產者
Kafka消費者高級API
Kafka消費者低級API
Kafka攔截器原理及案例
第三階段
大數據Hadoop生態體系
41 Kafka高級
Kafka監控
KafkaManager
KafkaMonitor
Kafka進階
分區分配策略
Range Strategy
RoundRobin Strategy
高可靠性存儲
Kafka文件存儲機制
復制原理和同步方式
42 Kafka高級 & 面試題
ISR
數據可靠性和持久性保證
框架整合
Kafka與Flume比較
Flume與Kafka集成
Kafka Streams簡介
Kafka Streams特點
為什么要有Kafka Stream
Kafka Stream數據清洗案例
企業高頻真題10道
43 HBase原理及安裝
HBase的角色
HBase的架構
HBase部署與使用
HBase基本操作
HBase表的操作
HBase讀數據流程
HBase寫數據流程
HBase JavaAPI
安裝Maven并配置環境變量
新建Maven Project
編寫HBaseAPI程序
44 HBase集成及運維
官方HBase-MapReduce
自定義HBase-MapReduce1
自定義HBase-MapReduce2
HBase與Hive的對比
HBase與Hive集成使用
與Sqoop的集成
常用的Shell操作
數據的備份與恢復
節點的服役
節點的退役
版本的確界
45 HBase企業級優化
HBase高可用
Hadoop的通用性優化
Linux優化
Zookeeper優化
HBase優化
HBase預分區優化
RowKey設計
內存優化
基礎優化
HBase在商業項目中的能力
HBase2.0新特性
46 HBase微博項目
微博系統需求分析
微博系統代碼設計
創建命名空間以及表名的定義
創建微博內容表
創建用戶關系表
發布微博內容
添加關注用戶
移除(取關)用戶
獲取關注的人的微博內容
測試
47 Sqoop
Sqoop原理、安裝
導入數據
RDBMS到HDFS
RDBMS到Hive
導出數據
HIVE/HDFS到RDBMS
腳本打包、常用命令列舉
命令&參數詳解
Sqoop的案例實操
48 Azkaban
各種調度工具特性對比
Azkaban與Oozie對比
Azkaban特點
Azkaban下載地址
Azkaban安裝部署
案例一:Command類型之單一job
案例二:Command類型之多job工作流
案例三:HDFS操作任務調度
案例四:MapReduce任務調度
案例五:Hive腳本任務調度
49 Oozie
Oozie框架原理
Oozie的功能模塊
Oozie的常用節點
Oozie的安裝部署
案例一:Oozie調度shell腳本
案例二:Oozie邏輯調度執行多個Job
案例三:Oozie調度MapReduce任務
案例四:Oozie定時任務/循環任務
50 HUE
HUE簡介
HUE安裝
案例一:HUE與HDFS集成案例
案例二:HUE與YARN集成案例
案例三:HUE與Hive集成案例
案例四:HUE與Mysql集成案例
案例五:HUE與Oozie集成案例
案例六:HUE與HBase集成案例
案例七:HUE與Zookeeper集成案例
案例八:HUE與Sqoop2集成案例
第三階段
大數據Hadoop生態體系
51 Git&Git Hub
Git安裝配置
Git本地庫搭建
Git常用操作命令
Github注冊與配置
Github與Git協同辦公
TortoiseGit安裝配置
Egit操作push/pull,
Git工作流
集中式&GitFlow&Forking
52 ETL數據清洗工具Kettle
Kettle入門
Kettle安裝
Kettle使用
案例一:日志文件導數據到Hive
案例二:MySQL導數據到Hive
案例三:Hive導數據到Hive
案例四:Hive導數據到HBase
案例五:Hive導數據到ES
53 Kylin
Kylin應用場景
Kylin工作原理
Kylin體系架構
Kylin集群環境
為Kylin集群搭建負載均衡器
Sample Cube案例
Cube創建案例
查詢Cube
Kylin的元數據、垃圾清理
54 Storm原理
Storm應用場景及行業案例
Storm特點、編程模型
元組(Tuple)、流(Stream)
水龍頭(Spout)、轉接頭(Bolt)
拓撲(Topology)
主控節點與工作節點
流分組(Stream grouping)
工作進程(Worker)
spout的tail特性
55 Storm案例
執行器(Executor)、任務(Task)
實時流計算常見架構圖
Storm集群規劃、集群搭建
Storm命令行操作
分組策略和并發度
網站日志處理案例
實時單詞統計案例
實時計算網站PV案例
實時計算網站UV去重案例
|