曙海教育集團
全國報名免費熱線:4008699035 微信:shuhaipeixun
或15921673576(微信同號) QQ:1299983702
首頁 課程表 在線聊 報名 講師 品牌 QQ聊 活動 就業
 
大數據Hadoop生態體系課程培訓

 
  班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號)
      每個班級的人數限3到5人,互動授課, 保障效果,小班授課。
  上間和地點
上部份地點:【上?!客瑵髮W(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈
最近開間(周末班/連續班/晚班):2019年1月26日
  實驗設備
    ◆小班教學,教學效果好
       
       ☆注重質量☆邊講邊練

       ☆合格學員免費推薦工作
       ★實驗設備請點擊這兒查看★
  質量保障

       1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
       2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
       3、培訓合格學員可享受免費推薦就業機會?!詈细駥W員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。

部份程大綱
 
  • 01 大數據概論 & Hadoop生態
    大數據概念
    大數據的特點(4V)
    大數據應用場景
    大數據發展前景
    大數據部門業務流程分析
    大數據部門組織結構(重點)
    Hadoop是什么
    Hadoop發展歷史
    Hadoop三大發行版本
    Hadoop的優勢(4高)
    02 Hadoop入門
    Hadoop組成
    HDFS架構概述
    YARN架構概述
    MapReduce架構概述
    大數據技術生態體系
    推薦系統框架圖
    Hadoop運行環境搭建
    虛擬機環境準備
    安裝JDK、安裝Hadoop
    Hadoop目錄結構
    03 Hadoop運行模式
    本地運行模式
    官方Grep案例
    官方WordCount案例
    偽分布式運行模式
    啟動HDFS并運行MapReduce程序
    啟動YARN并運行MapReduce程序
    配置歷史服務器
    配置日志的聚集
    配置文件說明
    完全分布式運行模式
    04 完全分布式模式&源碼編譯
    虛擬機準備
    編寫集群分發腳本xsync
    集群配置
    集群單點啟動
    SSH無密登錄配置
    群起集群
    集群啟動/停止方式總結
    集群時間同步
    Hadoop編譯源碼
    常見錯誤及解決方案
    05 HDFS入門
    HDFS概述
    HDFS產出背景及定義
    HDFS優缺點
    HDFS組成架構
    HDFS文件塊大小
    HDFS的Shell操作
    HDFS客戶端操作
    HDFS客戶端環境準備
    HDFS的API操作
    HDFS文件上傳

    06 HDFS的API操作
    HDFS文件下載
    HDFS文件夾刪除
    HDFS文件名更改
    HDFS文件詳情查看
    HDFS文件和文件夾判斷
    HDFS的I/O流操作
    HDFS文件上傳
    HDFS文件下載
    07 HDFS的框架原理
    定位文件讀取
    HDFS的數據流
    HDFS寫數據流程
    剖析文件寫入
    網絡拓撲-節點距離計算
    機架感知
    副本存儲節點選擇
    HDFS讀數據流程
    08 NN & DN工作機制
    NameNode&2NN工作機制
    Fsimage和Edits解析
    CheckPoint時間設置
    NameNode故障處理
    集群安全模式
    NameNode多目錄配置
    DataNode工作機制
    數據完整性
    09 DN工作機制&新特性
    掉線時限參數設置
    服役新數據節點
    退役舊數據節點
    添加白名單
    黑名單退役
    Datanode多目錄配置
    HDFS 2.X新特性
    集群間數據拷貝
    10 新特性& HA框架原理
    小文件存檔
    回收站
    快照管理
    HA概述
    HDFS-HA工作機制
    HDFS-HA工作要點
    HDFS-HA自動故障轉移工作機制
    HDFS-HA集群配置
    第三階段
    大數據Hadoop生態體系
    11 HDFS-HA集群配置
    環境準備
    規劃集群
    配置Zookeeper集群
    配置HDFS-HA集群
    啟動HDFS-HA集群
    配置HDFS-HA自動故障轉移
    YARN-HA配置
    YARN-HA工作機制
    配置YARN-HA集群
    HDFS Federation架構設計
    12 MapReduce框架原理
    MapReduce核心思想
    MapReduce進程
    MapReduce編程規范(八股文)
    MapReduce程序運行流程分析
    MapReduce工作流程
    常用數據序列化類型
    自定義bean對象實現序列化接口
    FileInputFormat切片機制
    CombineTextInputFormat切片機制
    自定義InputFormat
    13 Shuffle機制
    MapTask工作機制
    并行度決定機制
    Shuffle機制
    Partition分區
    WritableComparable排序
    GroupingComparator分組(輔助排序)
    Combiner合并
    數據傾斜&Distributedcache
    ReduceTask工作機制
    自定義OutputFormat
    14 數據壓縮 & Yarn
    MapReduce支持的壓縮編碼
    采用壓縮的位置
    壓縮配置參數
    計數器應用、數據清洗
    Yarn基本架構、工作機制
    Yarn資源調度器、任務推測執行
    MapReduce作業提交全過程
    MapReduce開發總結
    MapReduce參數優化
    企業高頻真題講解20道
    15 MapReduce案例(一)
    案例一:統計一堆文件中單詞出現的個數
    案例二:把單詞按照ASCII碼奇偶分區
    案例三:對每一個maptask的輸出局部匯總
    案例四:大量小文件的切片優化
    案例五:統計手機號耗費的流量
    案例六:按照手機歸屬地不同省份輸出到不同文件中
    案例七:按照總流量倒序排序
    案例八:不同省份輸出文件內部排序
    案例九:求每個訂單中最貴的商品
    案例十:Reduce端表合并(數據傾斜)

    16 MapReduce案例(二)
    案例十一:Map端表合并(Distributedcache)
    案例十二:小文件處理(自定義InputFormat)
    案例十三:自定義日志輸出路徑(自定義OutputFormat)
    案例十四:日志清洗(數據清洗)
    案例十五:倒排索引(多job串聯)
    案例十六:找博客共同好友分析
    案例十七:對數據流的壓縮和解壓縮
    案例十八:在Map輸出端采用壓縮
    案例十九:在Reduce輸出端采用壓縮
    案例二十:TopN案例
    17 Zookeeper原理
    Zookeeper概述、特點
    Zookeeper數據結構
    Zookeeper應用場景
    Zookeeper下載地址
    Zookeeper本地模式安裝
    配置參數解讀
    Zookeeper內部原理
    Zookeeper選舉機制
    Zookeeper節點類型
    Stat結構體
    18 Zookeeper原理&實戰
    監聽器原理、寫數據流程
    分布式安裝部署
    客戶端命令行操作
    API應用環境搭建
    創建ZooKeeper客戶端案例
    創建子節點案例
    獲取子節點并監聽節點變化案例
    判斷Znode是否存在案例
    監聽服務器節點動態上下線案例
    企業高頻真題講解3道
    19 Hive入門&安裝
    什么是Hive
    Hive的優缺點
    Hive架構原理
    Hive和數據庫比較
    Hive安裝地址
    Hive安裝部署
    將本地文件導入Hive案例
    MySql安裝
    安裝MySql服務器
    安裝MySql客戶端
    20 Hive遠程連接
    MySql中user表中主機配置
    Hive元數據配置到MySql
    驅動拷貝
    配置Metastore到MySql
    多窗口啟動Hive測試
    HiveJDBC訪問
    啟動hiveserver2服務
    啟動beeline
    連接hiveserver2
    Hive常用交互命令
    第三階段
    大數據Hadoop生態體系
    21 Hive命令 & 數據類型
    Hive其他命令操作
    Hive常見屬性配置
    Hive數據倉庫位置配置
    Hive查詢后信息顯示配置
    Hive運行日志信息配置
    參數配置方式
    Hive數據類型
    Hive基本數據類型
    Hive集合數據類型
    類型轉化
    22 Hive DDL數據定義
    創建數據庫
    查詢數據庫
    修改數據庫
    刪除數據庫
    創建管理表
    創建外部表
    管理表與外部表的互相轉換
    分區表基本操作
    分區表注意事項
    修改表、刪除表
    23 Hive DML數據操作
    向表中裝載數據(Load)
    通過查詢語句向表中插入數據(Insert)
    查詢語句中創建表并加載數據(as select)
    創建表時通過location指定加載數據路徑
    Import數據到指定hive表中
    Insert導出
    Hadoop命令導出到本地
    Hive Shell 命令導出
    Export導出到HDFS上
    清除表中數據(Truncate)
    24 Hive查詢
    全表和特定列查詢
    列別名
    算術運算符、常用函數
    LIMIT語句
    WHERE語句
    比較運算符(BETWEEN/IN/ IS NULL)
    LIKE和RLIKE
    邏輯運算符(AND/OR/NOT)
    分組、GROUP BY語句
    HAVING語句
    25 Hive JOIN & 排序
    等值JOIN & 表的別名
    內連接
    左外連接、右外連接
    滿外連接、多表連接
    笛卡爾積 JOIN
    全局排序(Order By)
    按照別名排序、多個列排序
    每個MapReduce內部排序(Sort By)
    分區排序(Distribute By)
    CLUSTER BY

    26 Hive分桶 & 函數
    分桶表數據存儲
    分桶抽樣查詢
    常用查詢函數
    空字段賦值
    CASE WHEN
    行轉列
    列轉行
    窗口函數
    Rank
    系統內置函數
    27 Hive函數 & 壓縮 & 存儲
    自定義UDF、UDAF、UDTF函數
    壓縮和存儲
    源碼編譯支持Snappy壓縮
    開啟Map輸出階段壓縮
    開啟Reduce輸出階段壓縮
    列式存儲和行式存儲
    TextFile格式、Orc格式
    Parquet格式
    主流文件存儲格式對比實驗
    存儲和壓縮結合案例
    28 企業級調優
    Fetch抓取
    本地模式
    表的優化
    小表、大表Join
    大表Join大表
    MapJoin
    Group By
    Count(Distinct) 去重統計
    笛卡爾積
    行列過濾
    29 Hive企業級調優(二)
    動態分區調整
    分桶、分區
    Map數
    小文件進行合并
    復雜文件增加Map數
    Reduce數
    并行執行、嚴格模式
    JVM重用、推測執行
    壓縮
    EXPLAIN(執行計劃)
    30 企業級調優 & 項目實戰
    項目視頻表
    項目用戶表
    項目技術選型
    數據清洗
    數據分析
    ETL之ETLUtil
    ETL之Mapper
    ETL之Runner
    執行ETL
    項目數據準備
    第三階段
    大數據Hadoop生態體系
    31 Hive項目實戰&企業真題
    統計視頻觀看數Top10
    統計視頻類別熱度Top10
    統計出視頻觀看數最高的20個視頻的所屬類別以及類別包含Top20視頻的個數
    統計視頻觀看數Top50所關聯視頻的所屬類別Rank
    統計每個類別中的視頻熱度Top10,以Music為例
    統計每個類別中視頻流量Top10,以Music為例
    統計上傳視頻最多的用戶Top10以及他們上傳的觀看次數在前20的視頻
    統計每個類別視頻觀看數Top10
    項目總結
    企業高頻真題講解2道
    32 Cloudera Manager & Impala
    CM概念
    CM功能
    CM環境準備
    CM安裝部署
    CM案例實操
    Impala入門
    什么是Impala
    Impala優缺點
    Impala架構
    Impala下載地址
    33 Impala安裝
    Impala安裝方式
    Impala監護管理
    Impala初體驗
    Impala的操作命令
    Impala的外部shell
    Impala的內部shell
    Impala的數據類型
    DDL數據定義
    創建數據庫
    查詢數據庫
    34 Impala操作
    創建管理表、外部表
    創建分區表
    向表中導入數據
    查詢分區表中的數據
    增加多個分區
    刪除分區、查看分區
    數據導入、導出
    自定義函數
    存儲和壓縮
    優化
    35 IDEA
    IDEA介紹
    Windows下安裝過程
    啟動應用后簡單配置
    創建工程
    設置顯示常見的視圖
    工程界面展示
    創建package和class
    設置常用配置20項
    設置快捷鍵、自定義模板
    關聯Tomcat、Web項目案例實操

    36 數據采集框架Flume
    Flume定義
    Flume組成架構
    Flume拓撲結構
    Flume Agent內部原理
    Flume事務
    Flume快速入門
    Flume下載地址、安裝部署
    案例一:監控端口數據官方案例
    案例二:實時讀取本地文件到HDFS案例
    案例三:實時讀取目錄文件到HDFS案例
    37 Flume高級
    案例四:單數據源多出口案例(選擇器)
    案例五:單數據源多出口案例(Sink組)
    案例六:多數據源匯總案例
    自定義組件
    案例七:自定義Source案例
    案例八:自定義Sink案例
    Flume監控之Ganglia
    Ganglia的安裝與部署
    操作Flume測試監控
    企業高頻真題講解6道
    38 Kafka入門
    消息隊列
    為什么需要消息隊列
    什么是Kafka
    Kafka架構
    環境準備
    Kafka集群部署
    Kafka命令行操作
    Kafka工作流程分析
    數據寫入方式
    數據分區(Partition)
    39 Kafka原理
    數據副本(Replication)
    數據寫入流程
    數據保存
    存儲方式
    存儲策略
    Zookeeper存儲
    本地存儲
    數據消費
    高級API
    低級API
    40 Kafka高級
    消費者組
    消費方式
    消費者組案例
    Kafka生產者Java API
    創建生產者(新API)
    創建生產者帶回調函數(新API)
    自定義分區生產者
    Kafka消費者高級API
    Kafka消費者低級API
    Kafka攔截器原理及案例
    第三階段
    大數據Hadoop生態體系
    41 Kafka高級
    Kafka監控
    KafkaManager
    KafkaMonitor
    Kafka進階
    分區分配策略
    Range Strategy
    RoundRobin Strategy
    高可靠性存儲
    Kafka文件存儲機制
    復制原理和同步方式

    42 Kafka高級 & 面試題
    ISR
    數據可靠性和持久性保證
    框架整合
    Kafka與Flume比較
    Flume與Kafka集成
    Kafka Streams簡介
    Kafka Streams特點
    為什么要有Kafka Stream
    Kafka Stream數據清洗案例
    企業高頻真題10道

    43 HBase原理及安裝
    HBase的角色
    HBase的架構
    HBase部署與使用
    HBase基本操作
    HBase表的操作
    HBase讀數據流程
    HBase寫數據流程
    HBase JavaAPI
    安裝Maven并配置環境變量
    新建Maven Project
    編寫HBaseAPI程序
    44 HBase集成及運維
    官方HBase-MapReduce
    自定義HBase-MapReduce1
    自定義HBase-MapReduce2
    HBase與Hive的對比
    HBase與Hive集成使用
    與Sqoop的集成
    常用的Shell操作
    數據的備份與恢復
    節點的服役
    節點的退役
    版本的確界
    45 HBase企業級優化
    HBase高可用
    Hadoop的通用性優化
    Linux優化
    Zookeeper優化
    HBase優化
    HBase預分區優化
    RowKey設計
    內存優化
    基礎優化
    HBase在商業項目中的能力
    HBase2.0新特性

    46 HBase微博項目
    微博系統需求分析
    微博系統代碼設計
    創建命名空間以及表名的定義
    創建微博內容表
    創建用戶關系表
    發布微博內容
    添加關注用戶
    移除(取關)用戶
    獲取關注的人的微博內容
    測試
    47 Sqoop
    Sqoop原理、安裝
    導入數據
    RDBMS到HDFS
    RDBMS到Hive
    導出數據
    HIVE/HDFS到RDBMS
    腳本打包、常用命令列舉
    命令&參數詳解
    Sqoop的案例實操

    48 Azkaban
    各種調度工具特性對比
    Azkaban與Oozie對比
    Azkaban特點
    Azkaban下載地址
    Azkaban安裝部署
    案例一:Command類型之單一job
    案例二:Command類型之多job工作流
    案例三:HDFS操作任務調度
    案例四:MapReduce任務調度
    案例五:Hive腳本任務調度
    49 Oozie
    Oozie框架原理
    Oozie的功能模塊
    Oozie的常用節點
    Oozie的安裝部署
    案例一:Oozie調度shell腳本
    案例二:Oozie邏輯調度執行多個Job
    案例三:Oozie調度MapReduce任務
    案例四:Oozie定時任務/循環任務


    50 HUE
    HUE簡介
    HUE安裝
    案例一:HUE與HDFS集成案例
    案例二:HUE與YARN集成案例
    案例三:HUE與Hive集成案例
    案例四:HUE與Mysql集成案例
    案例五:HUE與Oozie集成案例
    案例六:HUE與HBase集成案例
    案例七:HUE與Zookeeper集成案例
    案例八:HUE與Sqoop2集成案例
    第三階段
    大數據Hadoop生態體系
    51 Git&Git Hub
    Git安裝配置
    Git本地庫搭建
    Git常用操作命令
    Github注冊與配置
    Github與Git協同辦公
    TortoiseGit安裝配置
    Egit操作push/pull,
    Git工作流
    集中式&GitFlow&Forking
    52 ETL數據清洗工具Kettle
    Kettle入門
    Kettle安裝
    Kettle使用
    案例一:日志文件導數據到Hive
    案例二:MySQL導數據到Hive
    案例三:Hive導數據到Hive
    案例四:Hive導數據到HBase
    案例五:Hive導數據到ES

    53 Kylin
    Kylin應用場景
    Kylin工作原理
    Kylin體系架構
    Kylin集群環境
    為Kylin集群搭建負載均衡器
    Sample Cube案例
    Cube創建案例
    查詢Cube
    Kylin的元數據、垃圾清理
    54 Storm原理
    Storm應用場景及行業案例
    Storm特點、編程模型
    元組(Tuple)、流(Stream)
    水龍頭(Spout)、轉接頭(Bolt)
    拓撲(Topology)
    主控節點與工作節點
    流分組(Stream grouping)
    工作進程(Worker)
    spout的tail特性
    55 Storm案例
    執行器(Executor)、任務(Task)
    實時流計算常見架構圖
    Storm集群規劃、集群搭建
    Storm命令行操作
    分組策略和并發度
    網站日志處理案例
    實時單詞統計案例
    實時計算網站PV案例
    實時計算網站UV去重案例
 

-

 

  備案號:備案號:滬ICP備08026168號-1 .(2024年07月24日)...............
主站蜘蛛池模板: 久久综合狠狠色综合伊人| 色婷婷久久综合中文久久蜜桃av| 一本一道久久a久久精品综合| 亚洲精品第一国产综合境外资源| 色欲天天天综合网| 亚洲国产成人久久综合野外| 国产成人综合美国十次| 国产欧美日韩综合一区在线播放| 久久综合久久综合久久综合| 亚洲精品二区国产综合野狼| 欧美亚洲综合激情在线| 国产激情综合在线观看| 久久久综合香蕉尹人综合网| 综合精品欧美日韩国产在线| 国产成人精品综合网站| 久久一日本道色综合久久| 观看 亚洲欧美日韩综合在线一区| 日韩欧美国产综合在线播放| 欧美成人精品一区二区综合| 亚洲中文字幕无码久久综合网| 一本色道久久综合狠狠躁篇| 亚洲日本欧美产综合在线| 亚洲综合久久久| 亚洲综合在线另类色区奇米| 高清欧美色欧美综合网站| 久久综合九色综合网站| 亚洲色图综合在线| 国产精品综合色区在线观看| 精品亚洲综合在线第一区| 欧美综合自拍亚洲综合网| 一本色道久久综合| 天天综合久久一二三区| 亚洲色图综合在线| 丁香五月婷婷综合激情在线| 国产亚洲欧洲Aⅴ综合一区| 久久综合综合久久狠狠狠97色88| 亚洲狠狠爱综合影院婷婷| 中文字幕亚洲综合小综合在线| 色综合久久中文色婷婷| 日韩欧国产精品一区综合无码| 中文字幕亚洲综合久久菠萝蜜|