大數(shù)據(jù)概述、分布式數(shù)據(jù)收集系統(tǒng):Sqoop與Flume
【理論部分】大數(shù)據(jù)概論、 大數(shù)據(jù)技術(shù)體系(按照六層架構(gòu)介紹:數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、資源管理、計(jì)算引擎、數(shù)據(jù)分析以及可視化),Hadoop發(fā)展歷程、Hadoop生態(tài)系統(tǒng)概述/結(jié)構(gòu)化數(shù)據(jù)收集Sqoop:背景、架構(gòu)、原理以及使用 、非結(jié)構(gòu)化(日志)數(shù)據(jù)收集系統(tǒng)Flume:背景、架構(gòu)、原理及使用;
【實(shí)戰(zhàn)部分】利用Flume從指定目錄中收集數(shù)據(jù)到HDFS、利用Sqoop將MySQL表中數(shù)據(jù)寫HDFS。
【課程目標(biāo)】 掌握大數(shù)據(jù)收集系統(tǒng)架構(gòu),能夠使用sqoop和flume構(gòu)建企業(yè)級(jí)大數(shù)據(jù)收集系統(tǒng)。
分布式消息隊(duì)列:Kafka、分布式存儲(chǔ)系統(tǒng):文件系統(tǒng)HDFS
【理論部分】概述 、基本架構(gòu)與工作原理、應(yīng)用場(chǎng)景以及經(jīng)典的架構(gòu)組合等、HDFS簡(jiǎn)介、優(yōu)缺點(diǎn)、架構(gòu)(主節(jié)點(diǎn)NameNode、從節(jié)點(diǎn)DataNode、journal node的解析) 、核心設(shè)計(jì)(數(shù)據(jù)塊、數(shù)據(jù)副本的存放策略、安全模式、負(fù)載均衡、機(jī)架感應(yīng)等)、HDFS操作(命令行接口、Java接口)
【實(shí)戰(zhàn)部分】搭建Kafka集群、如何編寫Producer將數(shù)據(jù)寫入Kafka、如何編寫Consumer從Kafka中讀取數(shù)據(jù)、搭建HDFS集群、使用NameNode Web UI、使用HDFS Shell利用Java編寫程序從HDFS中讀數(shù)據(jù)、利用Java編寫程序?qū)?shù)據(jù)寫入HDFS中、利用Java刪除HDFS上的文件和目錄
分布式存儲(chǔ)系統(tǒng):分布式數(shù)據(jù)庫HBase
【理論部分】HBase簡(jiǎn)介、優(yōu)缺點(diǎn)、架構(gòu)以及HBase API使用等
【實(shí)戰(zhàn)部分】搭建Hbase集群、使用Hbase Web UI、使用HBase Shell、利用Java編寫程序在hbase中創(chuàng)建表、利用Java編寫程序向hbase表中寫入和讀取數(shù)據(jù)
【項(xiàng)目案例】用戶畫像系統(tǒng)、網(wǎng)絡(luò)爬蟲
【課程目標(biāo)】掌握HBase系統(tǒng)架構(gòu),能夠編寫程序讀寫 HBase中存儲(chǔ)的數(shù)據(jù) 。
分布式分析引擎:Hive基礎(chǔ)
【理論部分】Hive背景、架構(gòu)、 HQL的DML和DDL語法等
【實(shí)戰(zhàn)部分】Hive環(huán)境搭建、利用Hive創(chuàng)建表,并進(jìn)行查詢、Hive創(chuàng)建ORC與Parquet表并查詢
【課程目標(biāo)】熟練掌握HQL編寫方式,能夠使用Hive構(gòu)建大數(shù)據(jù)倉庫系統(tǒng)
分布式分析引擎:Hive進(jìn)階
【理論部分】Hive內(nèi)部原理,多計(jì)算引擎(Tez與Spark),Hive創(chuàng)建ORC/Parquet表,Hive調(diào)優(yōu)
【實(shí)戰(zhàn)部分】程序方式訪問Hive、Hive調(diào)優(yōu)演示
【課程目標(biāo)】掌握Hive內(nèi)部原理,了解常見Hive的優(yōu)化方式。
10-交互式查詢引擎Presto
【理論部分】Presto基本架構(gòu),Presto與Hive對(duì)比,Presto基本使用。
【實(shí)戰(zhàn)部分】Presto集群搭建、Presto使用方式、Presto與Hive性能對(duì)比
【項(xiàng)目測(cè)試練習(xí)】 Hadoop測(cè)試(包括選擇題、簡(jiǎn)單題和編程題三部分) |