Apache Oozie 是用于 Hadoop 平臺的一種工作流調(diào)度引擎。該框架(如圖 1 所示)使用 Oozie 協(xié)調(diào)器促進了相互依賴的重復(fù)工作之間的協(xié)調(diào),您可以使用預(yù)定的時間或數(shù)據(jù)可用性來觸發(fā) Apache Oozie。您可以使用 Oozie bundle 系統(tǒng)提交或維護一組協(xié)調(diào)應(yīng)用程序。作為本練習(xí)的一部分,Oozie 運行了一個 Apache Sqoop 作業(yè),以便在 MySQL 數(shù)據(jù)庫中的數(shù)據(jù)上執(zhí)行導(dǎo)入操作,并將數(shù)據(jù)傳輸?shù)?Hadoop 分布式文件系統(tǒng) (HDFS) 中。可以利用導(dǎo)入的數(shù)據(jù)集執(zhí)行 Sqoop 合并操作,從而更新較舊的數(shù)據(jù)集。通過利用 UNIX shell 操作,可從 MySQL 數(shù)據(jù)庫中提取用來執(zhí)行 Sqoop 作業(yè)的元數(shù)據(jù)。同理,可執(zhí)行 Java 操作來更新 Sqoop 作業(yè)所需的 MySQL 數(shù)據(jù)庫中的元數(shù)據(jù)。
本系列課程共包含以下課程:
1、Hadoop 2.x (一)大數(shù)據(jù)基礎(chǔ)?
2、Hadoop 2.x (二)大數(shù)據(jù)進階?
3、Hadoop 2.x (三) 數(shù)據(jù)分析引擎:Hive?
4、Hadoop 2.x (四)數(shù)據(jù)分析引擎:Pig?
5、Hadoop 2.x(五)? MapReduce實戰(zhàn)案例集錦??
6、Hadoop 2.x(六)? 使用Avro實現(xiàn)序列化?
?
7、Hadoop 2.x (七):工作流引擎Oozie?
???
建議學(xué)員從第一門課程開始,逐步學(xué)習(xí);并完成相應(yīng)的實驗,這樣可以更好的理解和掌握Hadoop的體系結(jié)構(gòu)。
第一章 課程概述與Oozie的安裝配置
(*)課程概述與基本概念
(*)安裝和配置Oozie
(*)演示Oozie自帶的Example
第二章 定義Oozie的節(jié)點
(*)控制節(jié)點
(*)動作節(jié)點之一:Fs
(*)動作節(jié)點之二:Java-Main
(*)動作節(jié)點之三:MapReduce
(*)動作節(jié)點之四:Sqoop
(*)動作節(jié)點之五:Hive
(*)動作節(jié)點之六:Pig
第三章 綜合案例:處理商品訂單
(*)綜合案例:處理商品訂單
第四章 Coordinator和Bundle
(*)什么是OOzie的Coordinator?
(*)什么是OOzie的Bundle?
-