這是一個信息爆炸的時代。經(jīng)過數(shù)十年的積累,很多企業(yè)都聚集了大量的數(shù)據(jù)。這些數(shù)據(jù)也是企業(yè)的核心財富之一,怎樣從累積的數(shù)據(jù)里尋找價值,變廢為寶煉數(shù)成金成為當務(wù)之急。但數(shù)據(jù)增長的速度往往比cou和內(nèi)存性能增長的速度還要快得多。要處理海量數(shù)據(jù),如果求助于昂貴的專用主機甚至超級計算機,成本無疑很高,有時即使是保存數(shù)據(jù),也需要面對高成本的問題,因為具有海量數(shù)據(jù)容量的存儲設(shè)備,價格往往也是天文數(shù)字。成本和IT能力成為了海量數(shù)據(jù)分析的主要瓶頸。
Hadoop這個開源產(chǎn)品的出現(xiàn),打破了對數(shù)據(jù)力量的壓制。Hadoop源于Nutch這個小型的搜索引擎項目。而Nutch則出自于著名的開源搜索引擎解決方案Lucene,而Lucene則來源于對Google的學(xué)習(xí)模仿。在Hadoop身上有著明顯的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想來源于Goolge對Page rank的計算方法,HBase模仿的是Big Table,Zookeeper則學(xué)習(xí)了Chubby。Google巨人的力量盡管由于商業(yè)的原因被層層封鎖,但在Hadoop身上得到了完美的重生和發(fā)展。
第1節(jié) Hadoop的源起與體系介紹;實施Hadoop集群;CDH家族
第2節(jié) 分布式文件系統(tǒng)HDFS原理與操作,HDFS API編程;2.x下HDFS新特性,高可用,聯(lián)邦,快照
第3節(jié) 具有全部新特性的2.x企業(yè)級集群實施
第4節(jié) Map-Reduce原理、體系架構(gòu)和工作機制,eclipse與Hadoop集群連接,使用maven
第5節(jié) Map-Reduce編程實戰(zhàn),日志分析
第6節(jié) Map-Reduce復(fù)雜應(yīng)用案例,Hadoop流
第7節(jié) 新一代計算框架YARN
第8節(jié) Pig原理,部署與Pig Latin語言,應(yīng)用案例
第9節(jié) Hive體系架構(gòu)、安裝與HiveQL
第10節(jié) Hive應(yīng)用案例,impala子項目
第11節(jié) Zookeeper與分布式系統(tǒng)開發(fā)
第12節(jié) HBase體系架構(gòu),集群部署,管理
第13節(jié) HBase數(shù)據(jù)模型,實戰(zhàn)案例建模剖析
第14節(jié) 數(shù)據(jù)集成Sqoop,F(xiàn)lume,Chukwa,商業(yè)數(shù)據(jù)庫與Hadoop集群的連接
第15節(jié) 與應(yīng)用連接,REST和Thrift接口,UDF實戰(zhàn),RHadoop,數(shù)據(jù)分析軟件與Hadoop集群的連接
第16節(jié) 進軍Hadoop源代碼
第17節(jié) Hadoop在互聯(lián)網(wǎng)企業(yè)中的應(yīng)用案例;集成各個子項目形成企業(yè)級數(shù)據(jù)分析平臺;Hadoop與機器學(xué)習(xí) |