Spark簡介及環境搭建
l Spark 簡介
l Spark 環境搭建(Ubuntu , 分布式集群).使用的是 Hadoop 2.7.3 和 Spark 2.0.1 版本
基于Python的Spark 編程
l 基于 Python 的 Spark 常用函數及其使用方法。map/reduce/groupByKey/reduceByKey/filter/ flatMap/saveAsTextFile/join 等
l 基于 Python 的 Spark 編程樣例。通過基本的統計分析和數據處理樣例說明該怎樣進行基于 Python 的 Spark 編程
Spark 和機器學習
l MLLib 全方位介紹 。MLLib 包含的各種算法函數的介紹。個別算法根據情況可以講解源代碼
l MLLib 編程樣例 (回歸預測 , 聚類 , 關聯規則, 神經網絡預測等)
云環境下的 Spark 以及預測的簡介
l Spark 在阿里云的使用
l Spark 在 AWS 亞馬遜云的使用
l 預測方法簡介:包括時間序列預測,機器學習方法進行預測(GBDT, 邏輯回歸等) |