本課程內容:
第一章:
1、課程內容
2、課程需要的環境
第二章:spark SQL相關的基本概念
1、spark SQL基本概念
2、淺嘗spark SQL的API
3、淺嘗spark SQL的API(python版)
4、SparkSession的講解
5、SparkSession的講解(python版)
第三章 Dataset/DataFrame的創建
1、DataFrame的創建
2、DataFrame的創建(python版)
3、schema的定義以及復雜數據類型的用法
4、schema api的用處
5、schema相關API的講解(python版)
第四章 spark SQL讀寫外部數據源
1、基本操作load和save
2、基本操作load和save(python版)
3、parquet和orc文件的讀寫
4、parquet和orc文件的讀寫(python版)
5、json文件的讀寫一
6、json文件的讀寫二
7、json文件的讀寫(python版)
8、csv文件的讀寫一
9、csv文件的讀寫二
10、csv文件的讀寫(python版)
11、通過jdbc讀寫mysql數據庫
12、通過jdbc寫mysql數據庫需要注意的點
13、通過jdbc讀mysql數據庫需要注意的點
14、通過jdbc讀寫mysql數據庫(python版)
15、text文件和table數據源的讀寫
16.、text文件和table數據源的讀寫(python版)
17、數據源實戰之數據分區
18、數據源實戰之數據分區(python版)
第五章: SQL操作spark SQL
1、catalog元數據管理講解
2、catalog元數據管理講解(python版)
3、DDL-表的類型種類及其創建方式
4、DDL-表的類型種類及其創建方式(python版)
5、DQL-sql查詢及其sql函數講解
6、DQL-sql查詢及其sql函數講解(python版)
7、SQL內置函數(絕對全)
第六章:Dataset/DataFrame的API的使用
1、Column的表達
2、Column的表達(python版)
3、DataFrame中Untyped API講解
4、DataFrame中Untyped API講解(python版)
5、DataFrame Untyped API與SQL對比
6、group分組聚合相關API
7、group分組聚合相關API(python版)
8、join關聯相關API
9、join關聯相關API(python版)
10、sort排序相關API
11、sort排序相關API(python版)
12、Action API和其他API
第六章:spark SQL實戰
1、RDDs\DataFrames\Datasets各自使用場景
2、json格式數據處理
3、json格式數據處理(python版)
4、物聯網設備信息的ETL
5、物聯網設備信息的ETL(python版)