班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號) |
每期人數限3到5人。 |
上課時間和地點 |
上課地點:【上海】:同濟大學(滬西)/新城金郡商務樓(11號線白銀路站) 【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院 【北京分部】:北京中山學院/福鑫大樓 【南京分部】:金港大廈(和燕路) 【武漢分部】:佳源大廈(高新二路) 【成都分部】:領館區1號(中和大道) 【沈陽分部】:沈陽理工大學/六宅臻品 【鄭州分部】:鄭州大學/錦華大廈 【石家莊分部】:河北科技大學/瑞景大廈 【廣州分部】:廣糧大廈 【西安分部】:協同大廈
最近開課時間(周末班/連續班/晚班):2020年3月16日 |
實驗設備 |
☆資深工程師授課
☆注重質量
☆邊講邊練
☆合格學員免費推薦工作
★實驗設備請點擊這兒查看★ |
質量保障 |
1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
3、培訓合格學員可享受免費推薦就業機會。 |
課程大綱 |
|
- 第1章課程簡介
1-1課程簡介
第2章Docker知識快速入門
2-1什么是Docker技術
2-2為什么要使用Docker
2-3Docker中的基本概念
2-4Docker安裝
2-5Docker獲取鏡像
2-6Docker創建鏡像(1)
2-7Docker創建鏡像(2)
2-8Docker本地導入鏡像
2-9Docker保存、載入、刪除鏡像
2-10Docker容器的創建啟動和停止
2-11Docker命令進入容器后臺
2-12Docker命令導入導出和刪除容器
2-13Docker公有倉庫Docker Hub
2-14Docker私有倉庫的創建
2-15Docker中的數據卷
2-16Docker制作數據卷容器
2-17Docker數據卷容器實現備份恢復及遷移
2-18Docker容器綁定外部端口和IP
2-19Docker容器互聯
2-20Docker一個完整的例子
2-21Dockerfile基本結構講解
2-22Dockerfile中常見指令講解
第3章Docker搭建Spark學習環境,一鍵部署So easy!
3-1Spark課程前言
3-2Spark基礎核心概念講解
3-3鏡像制作方案和集群網絡規劃及子網配置和SSH無密鑰登錄規
3-4Hadoop、HDFS、Yarn配置文件詳解
3-5Spark及Hive配置文件詳解
3-6Dockerfile制作Hadoop/Spark/Hive鏡
3-7啟動5個容器并啟動Hadoop、Spark、Hive
第4章PySpark基礎及運行原理快速入門,
4-1pyspark模塊介紹
4-2SparkContext編程入口及Accumulator
4-3addFile方法和SparkFiles的get方法
4-4binaryFiles讀取二進制文件
4-5Broadcast廣播變量和setLogLevel日志級別
4-6文件的讀取和保存及runJob方法和parallelize
4-7union方法和statusTracker方法講解
4-8aggregate和aggregateByKey的異同
4-9collectAsMap和fold方法的理解及正確使用
4-10foreach和foreachPartitions原理
4-11histogram和lookup方法的使用詳解
4-12reduce、sampleStdev等方法的使用詳解
4-13sequenceFile序列文件的保存和讀取
4-14takeSample、treeAggregate方法使用
4-15coalesce、repartition方法使用技巧
4-16cogroup、combineByKey、reduceByK
4-17foldByKey、groupBy、groupWith幾個方
4-18集合操作intersection、subtract、unio
4-19join、fullOuterJoin等RDD關聯操作
4-20glom、mapPartitions、mapValues等方
4-21pipe、randomSplit、sampleByKey、s
4-22sortBy、sortByKey、values、zip、zi
4-23StorageLevel中常見的存儲級別
4-24SparkConf對象詳解
4-25廣播變量深入講解
4-26Accumulator累加器詳解
4-27StatusTracker Spark作業運行狀態監控
第5章pyspark之SparkSQL入門到精通
5-1pyspark之SparkSQL模塊介紹
5-2SparkSession編程入口
5-3掌握創建DataFrame的8種方式
5-4range和udf用戶自定義函數講解
5-5agg聚合方法及數據緩存方法cache的講解
5-6colRegex及corr計算皮爾森相關系數
5-7crossJoin笛卡爾積和cube多維數據立方體
5-8explain、dropna及filter和where算子詳
5-9groupBy、intersect、join方法詳解
5-10rollup、replace和randomSplit方法講解
5-11summary統計方法及toPandas轉換為Pandas對
5-12GroupedData 對象
5-13DataFrame中的Column對象(上)
5-14DataFrame中的Columns對象(下)
5-15Catalog對象詳解
5-16Row對象詳解
5-17DataFrameNaFunctions空數據處理方法集合
5-18DataFrameStatFunctions統計模塊詳解
5-19DataFrameReader讀取外部數據生成DF
5-20DataFrameWriter將DF數據寫入外部存儲
5-21types 類型詳解
5-22functions 函數模塊詳解
第6章PySpark 機器學習模塊
6-1本地密集、稀疏向量和LabeledPoint向量
6-2本地矩陣和四種分布式矩陣
6-3Statistics基本的統計方法
6-4假設檢驗、隨機數據的生成和核密度估計
6-5Piplines構建機器學習工作流
6-6TF-IDF詞頻你文檔數和Word2vec詞向量表示
6-7CountVectorizer和Tokenizer和正則特征
6-8PCA主成分分析、多項式核函數擴展特征空間、數據正則化、特征
6-9分桶器、向量組合器、SQL轉換器及元素放縮器
6-10特征個數過濾器、缺失值處理器、類別編碼器、向量類別判斷器
6-11邏輯回歸算法、原理、公式推導及二分類和多分類實踐
6-12完全理解L1,L2正則化及其作用
6-13決策樹算法原理、隨機深林、梯度提升樹代碼實踐
6-14多層感知機分類算法
6-15SVM支持向量機分類算法
6-16OneVsRest多分類算法
6-17Naive Bayes 樸素貝葉斯分類器
6-18Linear Regression線性回歸
6-19GLMs廣義線性模型
6-20回歸樹
6-21K-Means聚類算法
6-22二分K均值算法
6-23GMM高斯混合模型
6-24基于ALS交替最小二乘法的協同過濾推薦算法電影推薦實踐
6-25FP-Growth頻繁項集推薦算法
6-26超參數網格搜索
|