班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號) |
每期人數限3到5人。 |
上課時間和地點 |
上課地點:【上海】:同濟大學(滬西)/新城金郡商務樓(11號線白銀路站) 【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院 【北京分部】:北京中山學院/福鑫大樓 【南京分部】:金港大廈(和燕路) 【武漢分部】:佳源大廈(高新二路) 【成都分部】:領館區1號(中和大道) 【沈陽分部】:沈陽理工大學/六宅臻品 【鄭州分部】:鄭州大學/錦華大廈 【石家莊分部】:河北科技大學/瑞景大廈 【廣州分部】:廣糧大廈 【西安分部】:協同大廈
最近開課時間(周末班/連續班/晚班):2020年3月16日 |
實驗設備 |
◆課時: 共5 部份,30學時
☆注重質量
☆邊講邊練
☆合格學員免費推薦工作
★實驗設備請點擊這兒查看★ |
質量保障 |
1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
3、培訓合格學員可享受免費推薦就業機會。 |
大綱 |
|
1) Spark Streaming:數據源和DStream2) 無狀態transformation與有狀態transformation3) Streaming Window的操作4) sparksql 編程實戰5) spark的多語言操作6) spark新版本的新特性
Spark MLlib
機器學習 前面課程大家已經掌握第一代機器學習工具R,而后又學習了第二代機器學習工具Mahout,這里大家將會學習第三代機器學習工具MLlib,大家不僅將會了解MLlib的組件及其調用,而且會通過Spark的項目深入了解MLlib的現實使用。通過此部分大家也可以看出課程不僅著眼于現在,更是著眼于大家的未來在行業中的發展。
1) 介紹
a) Spark MLlib組件介紹 b) 基本數據類型
2) 回歸算法
c) 廣義線性模型 d) 邏輯回歸
3) 分類算法
e) 樸素貝葉斯 f) 決策樹 g) 隨機森林
4) 第四章 推薦系統
5) 第五章 聚類
h) Kmeans i) Sparse kmeans j) Kmeans++ k) Kmeans II
l) Streaming kmeans m) Gaussian Mixture Model
Spark GraphX
圖計算
a) 二分圖b) 概述c) 構造圖d) 屬性圖e) PageRank
項目實戰
智慧城市大數據分析項目
城市中每時每刻都會產生海量數據,應用數據挖掘、機器學習和可視化技術,分析出的數據可以改進城市規劃,緩解交通擁堵,抓捕罪犯。項目會使用真實的數據。 涉及到所學知識如下:
項目技術架構體系:
a) 實時流處理 Kafka,Spark Streaming b) 分布式運算 Hadoop,Spark c) 數據庫 Hbase,Redis d) 機器學習 Spark Mllib e) 前臺web展示數據 Struts2,echart
手機軟件推薦系統項目
使用數據來自某互聯網平臺手機助手,項目目標通過機器學習所學知識挖掘平臺手機用戶喜好,給用戶準確推薦手機軟件,類似360手機助手、華為手機助手、百度手機助手推薦功能。
項目技術架構體系:
a) 分布式平臺 Hadoop,Spark
b) 數據清洗 Hivec) 數據分析 R RStudiod) 推薦服務 Dubboxe) 規則過濾 Droolsf) 機器學習 MLlib
網絡流量異常檢測項目
項目目標通過機器學習所學知識檢測出異常,包括檢測欺詐,網絡攻擊,服務器傳感器故障燈(本項目用戶現在熱門的電商網站的流量分析檢測,比如京東,天貓,淘寶等)。項目功能應用于各大互聯網平臺中,各大互聯網平臺均需要網絡安全予以重視和預防以及檢測。
項目技術架構體系:
a) 數據存儲 Hadoop b) 數據準備 Spark c) 數據分析 R RStudio d) 機器學習 MLlib e) 數據評價及調參
|