曙海教育集團
全國報名免費熱線:4008699035 微信:shuhaipeixun
或15921673576(微信同號) QQ:1299983702
首頁 課程表 在線聊 報名 講師 品牌 QQ聊 活動 就業
 
Spark大數據處理案例分析與實踐課程

 
  班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號)
      每個班級的人數限3到5人,互動授課, 保障效果,小班授課。
  上間和地點
上部份地點:【上?!客瑵髮W(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈
最近開間(周末班/連續班/晚班):2019年1月26日
  實驗設備
    ◆小班教學,教學效果好
       
       ☆注重質量☆邊講邊練

       ☆合格學員免費推薦工作
       ★實驗設備請點擊這兒查看★
  質量保障

       1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
       2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
       3、培訓合格學員可享受免費推薦就業機會。☆合格學員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。

部份程大綱
 
  • 培訓特色
    Spark已經被不少互聯網公司采用,大部分數據挖掘算法和迭代式算法在逐步MapReduce平臺遷移到Spark平臺中,包括阿里巴巴(廣告系統),騰訊(廣點通精準推薦),百度,優酷土豆,360,支付寶等互聯網公司已經在線上產品中使用spark,且取得了令人滿意的效果,另外,部分省份的運營商也正在嘗試使用spark解決數據挖掘和分析問題,部分銀行,如工商銀行,也正在嘗試spark平臺。
  • 目標收益
    本課程將為大家全面而又深入的介紹Spark平臺的構建流程,涉及Spark系統基礎知識,概念及架構, Spark實戰技巧,Spark經典案例等。
    通過本課程實踐,幫助學員對Spark生態系統有一個清晰明了的認識;理解Spark系統適用的場景;掌握Spark等初中級應用開發技能;搭建穩定可靠的Spark集群,滿足生產環境的標準;了解和清楚大數據應用的幾個行業中的經典案例,包括阿里巴巴,騰訊,百度等互聯網行業,中國移動和聯通等運營商。
  • 培訓對象
  • 各類 IT/軟件企業和研發機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。
  • 學員基礎
  • 1) 了解Java語言(Scala語言會作為課程內容進行介紹);
    2) 了解Linux系統;
  • 課程大綱
  • 主題 內容
    Spark大數據架構概述及案例簡介
  • 1. 1介紹Spark大數據層級架構及各層軟件設計要求,包括數據收集,大數據存儲,大數據計算框架,大數據應用等
    1.2. Hadoop與Spark區別與關系
    1.3. Spark生態系統概述以及版本演化,并給出spark版本選擇建議
    1.4. Spark典型案例簡介(簡要介紹案例,具體在后面各節會詳細介紹)
    Spark商品推薦系統、用戶標簽系統
  • Spark產生動機與基本概念
  • 2.1 Spark產生背景,與MapReduce對比,其優缺點是什么
    2.2 Spark核心概念
    (1)RDD
    (2)基本操作:transformation與 action
    2.2 Spark程序架構
    (1)Driver/executor
    (2)容錯機制
  • Spark安裝部署
  • 3.1 Spark運行模式簡介、standlone模式、Spark on yarn模式
    3.2 搭建一個spark on yarn集群、搭建yarn集群、運行第一個spark程序
  • Spark程序設計實例
  • 4.1 Scala語言基礎,常用語法以及庫函數
    4.2 Spark程序設計方法
    1.Spark程序基本構成,SparkContext,RDD,transformation/action
    2.Spark API介紹
    (1) 如何創建RDD(scala集合,HDFS文件,HBase文件等)
    (2)如何基于RDD進行數據處理,介紹常見的分布式算子
    (3)如何保存處理結果(返回到driver端,寫入hdfs等)
    (4)廣播變量與累加器
    4.3 Spark程序設計實例
    (1)分布式Pi估算程序
    (2)K-means分類算法實現
    (3)邏輯回歸算法實現
  • Spark內部原理
  • 5.1 Spark程序運行流程概述
    介紹Spark從提交,到調度,到最后執行完成整個過程
    5.2 Spark內部執行流程
    介紹Spark程序內部的邏輯查詢計劃,物理查詢計劃,調度等幾個環節
    5.3 Spark shuffle實現
    介紹Spark shuffle發展史及實現邏輯
    5.4 Spark算子的內部機制
    以reduce By Key和group By Key為例介紹spark算子的內部實現原理
  • Spark與外部系統整合
  • 6.1 Spark與Kafka和flume結合
    介紹如何使用kafka和flume將數據導入hadoop中,以便使用spark處理
    6.2 Spark與Storm結合
    介紹如何使用spark實時處理數據
    6.3 Spark與HBase和HDFS結合
    介紹Spark如何與HBase和HDFS實現數據的讀寫交互
    6.4 Spark與關系型數據庫和hive結合
    介紹如何使用spark與關系型數據庫和hive結合
  • Spark調優方法
  • Spark調優思想、方法
  • Spark案例分析
  • 基于Spark的商品推薦系統,包括:項目背景、項目架構、項目實施
  • Spark Streaming應用及案例分析
  • 8.1 Spark Streaming產生動機
    8.2 Spark Streaming程序設計
    (1)創建DStream
    (2)基于DStream進行流式處理
    8.3 Spark Streaming容錯與性能優化
    (1)Spark Streaming容錯機制
    (2)如何對spark Streaming進行優化
    8.4 Spark Streaming案例分析
    基于Spark Streaming的用戶標簽系統,內容包括項目背景,項目架構以及實施方法
  • Spark SQL
  • 9.1 Spark SQL定位
    9.2 如何使用SparkSQL處理數據
    (1)使用SparkSQL處理HDFS上數據
    (2)使用SparkSQL處理Hive中的數據
    9.3 Spark SQL與Spark及Spark Streaming結合
  • MLlib
  • 10. 介紹Spark的數據挖掘庫MLlib,重點介紹其內部的幾個分類算法,聚類算法和推薦算法,包括邏輯回歸,K-Means,協同過濾等
  • GraphX
  • 11. 介紹Spark內部的圖計算框架GraphX,重點介紹它的基本原理及使用方法
 

-

 

  備案號:備案號:滬ICP備08026168號-1 .(2024年07月24日)...............
主站蜘蛛池模板: 狠狠色狠狠色综合伊人| 亚洲国产综合人成综合网站| 欧美亚洲日本国产综合网| 亚洲欧美日韩综合aⅴ视频| 国产福利电影一区二区三区久久久久成人精品综合| 色五月丁香六月欧美综合| 亚洲欧美综合区自拍另类| 亚洲一区综合在线播放| 色综合久久精品中文字幕首页| 亚洲综合视频在线| 一本色道久久88综合日韩精品| 国产亚洲综合成人91精品| 久久91综合国产91久久精品| 亚洲欧美日韩国产综合| 青青草原综合久久大伊人精品| 色婷婷色综合激情国产日韩| 精品久久综合1区2区3区激情| 中文字幕乱码人妻综合二区三区| 区三区激情福利综合中文字幕在线一区| 亚洲综合色视频在线观看| 国产色综合天天综合网| 久久综合一区二区无码| 综合欧美亚洲日本一区| 亚洲色图综合网| 伊人色综合久久天天网| 亚洲 综合 欧美在线视频| 亚洲综合一区二区精品导航| 日韩人妻无码一区二区三区综合部| 亚洲国产综合精品中文字幕| 狠狠色丁香婷婷综合| 狠狠色狠狠色综合| 欧美日韩亚洲国内综合网| 综合人妻久久一区二区精品| 97SE亚洲国产综合自在线观看| 青青草原综合久久大伊人导航| 亚洲Av综合色区无码专区桃色| 亚洲国产综合无码一区| 国产成人无码综合亚洲日韩| 久久亚洲高清综合| 天天干天天射综合网| 久久本道综合久久伊人|