
?
一、大數(shù)據(jù)集群搭建
課程介紹
課程環(huán)境搭建:CentOS 6.4集群搭建
課程環(huán)境搭建:hadoop-2.5.0-cdh5.3.6集群搭建
課程環(huán)境搭建:hive-0.13.1-cdh5.3.6安裝
課程環(huán)境搭建:zookeeper-3.4.5-cdh5.3.6集群搭建
課程環(huán)境搭建:kafka_2.9.2-0.8.1集群搭建
課程環(huán)境搭建:flume-ng-1.5.0-cdh5.3.6安裝
課程環(huán)境搭建:離線日志采集流程介紹
課程環(huán)境搭建:實(shí)時(shí)數(shù)據(jù)采集流程介紹
課程環(huán)境搭建:Spark 1.5.1客戶端安裝以及基于YARN的提交模式
?
二、用戶訪問session分析:?
用戶訪問session分析:模塊介紹
用戶訪問session分析:基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)以及大數(shù)據(jù)平臺(tái)架構(gòu)介紹
用戶訪問session分析:需求分析
用戶訪問session分析:技術(shù)方案設(shè)計(jì)
用戶訪問session分析:數(shù)據(jù)表設(shè)計(jì)
用戶訪問session分析:Eclipse工程搭建以及工具類說明
用戶訪問session分析:開發(fā)配置管理組件
用戶訪問session分析:JDBC原理介紹以及增刪改查示范
-用戶訪問session分析:數(shù)據(jù)庫連接池原理
用戶訪問session分析:單例設(shè)計(jì)模式
用戶訪問session分析:內(nèi)部類以及匿名內(nèi)部類
用戶訪問session分析:開發(fā)JDBC輔助組件(上)
用戶訪問session分析:開發(fā)JDBC輔助組件(下)
用戶訪問session分析:JavaBean概念講解
用戶訪問session分析:DAO模式講解以及TaskDAO開發(fā)
用戶訪問session分析:工廠模式講解以及DAOFactory開發(fā)
-用戶訪問session分析:JSON數(shù)據(jù)格式講解以及fastjson介紹
用戶訪問session分析:Spark上下文構(gòu)建以及模擬數(shù)據(jù)生成
用戶訪問session分析:按session粒度進(jìn)行數(shù)據(jù)聚合
-用戶訪問session分析:按篩選參數(shù)對(duì)session粒度聚合數(shù)據(jù)進(jìn)行過濾
-用戶訪問session分析:session聚合統(tǒng)計(jì)之自定義Accumulator
用戶訪問session分析:session聚合統(tǒng)計(jì)之重構(gòu)實(shí)現(xiàn)思路與重構(gòu)session聚合
用戶訪問session分析:session聚合統(tǒng)計(jì)之重構(gòu)過濾進(jìn)行統(tǒng)計(jì)
用戶訪問session分析:session聚合統(tǒng)計(jì)之計(jì)算統(tǒng)計(jì)結(jié)果并寫入MySQL
用戶訪問session分析:session聚合統(tǒng)計(jì)之本地測(cè)試
用戶訪問session分析:session聚合統(tǒng)計(jì)之使用Scala實(shí)現(xiàn)自定義Accumulator
用戶訪問session分析:session隨機(jī)抽取之實(shí)現(xiàn)思路分析
用戶訪問session分析:session隨機(jī)抽取之計(jì)算每天每小時(shí)session數(shù)量
用戶訪問session分析:session隨機(jī)抽取之按時(shí)間比例隨機(jī)抽取算法實(shí)現(xiàn)
用戶訪問session分析:session隨機(jī)抽取之根據(jù)隨機(jī)索引進(jìn)行抽取
-用戶訪問session分析:session隨機(jī)抽取之獲取抽取session的明細(xì)數(shù)據(jù)
-用戶訪問session分析:session隨機(jī)抽取之本地測(cè)試
-用戶訪問session分析:top10熱門品類之需求回顧以及實(shí)現(xiàn)思路分析
-用戶訪問session分析:top10熱門品類之獲取session訪問過的所有品類
-用戶訪問session分析:top10熱門品類之計(jì)算各品類點(diǎn)擊、下單和支付的次數(shù)
用戶訪問session分析:top10熱門品類之join品類與點(diǎn)擊下單支付次數(shù)
用戶訪問session分析:top10熱門品類之自定義二次排序key
用戶訪問session分析:top10熱門品類之進(jìn)行二次排序
用戶訪問session分析:top10熱門品類之獲取top10品類并寫入MySQL
用戶訪問session分析:top10熱門品類之本地測(cè)試
-用戶訪問session分析:top10熱門品類之使用Scala實(shí)現(xiàn)二次排序
-用戶訪問session分析:top10活躍session之開發(fā)準(zhǔn)備以及top10品類RDD生成
用戶訪問session分析:top10活躍session之計(jì)算top10品類被各sessoin點(diǎn)擊的次數(shù)
用戶訪問session分析:top10活躍session之分組取TopN算法獲取top10活躍session
用戶訪問session分析:top10活躍session之本地測(cè)試以及階段總結(jié)
?
三、企業(yè)級(jí)性能調(diào)優(yōu)、troubleshooting經(jīng)驗(yàn)與數(shù)據(jù)傾斜解決方案:
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中分配更多資源
-用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中調(diào)節(jié)并行度
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中重構(gòu)RDD架構(gòu)以及RDD持久化
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中廣播大變量
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中使用Kryo序列化
用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中使用fastutil優(yōu)化數(shù)據(jù)格式
-用戶訪問session分析:性能調(diào)優(yōu)之在實(shí)際項(xiàng)目中調(diào)節(jié)數(shù)據(jù)本地化等待時(shí)長
用戶訪問session分析:JVM調(diào)優(yōu)之原理概述以及降低cache操作的內(nèi)存占比
用戶訪問session分析:JVM調(diào)優(yōu)之調(diào)節(jié)executor堆外內(nèi)存與連接等待時(shí)長
-用戶訪問session分析:Shuffle調(diào)優(yōu)之原理概述
用戶訪問session分析:Shuffle調(diào)優(yōu)之合并map端輸出文件
用戶訪問session分析:Shuffle調(diào)優(yōu)之調(diào)節(jié)map端內(nèi)存緩沖與reduce端內(nèi)存占比
用戶訪問session分析:Shuffle調(diào)優(yōu)之HashShuffleManager與SortShuffleManager
用戶訪問session分析:算子調(diào)優(yōu)之MapPartitions提升Map類操作性能
用戶訪問session分析:算子調(diào)優(yōu)之filter過后使用coalesce減少分區(qū)數(shù)量
用戶訪問session分析:算子調(diào)優(yōu)之使用foreachPartition優(yōu)化寫數(shù)據(jù)庫性能
用戶訪問session分析:算子調(diào)優(yōu)之使用repartition解決Spark SQL低并行度的性能問題
用戶訪問session分析:算子調(diào)優(yōu)之reduceByKey本地聚合介紹
用戶訪問session分析:troubleshooting之控制shuffle reduce端緩沖大小以避免OOM
用戶訪問session分析:troubleshooting之解決JVM GC導(dǎo)致的shuffle文件拉取失敗
用戶訪問session分析:troubleshooting之解決YARN隊(duì)列資源不足導(dǎo)致的application直接失敗
用戶訪問session分析:troubleshooting之解決各種序列化導(dǎo)致的報(bào)錯(cuò)
用戶訪問session分析:troubleshooting之解決算子函數(shù)返回NULL導(dǎo)致的問題
用戶訪問session分析:troubleshooting之解決yarn-client模式導(dǎo)致的網(wǎng)卡流量激增問題
用戶訪問session分析:troubleshooting之解決yarn-cluster模式的JVM棧內(nèi)存溢出問題
-用戶訪問session分析:troubleshooting之錯(cuò)誤的持久化方式以及checkpoint的使用
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之原理以及現(xiàn)象分析
-用戶訪問session分析:數(shù)據(jù)傾斜解決方案之聚合源數(shù)據(jù)以及過濾導(dǎo)致傾斜的key
-用戶訪問session分析:數(shù)據(jù)傾斜解決方案之提高shuffle操作reduce并行度
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之使用隨機(jī)key實(shí)現(xiàn)雙重聚合
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之將reduce join轉(zhuǎn)換為map join
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之sample采樣傾斜key單獨(dú)進(jìn)行join
用戶訪問session分析:數(shù)據(jù)傾斜解決方案之使用隨機(jī)數(shù)以及擴(kuò)容表進(jìn)行join
?
四、頁面單跳轉(zhuǎn)化率統(tǒng)計(jì):
頁面單跳轉(zhuǎn)化率:模塊介紹
頁面單跳轉(zhuǎn)化率:需求分析、技術(shù)方案設(shè)計(jì)、數(shù)據(jù)表設(shè)計(jì)
-頁面單跳轉(zhuǎn)化率:編寫基礎(chǔ)代碼
頁面單跳轉(zhuǎn)化率:頁面切片生成以及頁面流匹配算法實(shí)現(xiàn)
頁面單跳轉(zhuǎn)化率:計(jì)算頁面流起始頁面的pv
-頁面單跳轉(zhuǎn)化率:計(jì)算頁面切片的轉(zhuǎn)化率
頁面單跳轉(zhuǎn)化率:將頁面切片轉(zhuǎn)化率寫入MySQL
頁面單跳轉(zhuǎn)化率:本地測(cè)試
頁面單跳轉(zhuǎn)化率:生產(chǎn)環(huán)境測(cè)試
用戶訪問session分析:生產(chǎn)環(huán)境測(cè)試
?
五、各區(qū)域熱門商品統(tǒng)計(jì):
各區(qū)域熱門商品統(tǒng)計(jì):模塊介紹
-各區(qū)域熱門商品統(tǒng)計(jì):需求分析、技術(shù)方案設(shè)計(jì)以及數(shù)據(jù)設(shè)計(jì)
各區(qū)域熱門商品統(tǒng)計(jì):查詢用戶指定日期范圍內(nèi)的點(diǎn)擊行為數(shù)據(jù)
各區(qū)域熱門商品統(tǒng)計(jì):異構(gòu)數(shù)據(jù)源之從MySQL中查詢城市數(shù)據(jù)
各區(qū)域熱門商品統(tǒng)計(jì):關(guān)聯(lián)城市信息以及RDD轉(zhuǎn)換為DataFrame后注冊(cè)臨時(shí)表
各區(qū)域熱門商品統(tǒng)計(jì):開發(fā)自定義UDAF聚合函數(shù)之group_concat_distinct()
各區(qū)域熱門商品統(tǒng)計(jì):查詢各區(qū)域各商品的點(diǎn)擊次數(shù)并拼接城市列表
-各區(qū)域熱門商品統(tǒng)計(jì):關(guān)聯(lián)商品信息并使用自定義get_json_object函數(shù)和內(nèi)置if函數(shù)標(biāo)記經(jīng)營類型
-各區(qū)域熱門商品統(tǒng)計(jì):使用開窗函數(shù)統(tǒng)計(jì)各區(qū)域的top3熱門商品
-各區(qū)域熱門商品統(tǒng)計(jì):使用內(nèi)置case when函數(shù)給各個(gè)區(qū)域打上級(jí)別標(biāo)記
-各區(qū)域熱門商品統(tǒng)計(jì):將結(jié)果數(shù)據(jù)寫入MySQL中
各區(qū)域熱門商品統(tǒng)計(jì):Spark SQL數(shù)據(jù)傾斜解決方案
-各區(qū)域熱門商品統(tǒng)計(jì):生產(chǎn)環(huán)境測(cè)試
?
六、廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):
廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):需求分析、技術(shù)方案設(shè)計(jì)以及數(shù)據(jù)設(shè)計(jì)
廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):為動(dòng)態(tài)黑名單實(shí)時(shí)計(jì)算每天各用戶對(duì)各廣告的點(diǎn)擊次數(shù)
廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):使用高性能方式將實(shí)時(shí)計(jì)算結(jié)果寫入MySQL中
廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):過濾出每個(gè)batch中的黑名單用戶以生成動(dòng)態(tài)黑名單
廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):基于動(dòng)態(tài)黑名單進(jìn)行點(diǎn)擊行為過濾
廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):計(jì)算每天各省各城市各廣告的點(diǎn)擊量
廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):計(jì)算每天各省的top3熱門廣告
廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):計(jì)算每天各廣告最近1小時(shí)滑動(dòng)窗口內(nèi)的點(diǎn)擊趨勢(shì)
-廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):實(shí)現(xiàn)實(shí)時(shí)計(jì)算程序的HA高可用性
-廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):對(duì)實(shí)時(shí)計(jì)算程序進(jìn)行性能調(diào)優(yōu)
-廣告點(diǎn)擊流量實(shí)時(shí)統(tǒng)計(jì):生產(chǎn)環(huán)境測(cè)試 |