課程目錄:R語言與Hadoop環境下大數據分析與挖掘課程培訓
4401 人關注
(78637/99817)
課程大綱:

          R語言與Hadoop環境下大數據分析與挖掘課程培訓

 

 

 

大數據概述
1.大數據基本概念、技術梗概、技術沿革,以及大數據技術是如何改變人工智能技術、語音識別技術、圖像識別/視頻理解、
自然語言處理技術等,以及大數據技術在政府、金融、石油、教育、交通、醫療衛生等行業的成功案例;
2.Hadoop大數據平臺的生態系統組件、平臺架構以及工作原理;分布式文件系統HDFS、并行處理系統Hadoop MapReduce的系統架構、核心功能模塊、工作原理以及應用開發;
3.大數據的結構化數據模型、半結構化模型和非結構化數據的存儲模型,邏輯模型,以及分析建模工具的常用方法。
數據挖掘及Mahout
1.十大常用的并行數據挖掘算法、原理、應用場景,以及技術實戰;
2.并行數據挖掘平臺Mahout的技術架構、核心組件的工作原理以及技術;
3.Mahout應用開發技術;
4.Mahout項目實戰。
R語言精要 本著循序漸進而又覆蓋R語言重要而有用的基本內容原則,
本講從R語言入門開始,以前期的數據處理為核心,以實際案例為載體,
內容包括R語言的向量、數據框、矩陣運算、缺失值和零值的處理、
特別注重用R語言構造函數編程解決實際問題,詳細介紹強大的數據清洗整理plyr、zoo、car等常用包和強大的作圖ggplot2包,
為使用R語言進行數據挖掘打下扎實的工具基礎。
主要案例: 案例1:如何用R語言plyr等包合并、排序、分析數據并編制香農-威納指數;
案例2:如何用R語言編程同時實現幾十個高難度數據分析可視化圖片的jpeg格式輸出;
案例3:如何使用R語言進行分層或者整群抽樣構建訓練集與測試集;
案例4:使用ggplot2畫出各種復雜的圖形。 Logistic回歸與 商業大數據建模 Logistic回歸是商業建模的常用重要數據挖掘方法,
本講要講清楚Logistic回歸的建模原理、與多元線性模型的區別、R語言實現過程及回歸診斷注意事項、
預測方法和結果解釋,讓學員徹底地掌握Logistic回歸解決問題的R語言方法。
主要案例: 案例1:利用Logistic回歸幫助商業銀行完成對客戶提前還貸款情況的預測;
案例2:利用Logistic回歸幫助醫生對病人選擇佳治療方案;
案例3:利用Logistic回歸幫助廠家分析顧客做出購買決策的重要因素;
案例4:利用Logistic回歸幫助壽險公司進行目標客戶精準電話營銷;
案例5:利用Logistic回歸幫助商業銀行完成對客戶的信用評分;
案例6:利用Logistic回歸幫助公司分析客戶流失的原因并做好預測。
關聯規則和R語言實現 關聯規則(著名的“啤酒和尿布”)是數據挖掘的基礎和核心技術之一,
本講將著重圍繞經典的Apriori算法和eclat算法,闡明關聯規則的支持、置信和提升程度與控制,使用R語言快速完成關聯規則分析。
主要案例: 案例1:使用R語言關聯規則方法幫助各個超市實現商品的佳捆綁銷售方案(即“購物籃”分析);
案例2:泰坦尼克號乘客幸存的關聯規則分析; 案例3:提高個人收入的關聯分析。
決策樹(回歸樹) 分析和R語言實現 決策樹是數據挖掘的經典方法,其原理容易被理解。
本講主要講授兩種為普遍的決策樹算法:CART和C4.5算法,使用rpart和J48函數進行R語言分析。
主要案例: 案例1:對汽車耗油量進行決策樹分析并完成相關目標變量的預測;
案例2:使用決策樹幫助電信局判斷和預測客戶辦理寬帶業務。
機器集成學習的 Bagging和AdaBoost算法 這兩種方法將許多分類器的預測結果進行匯總分析,從而達到顯著提升分類效果。
本講介紹這2種算法的思想,在R語言中構造訓練集和測試集進一步進行分析。
主要案例: 案例1:用R語言的Bagging和AdaBoost進行商業銀行定期存款的分析和預測;
案例2:用R語言的Bagging和AdaBoost識別有毒蘑菇。 R語言隨機森林 (RandomForest)算法 在機器學習中,
隨機森林是一個包含多個決策樹的分類器,本講講清隨機森林方法的原理,
以致在實際中幫助學員判斷適合進行隨機森林分析的情況,終熟練掌握R語言隨機森林分析的方法。
主要案例: 案例1:對皮膚病進行隨機森林的分類和預測;
案例2:對酒的品質和種類進行分類和評價。
支持向量機和 R語言的實現 本講將分析支持向量機的結構風險小原理、間隔和核函數,
從而幫助學員深刻理解支持向量機的思想和算法,以及使用中注意的問題,從而幫助學員靈活地應用于各個領域。
主要案例: 案例1:對著名的鳶尾花數據進行支持向量機的分析;
案例2:使用支持向量機識別有毒蘑菇;
案例3:使用支持向量機進行股票指數預測。
神經網絡和 R語言的實現 神經網絡由大量的節點和輸出函數構成邏輯策略,
本講介紹其原理,主要通過案例的方式講解R語言實現神經網絡算法的過程和注意的事項。
主要案例: 案例1:酒的品質和種類的神經網絡的分析和預測;
案例2:公司財務預警建模。 對于同一個數據,可能有很多模型來擬合,如何衡量和比較模型的精度呢?
本講將介紹交叉驗證訓練集和測試集的方法來幫助大家在實際中選取佳模型進行擬合和預測。
文本挖掘,特別是對中文的文本挖掘日趨重要。
本講介紹文本挖掘的原理和方法,幫助大家使用R語言在大量的非結構化的數據中發現有價值的信息,抽取潛在有用的數據,發現適合模式,實現可視化結果展示。
主要案例: 案例:使用R語言結合KNN算法對網頁(Web)進行文本挖掘(含分詞、分類、可視化等)。

主站蜘蛛池模板: 天天色天天综合| 天天色综合天天色| 狠狠色丁香婷婷综合久久来| 天天爽天天狠久久久综合麻豆| 欧美色综合久久久久久| 一本一道色欲综合网中文字幕| 国产成人精品综合久久久| 亚洲欧美伊人久久综合一区二区| 五月综合激情婷婷六月色窝| 91欧美一区二区三区综合在线| 精品亚洲综合在线第一区| 狠狠色伊人久久精品综合网| 伊人色综合九久久天天蜜桃| 91精品国产综合久久精品| 色综合久久天天综合| 天天干天天色综合| 99久久亚洲综合精品网站| 色天使亚洲综合在线观看| 日韩欧美综合| 狠狠色综合色综合网络| 亚洲国产综合无码一区二区二三区| 婷婷五月综合缴情在线视频| 99久久婷婷国产综合亚洲| 亚洲va欧美va国产综合| 久久本道综合久久伊人| 伊人久久大香线焦综合四虎| 91精品国产综合久久香蕉| 婷婷亚洲综合五月天小说| 狠狠综合久久综合88亚洲| 狠狠色狠狠色综合日日不卡| 亚洲精品二区国产综合野狼| 久久综合狠狠综合久久激情 | 久久精品桃花综合| 色青青草原桃花久久综合| 色综合.com| 亚洲欧美日韩综合网导航| 亚洲欧美综合在线天堂| 国产精品日韩欧美久久综合| 中文字幕亚洲综合小综合在线| 久久婷婷色综合一区二区| 亚洲综合成人网在线观看|