
Python爬蟲及文本分析學(xué)術(shù)應(yīng)用培訓(xùn)
Python爬蟲及文本分析學(xué)術(shù)應(yīng)用
爬蟲與文本分析概述
結(jié)構(gòu)化數(shù)據(jù)/文本數(shù)據(jù)的獲取方法概述
高效的編程語言實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)處理與文本分析的價值,文本分析簡介
python編程基礎(chǔ)
標(biāo)準(zhǔn)數(shù)據(jù)類型
控制流
自定義函數(shù)
類
os文件處理模塊
python重要數(shù)據(jù)科學(xué)計算庫
Numpy
Pandas
Matplotlib
Pyecherts
wordcloud
爬蟲基礎(chǔ)
網(wǎng)絡(luò)爬蟲簡介
爬蟲的基本原理
HTML 簡介
數(shù)據(jù)存儲
網(wǎng)頁抓取
使用Urllib網(wǎng)頁抓取
requests實戰(zhàn)
BeautifulSoup4
BeautifulSoup 簡介
BeautifulSoup 的安裝
BS 對象的種類
遍歷文檔樹
搜索文檔樹
Xpath
什么是Xpath
Xpath開發(fā)工具
Xpath常用規(guī)則
動態(tài)渲染頁面抓取
Selenium 的安裝
基本使用
聲明瀏覽器對象
訪問頁面
定位元素
節(jié)點交互
動作鏈
執(zhí)行 JavaScript
獲取節(jié)點信息
延時等待
前進后退
Cookies
選項卡管理
異常處理
爬蟲實戰(zhàn)
網(wǎng)站的爬取
電商評價文本爬取
可供讀取數(shù)據(jù)類型介紹
excel、pdf、txt、html、mysql數(shù)據(jù)庫文件介紹
數(shù)據(jù)的存儲
將數(shù)據(jù)存儲到excel表
將數(shù)據(jù)存儲到txt文本
將數(shù)據(jù)存儲到csv
數(shù)據(jù)的讀取
python批量讀取多個多子表excel
python讀取txt文件
python讀取csv
正則表達式
什么是正則表達式
正則表達式匹配規(guī)則
re模塊的使用
文本處理常用字符串方法精講
字符串的不變性
排序行
段落格式化
二進制轉(zhuǎn)化為ASCII
重復(fù)字詞過濾
提取郵件地址
提取URL地址
大寫轉(zhuǎn)換
符號化
刪除停用詞
同義詞與反義詞處理
文本翻譯
單詞替換
拼寫檢查
WordNet接口
語料訪問
標(biāo)記單詞
塊和裂口
塊分類
文本分類
雙字母組
文字改寫
文字換行
頻率分布
文字摘要
詞干算法
約束搜索
numpy數(shù)值計算要點串講
Pandas數(shù)據(jù)處理串講
python統(tǒng)計圖表展示
重要的庫
jieba庫簡介
關(guān)鍵詞提取
關(guān)鍵詞任務(wù)概述
TF-IDF算法原理
相似文章推薦原理介紹
實例:紅樓夢文本分析的實現(xiàn)
文件與詞庫的讀取
完成分詞與詞云圖的繪制
文本分類
新聞素材介紹
新聞內(nèi)容的關(guān)鍵詞提取
詞向量轉(zhuǎn)化與ngram模型
樸素貝葉斯算法完成新聞分類
文本聚類
語料的加載,文本特征的提取,利用聚類算法對文本進行聚類
主題模型,情感分析