文本挖掘(TM),又稱自然語言處理(NLP),是AI時代炙手可熱的數據分析挖掘前沿領域,其所涉及的人機對話系統,推薦算法,文本分類等技術在BAT等企業中都得到廣泛應用。
本課程將使用經典武俠小說、大眾點評抓取結果、微博語料數據等多個實際案例進行教學。
本次課程將會從最基礎的分詞、詞袋模型、分布式表示等概念開始,全面介紹文本挖掘技術的各個方面,特別會針對目前最熱的word2vec,gensim 等結合實際案例進行學習,幫助學員從零基礎直接升級至業界的最新技術前沿。
學習完本課程后,學員將能夠獨立使用Python環境完成中文文本挖掘的各種工作。
【學員基礎】
學員需要懂得Python語言的基本編程知識。
【課程大綱】
第1章:文本挖掘概述
第2章:磨刀不誤砍柴工
第3章:分詞
第4章:詞云展示
第5章:文檔信息的向量化
第6章:關鍵詞提取
第7章:抽取文本主題
第8章:文本相似度
第9章:文檔分類
第10章:情感分析
第10章:自動摘要
第11章:自動寫作