文本挖掘(TM),又稱自然語言處理(NLP),是AI時代炙手可熱的數(shù)據(jù)分析挖掘前沿領(lǐng)域,其所涉及的人機(jī)對話系統(tǒng),推薦算法,文本分類等技術(shù)在BAT等企業(yè)中都得到廣泛應(yīng)用。
本課程將使用經(jīng)典武俠小說、大眾點(diǎn)評抓取結(jié)果、微博語料數(shù)據(jù)等多個實(shí)際案例進(jìn)行教學(xué)。
本次課程將會從最基礎(chǔ)的分詞、詞袋模型、分布式表示等概念開始,全面介紹文本挖掘技術(shù)的各個方面,特別會針對目前最熱的word2vec,gensim 等結(jié)合實(shí)際案例進(jìn)行學(xué)習(xí),幫助學(xué)員從零基礎(chǔ)直接升級至業(yè)界的最新技術(shù)前沿。
學(xué)習(xí)完本課程后,學(xué)員將能夠獨(dú)立使用Python環(huán)境完成中文文本挖掘的各種工作。
【學(xué)員基礎(chǔ)】
學(xué)員需要懂得Python語言的基本編程知識。
【課程大綱】
第1章:文本挖掘概述
第2章:磨刀不誤砍柴工
第3章:分詞
第4章:詞云展示
第5章:文檔信息的向量化
第6章:關(guān)鍵詞提取
第7章:抽取文本主題
第8章:文本相似度
第9章:文檔分類
第10章:情感分析
第10章:自動摘要
第11章:自動寫作