自然語言處理是機器學習當前最神秘,最紅火,最具難度,也最讓引人關注的分支。在搜索引擎,語音識別,情感分析,大批量文檔處理,機器翻譯,自動應答等各個領域有著前程無可限量的應用。可以試想一臺能理解自然語言,并且和人類能用語言純熟交流的機器,那還能叫機器么?文本挖掘(Text Mining)是數據挖掘以及自然語言處理技術衍生的一個分支,挖掘對象通常是非結構化的文本數據,常見的文本挖掘對象包括網頁所產生的BBS留言、博客、微博、新聞跟貼與轉貼等。此外,擁有大型呼叫中心或郵件系統的企業,call center或mail積攢下來的大量語言記錄也可以通過文本挖掘獲得眾多具有商業價值的知識。我們用計算機去處理文字,語音,理解語言,這些本來是高等生物人類才能做的事情,使到系統能產生“機器也具有人類同樣的智慧”的震驚效果,無需置疑肯定會給顧客和觀眾留下極其深刻的印象。
Python作為一門主流的編程語言,在自然語言的處理中也是有非常多的應用。那么就讓我們一起來學習怎么使用Python進行自然語言處理吧!? ???
第一部份:自然語言分析利器——Python入門
第二部份:自然語言分析工具包——NLTK入門。編程實戰:NLTK包的安裝與常用方法介紹
第三部份:語料庫的獲取與詞頻分析。編程實戰:詞條頻率分布圖的繪制
第四部份:原始文本資料的讀取與處理。編程實戰:使用正則表達式實現英文分詞
第五部份:中文分詞的算法與實現。編程實戰:結巴分詞器的使用
第六部份:詞條分類與詞條屬性。編程實戰:中英文詞性標注
第七部份:文本挖掘之文本分類器。編程實戰:新聞類別分類
第八部份:文本挖掘之文本聚類。編程實戰:百度詞條聚類分析
第九部份:文本信息提取。編程實戰:結構化數據提取系統
第十部份:句子語法分析。編程實戰:自動語法樹構建系統
第十一部份:讓計算機讀懂我們——文本語義分析實現。編程實現:智能問答系統
第十二部份:語言數據管理。編程實踐:語料庫的設計與創建 |