自然語言處理是機器學習當前最神秘,最紅火,最具難度,也最讓引人關注的分支。在搜索引擎,語音識別,情感分析,大批量文檔處理,機器翻譯,自動應答等各個領域有著前程無可限量的應用。可以試想一臺能理解自然語言,并且和人類能用語言純熟交流的機器,那還能叫機器么?文本挖掘(Text Mining)是數據挖掘以及自然語言處理技術衍生的一個分支,挖掘對象通常是非結構化的文本數據,常見的文本挖掘對象包括網頁所產生的BBS留言、博客、微博、新聞跟貼與轉貼等。此外,擁有大型呼叫中心或郵件系統的企業,call center或mail積攢下來的大量語言記錄也可以通過文本挖掘獲得眾多具有商業價值的知識。我們用計算機去處理文字,語音,理解語言,這些本來是高等生物人類才能做的事情,使到系統能產生“機器也具有人類同樣的智慧”的震驚效果,無需置疑肯定會給顧客和觀眾留下極其深刻的印象。
第1節 自然語言處理與文本挖掘概述。強大的系統后面都有一個強大的語料庫。形式語言,機器詩人是怎樣煉成的?
第2節 自動機及其應用,文稿自動校正,歧義消除
第3節 語言模型,平滑方法。應用案例:語音識別,分詞消岐
第4節 概率圖模型,生成式模型與判別式模型,貝葉斯網,馬爾科夫鏈,隱馬爾科夫模型HMM,應用案例:語音識別與分詞
第5節 馬爾科夫網,最大熵模型,條件隨機場CRF,實現HMM和CRF的軟件。應用案例:使用最大熵消除歧義,使用CRF進行標注
第6節 漢語分詞專題。世界上最難的語言名不虛傳
第7節 命名實體識別,詞性標注,從文本里挖出最重要的內容
第8節 句法分析,找出句子的重點
第9節 語義分析與篇章分析,讓機器象語言學家那樣思考
第10節 文本分類,情感分析。應用案例:互聯網自動門戶,評論傾向性分析
第11節 信息檢索系統,搜索引擎原理,問答系統,應用案例:客服機器人是怎么造出來的?
第12節 文本深度挖掘:自動文摘與信息抽取
第13節 機器翻譯與語音識別技術介紹。IBM Watson系統的認知智慧。 |