第一部分:初識Stata與數據讀入
1)熟悉界面
2)尋求幫助(在線幫助、搜索幫助等)
3)DOS命令(cd、dir、erase、rm、shell等)
4)Winexec調用windows系統相關操作
5)copy命令(文件操作、網頁源代碼讀取等)
6)Stata常用30個命令介紹
7)日期定義(日期格式設置、日期函數等)
8)函數(字符串函數、隨機函數、編程函數等)
9)egen函數與常見統計量
10) txt、csv、excel等格式文件讀入
11)Wind交易數據整理案例
12)基金經理變更數據整理案例
第二部分:宏與循環
1)local與global概念與基本操作
2)宏擴展函數
3)while、foreach、forvalue循環
4)跳出循環的continue 和continue, break
5)批量處理多個目錄下的多個文件(fs命令)
6)批量處理多個變量的多個取值(levelsof命令)
7)NBER工作論文下載案例
8)上交所年報爬取綜合案例
9)CSMAR交易和財務數據整理案例
第三部分:數據庫操作
1)數據的縱向合并、橫向合并與長寬變換
2) 工企數據庫運用案例
3) Wind財務數據整理案例
4)美國流行歌曲目錄整理案例
5)起死回生命令(preserve與restore)
6) CSSCI期刊目錄整理案例
7) label命令介紹
8) labelsof、label 的宏擴展函數
9)字符串處理(關鍵詞、替換、提取等)
第四部分:Post命令
1)post原理
2)定義post
3)用post計算股價同步性和Beta
4)基于網絡數據的事件研究
5)股本變更數據整理案例
第五部分:回歸分析及結果輸出
1)putdocx命令輸出內容至word文檔
a)編輯docx文件中的文字內容
b)輸出并編輯表格內容
c)輸出內存中的list結果
d)輸出矩陣
e)輸出繪圖
2)putdocx命令相關案例
a)輸出十進位制下的漢字unicode編碼
b)結合常用漢字生成隨機漢字組成的段落
c)爬取并輸出陜西省人大代表信息
3)實證結果輸出
a)描述性統計信息:sum2docx
b)分組均值t檢驗:t2docx
c)相關系數矩陣:corr2docx
d)回歸結果:reg2docx
4)實證結果輸出完整展示
高級班課程大綱
第一部分:正則表達式
1)正則表達式基本函數介紹
a)ustrregexm()
b)ustrregexs()
c)ustrregexrf()與ustrregexra()
2)正則表達式元字符介紹
a)基本元字符
b)數量元字符
c)位置元字符
d)前后查找
e)特殊字符元字符
f)回溯引用
g)unicode編碼
3)正則表達式匹配模式
a)貪婪模式
b)懶惰模式
4)正則表達式例子
a)郵編提取
b)英文姓與名的拆分
c)CSSCI數據預處理
d)百度新聞數量
e)城市名稱提取
f)pdf表格數據的提取
g)英文姓名的拆分
h)用正則表達式提取日期
i)北大法寶裁判文書信息提取
5)正則表達式相關命令
a)moss命令與簡單的詞頻統計
b)subinfile命令對文本文檔進行操作
第二部分:網絡爬蟲
1)爬蟲初步
a)新浪高管任職數據抓取
b)NBER Working Paper信息的抓取
c)百度地圖api調用
2)尋找真實鏈接
a)和訊網港股數據
b)深交所信息披露質量
c)百度新聞逐年數據獲取
3)調用curl
a)新浪財經港股數據獲取
b)環保部AQI獲取
第三部分:文本分析
1)分詞原理
2)分詞的實現
a)ustrwordcount()和ustrword()
b)調用Python的jieba和pynlpir
c)Bosonnlp的API
d)詞頻統計
3)高亮輸出文章重點
4)詞云圖的實現
5)情感分析原理
6)情感分析的實現
a)年報MDA語調分析
b)構建詞庫計算情感值
c)大眾點評日料評論情感分析
第四部分:實證研究方法
1) 工具變量方法(IV)
a)工具變量方法介紹
b)現代IV方法:LATE
c)IV方法應用一般步驟:論文案例與Stata實操
2) 斷點回歸方法(RD)
a)RD方法思想和方法演進
b)精準斷點(Shape RD)與模糊斷點(Fuzzy RD)
c)RD方法應用一般步驟:論文案例與Stata實操
3) 倍差法(DID)
a)DID模型設定、參數估計和假設檢驗
b)DID方法與固定效應估計(FE):聯系和區別
c)IV方法應用一般步驟:論文案例與Stata實操
d)DDD(三重差分)方法介紹與應用
e)DDD論文案例與Stata實操 |