
用Python進行深度強化學習培訓
介紹
強化學習基礎
強化學習基本技術
BURLAP簡介
值迭代和策略迭代的收斂
獎賞塑形(Reward Shaping)
探索(Exploration)
泛化(Generalization)
部分可觀察的馬爾可夫決策過程(POMDP)
選擇(Options)
Logistics
TD Lambda
策略梯度(Policy Gradient)
深度Q學習
博弈論(Game Theory)專題