
強化學(xué)習(xí)基礎(chǔ)算法培訓(xùn)
強化學(xué)習(xí)(英語:Reinforcement learning)是非常前沿的學(xué)科,
它可能是實現(xiàn)強(類)人工智能的手段之一。
了解并掌握基礎(chǔ)的強化學(xué)習(xí)方法,
將使得你對人工智能的概念進一步深化。
1 強化學(xué)習(xí)概念
2 Sarsa 強化學(xué)習(xí)算法
3 OpenAI Gym 應(yīng)用
4 Q-Learning 強化學(xué)習(xí)算法
5 策略梯度算法
1
強化學(xué)習(xí)介紹與示例
1.強化學(xué)習(xí)介紹
2.強化學(xué)習(xí)算法分類
3.強化學(xué)習(xí)應(yīng)用
4.課外內(nèi)容推薦
2
Q-Learning 強化學(xué)習(xí)方法實現(xiàn)
1.QTable的概念
2.QLearning算法實現(xiàn)
3.Sarsa學(xué)習(xí)算法
4.Sarsa和QLearning區(qū)別
挑戰(zhàn) 1
實現(xiàn) Sarsa 學(xué)習(xí)算法走出迷宮
1.QTable初始化
2.QTable更新函數(shù)
3.Sarsa完整算法實現(xiàn)
3
OpenAI Gym 環(huán)境介紹及使用
1.Gym環(huán)境安裝
2.Gym環(huán)境使用
3.Gym環(huán)境示例
2
Gym 玩 Atari 打磚塊游戲
1.OpenAIGym使用
2.打磚塊游戲可視化
4
策略梯度強化學(xué)習(xí)方法實現(xiàn)
1.策略梯度過程推導(dǎo)
2.策略梯度定理
3.蒙特卡洛策略梯度算法
4.ActorCritic策略梯度算法
5.策略梯度算法實現(xiàn)
3
使用策略梯度訓(xùn)練 CartPole
1.策略梯度
2.策略梯度定理
3.MonteCarlo策略梯度算法
4.ActorCritic策略梯度
