Chapter 1. RL Basis
1.RL Introduction
2.Multi-armed Bandits
3.Finite Markov Decision Processes
4.Dynamic Programming
5.Monte Carlo Methods
6.Temporal-Di?erence Learning
7.n-step Bootstrapping
8.Planning and Learning with Tabular Methods
Chapter 2. Approximate and Deep RL
9.On-policy Prediction with Approximation
10.On-policy Control with Approximation
11.O?-policy Methods with Approximation
12.Eligibility Traces
13.Policy Gradient Methods
Chapter 3. Deeper Research
14.Psychology
15.Neuroscience
16.Applications and Case Studies
Chapter 4. Other RL and Projects
17.Frontiers
18.Project: RL Game Agent
19.Project: Robot Agent
第1章: RL Basis
1 : 強(qiáng)化學(xué)習(xí)介紹
任務(wù)1: text_book.pdf
2 : 井子棋游戲?qū)嶒?yàn)
3 : 值函數(shù)與多臂賭徒
4 : 多臂賭徒實(shí)驗(yàn)
5 : 有限馬爾可夫決策過(guò)程
6 : 格子游戲?qū)嶒?yàn)
7 : 動(dòng)態(tài)規(guī)劃
8 : 動(dòng)態(tài)規(guī)劃實(shí)驗(yàn)
9 : 蒙特卡羅方法
10 : 黑杰克(21點(diǎn))游戲?qū)嶒?yàn)
11 : 時(shí)間差分方法
12 : 攀登者游戲?qū)嶒?yàn)
13 : 多時(shí)間步差分學(xué)習(xí)方法
14 : 隨機(jī)行走環(huán)境編寫(xiě)與出租車(chē)項(xiàng)目挑戰(zhàn)
15 : 基于格子方法的規(guī)劃與學(xué)習(xí)
16 : 靜態(tài)與動(dòng)態(tài)迷宮實(shí)驗(yàn)
第2章: Approximate and Deep RL
17 : 近似在線策略計(jì)算
18 : Pytorch 實(shí)驗(yàn)
19 : 值近似在線策略控制
20 : Gym 基礎(chǔ)實(shí)驗(yàn)
21 : 并行策略的值估計(jì)
22 : DQN論文詳解
23 : 實(shí)戰(zhàn)太空侵略者
24 : 實(shí)戰(zhàn)DOOM
25 : 對(duì)決DQN網(wǎng)絡(luò)
26 : 帶優(yōu)先級(jí)的記憶回放技術(shù)
27 : DQN FLappy Bird
28 : Double DQN
29 : 對(duì)決網(wǎng)絡(luò)勇闖死亡回廊 |