在過去的幾年里,強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning)在很多方面取得了突破。DeepMind公司將深度學(xué)習(xí)與增強(qiáng)學(xué)習(xí)結(jié)合在一起,在眾多的Atari游戲中來取得超越人類的表現(xiàn),基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)訓(xùn)練得到的AlphaGo Zero更是完全從零開始,僅通過自我對弈就能天下無敵。雖然RL目前在許多游戲環(huán)境中都表現(xiàn)很出色,但它對解決需要最優(yōu)決策和效率的問題而言是種全新方法,而且肯定會在機(jī)器智能中發(fā)揮作用。
? ?? ?
Gym是為測試和開發(fā)RL算法而設(shè)計(jì)的環(huán)境/任務(wù)的集合。它讓用戶不必再創(chuàng)建復(fù)雜的環(huán)境。Gym用Python編寫,它有很多的環(huán)境,比如機(jī)器人模擬或Atari 游戲。它還提供了一個(gè)在線排行榜,供人們比較結(jié)果和代碼。
第1部份 強(qiáng)化學(xué)習(xí)與常用的仿真環(huán)境平臺介紹(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2等)
第2部份 OpenAI gym中的常用仿真環(huán)境介紹,包括Atari 2600 游戲系列、MuJoCo 物理模擬器、Toy text 文本環(huán)境、Robotics機(jī)械手與機(jī)械臂模擬器等
第3部份 馬爾科夫決策過程MDP
第4部份 基于gym的MDP實(shí)例講解,基于OpenAI Gym構(gòu)建股票市場交易環(huán)境
第5部份 基于gym的強(qiáng)化學(xué)習(xí)實(shí)踐:基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn);基于策略梯度的強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)
第6部份 虛擬環(huán)境Universe: 一個(gè)用于訓(xùn)練解決通用問題 AI 的基礎(chǔ)架構(gòu)
第7部份 基于Universe的強(qiáng)化學(xué)習(xí)實(shí)踐:用OpenAI公司的Gym工具庫和Universe平臺為游戲創(chuàng)建人工智能機(jī)器人
|