在過去的幾年里,強化學(xué)習(xí)(RL,Reinforcement Learning)在很多方面取得了突破。DeepMind公司將深度學(xué)習(xí)與增強學(xué)習(xí)結(jié)合在一起,在眾多的Atari游戲中來取得超越人類的表現(xiàn),基于深度學(xué)習(xí)和強化學(xué)習(xí)訓(xùn)練得到的AlphaGo Zero更是完全從零開始,僅通過自我對弈就能天下無敵。雖然RL目前在許多游戲環(huán)境中都表現(xiàn)很出色,但它對解決需要最優(yōu)決策和效率的問題而言是種全新方法,而且肯定會在機器智能中發(fā)揮作用。
? ?? ?
Gym是為測試和開發(fā)RL算法而設(shè)計的環(huán)境/任務(wù)的集合。它讓用戶不必再創(chuàng)建復(fù)雜的環(huán)境。Gym用Python編寫,它有很多的環(huán)境,比如機器人模擬或Atari 游戲。它還提供了一個在線排行榜,供人們比較結(jié)果和代碼。
第1部份 強化學(xué)習(xí)與常用的仿真環(huán)境平臺介紹(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2等)
第2部份 OpenAI gym中的常用仿真環(huán)境介紹,包括Atari 2600 游戲系列、MuJoCo 物理模擬器、Toy text 文本環(huán)境、Robotics機械手與機械臂模擬器等
第3部份 馬爾科夫決策過程MDP
第4部份 基于gym的MDP實例講解,基于OpenAI Gym構(gòu)建股票市場交易環(huán)境
第5部份 基于gym的強化學(xué)習(xí)實踐:基于值函數(shù)的強化學(xué)習(xí)方法實現(xiàn);基于策略梯度的強化學(xué)習(xí)方法實現(xiàn)
第6部份 虛擬環(huán)境Universe: 一個用于訓(xùn)練解決通用問題 AI 的基礎(chǔ)架構(gòu)
第7部份 基于Universe的強化學(xué)習(xí)實踐:用OpenAI公司的Gym工具庫和Universe平臺為游戲創(chuàng)建人工智能機器人
|