強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)決策智能的主要途徑之一。經(jīng)歷數(shù)十年的發(fā)展,強(qiáng)化學(xué)習(xí)領(lǐng)域已經(jīng)枝繁葉茂,技術(shù)內(nèi)容紛繁復(fù)雜,這也為初學(xué)者快速入門造成障礙。 本書是一本深度強(qiáng)化學(xué)習(xí)領(lǐng)域的入門讀物。全書分為四部分。第一部分主要闡述強(qiáng)化學(xué)習(xí)領(lǐng)域的基本理論知識(shí);第二部分講解深度強(qiáng)化學(xué)習(xí)常用算法的原理、各算法之間的繼承與發(fā)展,以及各自的算法流程;第三部分總結(jié)深度強(qiáng)化學(xué)習(xí)算法在游戲、推薦系統(tǒng)等領(lǐng)域的應(yīng)用;第四部分探討了該領(lǐng)域存在的問題和發(fā)展前景。 本書適合對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀。
陳世勇騰訊游戲AI研究中心高級(jí)算法研究員。畢業(yè)于南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所,主要從事強(qiáng)化學(xué)習(xí)、分布式機(jī)器學(xué)習(xí)方面的研究工作,并在國際頂級(jí)會(huì)議和期刊上發(fā)表多篇論文。對(duì)于大規(guī)模強(qiáng)化學(xué)習(xí)在游戲AI和推薦系統(tǒng)領(lǐng)域的研究和落地有著豐富經(jīng)驗(yàn),負(fù)責(zé)了多款游戲的強(qiáng)化學(xué)習(xí)AI項(xiàng)目和“淘寶錦囊”強(qiáng)化學(xué)習(xí)推薦項(xiàng)目研發(fā),參與了虛擬淘寶項(xiàng)目研發(fā)。蘇博覽新加坡國立大學(xué)博士,曾任職于騰訊游戲AI研究中心,參與了QQ飛車和斗地主游戲AI的研發(fā),在國際頂級(jí)會(huì)議和期刊發(fā)表論文數(shù)十篇,在機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)上有豐富的科研和落地應(yīng)用經(jīng)驗(yàn)。楊敬文騰訊游戲AI研究中心高級(jí)算法研究員。畢業(yè)于南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所,獲南京大學(xué)“優(yōu)秀畢業(yè)生”稱號(hào)、南京大學(xué)計(jì)算機(jī)優(yōu)秀碩士畢業(yè)論文獎(jiǎng)。曾獲全國大學(xué)生大數(shù)據(jù)競(jìng)賽第一名,在國際頂會(huì)發(fā)表多篇論文和技術(shù)文章。長期從事強(qiáng)化學(xué)習(xí)在游戲領(lǐng)域的研究與應(yīng)用,是競(jìng)速類、格斗類、射擊類、多人在線戰(zhàn)術(shù)競(jìng)技類等強(qiáng)化學(xué)習(xí)AI項(xiàng)目的主要負(fù)責(zé)人之一,具有豐厚的強(qiáng)化學(xué)習(xí)研究和落地的經(jīng)驗(yàn)。
第I 部分基礎(chǔ)理論篇 1
第1 章馬爾可夫決策過程 3
1.1 馬爾可夫性 3
1.2 一些基本定義 4
1.3 值函數(shù) 5
1.4 基于策略的值函數(shù) 5
1.5 貝爾曼方程 6
1.6 策略迭代與值迭代 7
第2 章無模型的強(qiáng)化學(xué)習(xí) 9
2.1 蒙特卡洛方法 10
2.1.1 蒙特卡洛方法預(yù)測(cè)狀態(tài)V 值 10
2.1.2 蒙特卡洛方法預(yù)測(cè)Q 值 11
2.1.3 蒙特卡洛策略優(yōu)化算法 11
2.1.4 探索和利用 12
2.1.5 異策略蒙特卡洛方法 13
2.2 時(shí)間差分方法 16
2.2.1 基本思想 16
2.2.2 Sarsa 算法 17
2.2.3 Q-Learning 算法 20
2.3 值函數(shù)估計(jì)和策略搜索 23
深度強(qiáng)化學(xué)習(xí)核心算法與應(yīng)用
2.3.1 值函數(shù)估計(jì) 23
2.3.2 策略搜索 24
第3 章有模型的強(qiáng)化學(xué)習(xí) 27
3.1 什么是模型 27
3.2 基本思路 28
3.3 有模型方法和無模型方法的區(qū)別 29
3.4 典型算法 31
第II 部分常用算法篇 33
第4 章DQN 算法 35
4.1 算法介紹 35
4.1.1 背景 36
4.1.2 核心技術(shù) 37
4.1.3 算法流程 39
4.2 相關(guān)改進(jìn) 40
4.2.1 Double Q-Learning 40
4.2.2 優(yōu)先級(jí)回放 41
4.2.3 Dueling Networks 41
4.3 實(shí)驗(yàn)效果與小結(jié) 43
第5 章A3C 算法 45
5.1 Actor-Critic 方法 45
5.2 基線減法與優(yōu)勢(shì)函數(shù) 47
5.3 博采眾長的A3C 算法 48
5.4 實(shí)驗(yàn)效果與小結(jié) 50
第6 章確定性策略梯度方法 53
6.1 隨機(jī)性策略梯度與確定性策略梯度 53
iv
目錄
6.2 異策略的確定性策略梯度 54
6.3 深度確定性策略梯度 56
6.4 D4PG 算法 57
6.4.1 分布式 57
6.4.2 值函數(shù)分布 58
6.4.3 N-step TD 誤差和優(yōu)先級(jí)的經(jīng)驗(yàn)回放 59
6.5 實(shí)驗(yàn)效果與小結(jié) 59
第7 章PPO 算法 61
7.1 PPO 算法的核心 61
7.2 TRPO 算法 62
7.3 PPO 算法 65
7.4 實(shí)驗(yàn)效果與小結(jié) 67
7.4.1 替代函數(shù)的對(duì)比 67
7.4.2 在連續(xù)空間中與其他算法的對(duì)比 68
7.4.3 小結(jié) 69
第8 章IMPALA 算法 71
8.1 算法架構(gòu) 71
8.2 V-trace 算法 73
8.3 V-trace Actor-Critic 算法 75
8.4 實(shí)驗(yàn)效果與小結(jié) 76
8.4.1 計(jì)算性能 76
8.4.2 單任務(wù)訓(xùn)練性能 76
8.4.3 多任務(wù)訓(xùn)練性能 78
8.4.4 小結(jié) 79
v
深度強(qiáng)化學(xué)習(xí)核心算法與應(yīng)用
第III 部分應(yīng)用實(shí)踐篇 81
第9 章深度強(qiáng)化學(xué)習(xí)在棋牌游戲中的應(yīng)用 83
9.1 棋盤類游戲 84
9.1.1 AlphaGo: 戰(zhàn)勝人類圍棋冠軍 84
9.1.2 AlphaGo Zero: 不使用人類數(shù)據(jù),從頭學(xué)習(xí) 87
9.1.3 AlphaZero: 從圍棋到更多 90
9.2 牌類游戲 93
9.2.1 Suphx 的五個(gè)模型 93
9.2.2 Suphx 的訓(xùn)練過程和算法優(yōu)化 94
9.2.3 Suphx 的線上實(shí)戰(zhàn)表現(xiàn) 94
第10 章深度強(qiáng)化學(xué)習(xí)在電子游戲中的應(yīng)用 97
10.1 研發(fā)游戲中的機(jī)器人 97
10.1.1 單機(jī)游戲 97
10.1.2 對(duì)戰(zhàn)游戲 99
10.1.3 小結(jié) 104
10.2 制作游戲動(dòng)畫 105
10.3 其他應(yīng)用 106
第11 章深度強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用 109
11.1 適用的場(chǎng)景 110
11.1.1 動(dòng)態(tài)變化 110
11.1.2 考慮長期利益 110
11.2 淘寶錦囊推薦中的應(yīng)用 111
11.2.1 淘寶錦囊推薦介紹 111
11.2.2 問題建模與推薦框架 112
11.2.3 算法設(shè)計(jì)與實(shí)驗(yàn) 114
vi
目錄
第12 章深度強(qiáng)化學(xué)習(xí)在其他領(lǐng)域中的應(yīng)用 119
12.1 在無人駕駛中的應(yīng)用 119
12.2 在金融交易中的應(yīng)用 121
12.3 在信息安全中的應(yīng)用 122
12.4 在自動(dòng)調(diào)參中的應(yīng)用 123
12.5 在交通控制中的應(yīng)用 124
第IV 部分總結(jié)與展望篇 127
第13 章問題與挑戰(zhàn) 129
13.1 樣本利用率低 129
13.2 獎(jiǎng)勵(lì)函數(shù)難以設(shè)計(jì) 131
13.3 實(shí)驗(yàn)效果難復(fù)現(xiàn) 132
13.4 行為不完全可控 134
第14 章深度強(qiáng)化學(xué)習(xí)往何處去 135
14.1 未來發(fā)展和研究方向 136
14.1.1 有模型的方法潛力巨大 136
14.1.2 模仿學(xué)習(xí) 137
14.1.3 遷移學(xué)習(xí)的引入 138
14.1.4 分層強(qiáng)化學(xué)習(xí) 140
14.2 審慎樂觀,大有可為 141
參考資料 143