第1章 導(dǎo)論·· · · · 1
1.1 強(qiáng)化學(xué)習(xí)·· · · · 1
1.2 示例·· · · · 4
1.3 強(qiáng)化學(xué)習(xí)要素·· · · · 5
1.4 局限性與適用范圍·· · · · 7
1.5 擴(kuò)展實(shí)例:井字棋 · ··· · · ·· 8
1.6 本章小結(jié)·· · · · 12
1.7 強(qiáng)化學(xué)習(xí)的早期歷史·· · · · 13
第I部分 表格型求解方法·· · · · 23
第2章 多臂賭博機(jī)·· · · · 25
2.1 一個(gè) k 臂賭博機(jī)問(wèn)題·· · · · 25
2.2 動(dòng)作-價(jià)值方法·· · · · · 27
2.3 10 臂測(cè)試平臺(tái)·· · · · 28
2.4 增量式實(shí)現(xiàn)·· · · · 30
2.5 跟蹤一個(gè)非平穩(wěn)問(wèn)題··· · · · 32
2.6 樂(lè)觀初始值·· · · · 34
2.7 基于置信度上界的動(dòng)作選擇 ··· · · · 35
2.8 梯度賭博機(jī)算法·· · · · 37
2.9 關(guān)聯(lián)搜索 (上下文相關(guān)的賭博機(jī)) ·· · · · · 40
2.10 本章小結(jié)·· · · · 41
第3章 有限馬爾可夫決策過(guò)程·· 45
3.1 智能體-環(huán)境交互接口 ·· · · · 45
3.2 目標(biāo)和收益 ·· · · · · · · · · · 51
3.3 回報(bào)和分幕· · · · · · 52
3.4 分幕式和持續(xù)性任務(wù)的統(tǒng)一表示法 ·· ·· 54
3.5 策略和價(jià)值函數(shù) ·· · · · · 55
3.6 最優(yōu)策略和最優(yōu)價(jià)值函數(shù) · ·· · 60
3.7 最優(yōu)性和近似算法 · · · · ·· · · · · · · · 65
3.8 本章小結(jié)· · ·· · 66
第4章 動(dòng)態(tài)規(guī)劃 · ·· · 71
4.1 策略評(píng)估 (預(yù)測(cè)) · ·· · · 72
4.2 策略改進(jìn)· ·· · 75
4.3 策略迭代· ·· · 78
4.4 價(jià)值迭代· ·· · 80
4.5 異步動(dòng)態(tài)規(guī)劃 ·· · 83
4.6 廣義策略迭代 ·· 84
4.7 動(dòng)態(tài)規(guī)劃的效率· · · · 85
4.8 本章小結(jié)·· · · 86
第5章 蒙特卡洛方法 ·· · 89
5.1 蒙特卡洛預(yù)測(cè) · · · 90
5.2 動(dòng)作價(jià)值的蒙特卡洛估計(jì) ·· · · · · · · 94
5.3 蒙特卡洛控制 · ·· · · · 95
5.4 沒(méi)有試探性出發(fā)假設(shè)的蒙特卡洛控制 · ·· · · · · · 98
5.5 基于重要度采樣的離軌策略 · ·· · · · · · 101
5.6 增量式實(shí)現(xiàn) · ·· 107
5.7 離軌策略蒙特卡洛控制 · ·· · · ··· · · · · 108
5.8 ∗ 折扣敏感的重要度采樣·· · · · · ·110
5.9 ∗ 每次決策型重要度采樣·· · · · · 112
5.10 本章小結(jié)·· · · · · 113
第 6 章 時(shí)序差分學(xué)習(xí) · ·· · · 117
6.1 時(shí)序差分預(yù)測(cè) ·· 117
6.2 時(shí)序差分預(yù)測(cè)方法的優(yōu)勢(shì) · ·· · · 122
6.3 TD(0) 的最優(yōu)性 ·· · · · · · · · · · · 124
6.4 Sarsa:同軌策略下的時(shí)序差分控制 · · · ·· · 127
6.5 Q 學(xué)習(xí):離軌策略下的時(shí)序差分控制 · ·· · · 129
6.6 期望 Sarsa · ·· · 131
6.7 最大化偏差與雙學(xué)習(xí)· · · ·· · · · 133
6.8 游戲、后位狀態(tài)和其他特殊例子· ·· · 135
6.9 本章小結(jié)· ·· · 136
第7章 n 步自舉法 ·· · · 139
7.1 n 步時(shí)序差分預(yù)測(cè) ·· · · · · · · · 140
7.2 n 步 Sarsa · ·· · · 144
7.3 n 步離軌策略學(xué)習(xí) · · · · · · · ·146
7.4 ∗ 帶控制變量的每次決策型方法· ·· · ·148
7.5 不需要使用重要度采樣的離軌策略學(xué)習(xí)方法:n 步樹(shù)回溯算法· ·· · ·150
7.6 ∗ 一個(gè)統(tǒng)一的算法:n 步 Q() · ·· · ·153
7.7 本章小結(jié)·· ·· · ·155
第8章 基于表格型方法的規(guī)劃和學(xué)習(xí) ·· · ·· · 157
8.1 模型和規(guī)劃 · ·· · 157
8.2 Dyna:集成在一起的規(guī)劃、動(dòng)作和學(xué)習(xí)·· · · · · 159
8.3 當(dāng)模型錯(cuò)誤的時(shí)候 ·· ·· · · · 164
8.4 優(yōu)先遍歷· · ·· · · 166
8.5 期望更新與采樣更新的對(duì)比 ·· · ·· 170
8.6 軌跡采樣·· · · 173
8.7 實(shí)時(shí)動(dòng)態(tài)規(guī)劃 ·· · 176
8.8 決策時(shí)規(guī)劃 ·· · 179
8.9 啟發(fā)式搜索 · ·· · · 180
8.10 預(yù)演算法· · · · 182
8.11 蒙特卡洛樹(shù)搜索· · · · · · · · 184
8.12 本章小結(jié) · ·· · · 187
8.13 第I部分總結(jié) ·· · · · · · · 188
第II部分 表格型近似求解方法· ·· · · · · · · · 193
第9章 基于函數(shù)逼近的同軌策略預(yù)測(cè) ·· · · · · · · · 195
9.1 價(jià)值函數(shù)逼近 · · ·· · 195
9.2 預(yù)測(cè)目標(biāo) (VE ) ·· · · · · · · 196
9.3 隨機(jī)梯度和半梯度方法 · ·· · · 198
9.4 線性方法· · · · · ·· · · · 202
9.5 線性方法的特征構(gòu)造· ·· · · · · · · · 207
9.5.1 多項(xiàng)式基 · ·· · · · 208
9.5.2 傅立葉基 · · ·· · · · 209
9.5.3 粗編碼· · · · · · ·· · · 212
9.5.4 瓦片編碼· · ·· ·214
9.5.5 徑向基函數(shù) ·· · · · · · · · 218
9.6 手動(dòng)選擇步長(zhǎng)參數(shù) · · · ·· · · · · 219
9.7 非線性函數(shù)逼近:人工神經(jīng)網(wǎng)絡(luò)· · · ·· · · 220
9.8 最小二乘時(shí)序差分 · · · ·· · · · 225
9.9 基于記憶的函數(shù)逼近· · · · ·· · 227
9.10 基于核函數(shù)的函數(shù)逼近 · · · ·· · 229
9.11 深入了解同軌策略學(xué)習(xí):興趣與強(qiáng)調(diào) · · ·· · · 230
9.12 本章小結(jié) · · ·· · · · 232
第10章 基于函數(shù)逼近的同軌策略控制· ·· · · · · · 239
10.1 分幕式半梯度控制 · · ·· 239
10.2 半梯度 n 步 Sarsa· ·· · · · · · · · 242
10.3 平均收益:持續(xù)性任務(wù)中的新的問(wèn)題設(shè)定· · ·· · 245
10.4 棄用折扣 · · · ·· · · · · 249
10.5 差分半梯度 n 步 Sarsa
· · · ·· 251
10.6 本章小結(jié) · ·· · · · · · 252
第11 章 ∗ 基于函數(shù)逼近的離軌策略方法· · · ·· 253
11.1 半梯度方法· · · ·· 254
11.2 離軌策略發(fā)散的例子· · · ·· 256
11.3 致命三要素· · · ·· 260
11.4 線性價(jià)值函數(shù)的幾何性質(zhì) · · · · · · · ·· · 262
11.5 對(duì)貝爾曼誤差做梯度下降 · · · · · · ·· · 266
11.6 貝爾曼誤差是不可學(xué)習(xí)的 · · · · · · · · · 270
11.7 梯度 TD 方法 · · · ·· · · · · · 274
11.8 強(qiáng)調(diào) TD 方法 · ··· 278
11.9 減小方差 · · ·· · · · · · · 279
11.10 本章小結(jié) · · · · ·· · · · · · 280
第12章 資格跡 · · · · ·· · · · 283
12.1 λ-回報(bào)· · · · ·· · · · · 284
12.2 TD(λ)· · · ·· · 287
12.3 n-步截?cái)?λ- 回報(bào)方法 · · ·291
12.4 重做更新:在線 λ-回報(bào)算法· · · · ·· · 292
12.5 真實(shí)的在線 TD(λ) · · · · ·· · 294
12.6 ∗ 蒙特卡洛學(xué)習(xí)中的荷蘭跡· · · · ·· · 296
12.7 Sarsa(λ)·· · · · ·· ·· 298
12.8 變量 λ 和 · · · · ·· · 303
12.9 帶有控制變量的離軌策略資格跡 · ·· · · · · · 304
12.10 從 Watkins 的 Q(λ) 到樹(shù)回溯 TB(λ)· · · · ·· · · 308
12.11 采用資格跡保障離軌策略方法的穩(wěn)定性 · · ·· · 310
12.12 實(shí)現(xiàn)中的問(wèn)題 · · · ·· · · · · · · · · · · 312
12.13 本章小結(jié) · ·· · · · · · · · · · · · · · 312
第13章 策略梯度方法· · ·· · 317
13.1 策略近似及其優(yōu)勢(shì) · · · · ··· · 318
13.2 策略梯度定理 ·· ·· 320
13.3 REINFORCE:蒙特卡洛策略梯度 · · · ·· · · 322
13.4 帶有基線的 REINFORCE · · ·· · · · 325
13.5 行動(dòng)器-評(píng)判器方法 · · · · ·· · · 327
13.6 持續(xù)性問(wèn)題的策略梯度 · · · ··· · · 329
13.7 針對(duì)連續(xù)動(dòng)作的策略參數(shù)化方法 · · ··· · 332
13.8 本章小結(jié) · · · · ·· ·· · · 333
第III部分 表格型深入研究 · · · ·· ·· · 337
第14章 心理學(xué) · ·· · · · · · · · 339
14.1 預(yù)測(cè)與控制 · ·· · · · · · · · · · · 340
14.2 經(jīng)典條件反射 · · · ·· · · · · · 341
14.2.1 阻塞與高級(jí)條件反射· · · · ·· · · 342
14.2.2 Rescorla-Wagner 模型· · · · ·· · 344
14.2.3 TD 模型 · · ·· · 347
14.2.4 TD 模型模擬 · · · ·· · · · · ·
348
14.3 工具性條件反射· ·· · · · · 355
14.4 延遲強(qiáng)化 ·· · · 359
14.5 認(rèn)知圖 · · · ·· · 361
14.6 習(xí)慣行為與目標(biāo)導(dǎo)向行為 · · ·· · · · ·362
14.7 本章小結(jié) · · ·· · · · 366
第15章 神經(jīng)科學(xué) · · ·· · · 373
15.1 神經(jīng)科學(xué)基礎(chǔ) · · · ·· · · · 374
15.2 收益信號(hào)、強(qiáng)化信號(hào)、價(jià)值和預(yù)測(cè)誤差 · ·· · · 375
15.3 收益預(yù)測(cè)誤差假說(shuō) · · · · · ·· · · 377
15.4 多巴胺 · · ·· · · · 379
15.5 收益預(yù)測(cè)誤差假說(shuō)的實(shí)驗(yàn)支持· · · ·· · · 382
15.6 TD 誤差/多巴胺對(duì)應(yīng) · ·· · · · · · 385
15.7 神經(jīng)行動(dòng)器-評(píng)判器 · ·· · · · · · 390
15.8 行動(dòng)器與評(píng)判器學(xué)習(xí)規(guī)則 · · · ·· · · 393
15.9 享樂(lè)主義神經(jīng)元· · · · · · ·· · · 397
15.10 集體強(qiáng)化學(xué)習(xí) · · ·· · · · · 399
15.11 大腦中的基于模型的算法 · ·· · · 402
15.12 成癮· ·· · · · · · · 403
15.13 本章小結(jié) ·· · · · · 404
第 16 章 應(yīng)用及案例分析 · ·· · · · 413
16.1 TD-Gammon · · · ·· · 413
16.2 Samuel 的跳棋程序 · · · · · · ·· 418
16.3 Watson 的每日雙倍投注 · · · · · ·· · · · · 421
16.4 優(yōu)化內(nèi)存控制 · · · ·· · · · · 424
16.5 人類(lèi)級(jí)別的視頻游戲 · · · · · · ·· · · · 428
16.6 主宰圍棋游戲 · · · · ·· · · · · 433
16.6.1 AlphaGo · · · ·· · · · · 436
16.6.2 AlphaGo Zero · · · ·· · · · ·439
16.7 個(gè)性化網(wǎng)絡(luò)服務(wù)· · ·· · 442
16.8 熱氣流滑翔 · ·· · · · · 446
第17章 前沿技術(shù) · · · · ·· · · · · · · · · · 451
17.1 廣義價(jià)值函數(shù)和輔助任務(wù) · · ·· · 451
17.2 基于選項(xiàng)理論的時(shí)序摘要 · · · · · · · · · ·· · · 453
17.3 觀測(cè)量和狀態(tài) · · · · ·· · · · 456
17.4 設(shè)計(jì)收益信號(hào) · ·· · · · · · · · · 460
17.5 遺留問(wèn)題 · ·· · · 464
17.6 人工智能的未來(lái)· · · · · · ·· 467
參考文獻(xiàn) · ·· · · ·· 473