適讀人群 :事機器學習、多智能體協同控制等領域的工程技術人員,高等院校相關專業本科生、研究生以及教師
“多智能體”——一般專指多智能體系統( Multi Agent System,MAS)或多智能體技術( Multi Agent Technology,MAT)。多智能體系統是分布式人工智能的一個重要分支,是20世紀末~ 21世紀初國際上人工智能的前沿學科。多智能體學習相關的研究領域已成為人工智能發展的熱點。
《多智能體機器學習:強化學習方法》提供了一種多智能體不同學習方法的框架。同時還提供了多智能體微分博弈中的新進展以及在博弈理論和移動機器人中應用的全面概述。本書向讀者介紹了多智能體機器學習的不同方法。主要包括單智能體強化學習、隨機博弈和馬爾科夫博弈、自適應模糊控制和推理、時間差分學習和Q學習。
具有如下特點:
?全面涵蓋了多人博弈、微分博弈和博弈理論;
?基于梯度算法的簡單策略學習方法;
?多人矩陣博弈和隨機博弈的詳細算法和示例;
?群機器人和性格特征進化中的學習示例。
強化學習是近年來在機器學習領域非常熱門的研究方向,尤其在多智能體機器學習中,若智能體的某個行為策略獲得強化信號,則智能體以后產生這個行為策略的趨勢便會加強,這對于群體智能具有十分重要的意義,是一種重要的機器學習方法,在智能控制機器人及分析預測等領域有廣泛應用。
《多智能體機器學習:強化學習方法》對于研究人員、研究生和從事多智能體學習的相關人員以及在電子和計算機工程、計算機科學以及機械和航空工程領域的相關人員非常有用。
在現有的機器學習書籍中,較少有以強化學習的方法對多智能體機器學習進行描述的,而有關強化學習的內容,也往往只是在某些專業的機器學習書籍中在個別章節進行闡述。本書以強化學習與協作策略在相關研究領域的應用為主,側重協作策略的應用,列舉了車輛路徑規劃、多播路由、供應鏈管理等問題中的解決方案,多智能體及群體智能微分博弈中的新進展以及在博弈理論和移動機器人中的先進應用,而較少涉及強化學習理論的演化。
原 書 前 言
十年來,本人一直在教授自適應控制課程。這門課程主要是講授系統辨識的常用經典方法,并使用經典的教材,例如Ljung\[1,2\]。該課程著重介紹了參考模型自適應控制的常用方法以及基于Lyapunov技術的非線性自適應控制方法。然而,這些理論已不再適用于當前的工程實踐。因此,在本人的研究工作以及研究生課程的重點內容中進行了相應調整,增加了自適應信號處理的內容,并融合了基于最小方均(LMS)算法的自適應信道均衡和回聲消除的內容。同時,課程名稱也相應地從“自適應控制”變為“自適應與學習系統”。本人的研究工作仍主要集中于系統辨識和非線性自適應控制在機器人方面的應用。然而,直到21世紀初,才開始與機器人團隊開展合作。目前,已能夠利用常用的機器人套件和低成本的微控制器來構建可協同工作的若干個機器人。這使得“自適應與學習系統” 的研究生課程內容再次發生變化:減少了基于Lyapunov技術的非線性自適應控制方面的理論知識,取而代之的是有關強化學習的思想。這是一個全新的應用領域,機器人團隊必須要學會相互協作和競爭。
目前,研究生課程主要是集中于采用基于遞歸最小二乘(RLS)算法的系統辨識、基于參考模型的自適應控制(仍然采用Lyapunov技術)、基于LMS算法的自適應信號處理以及基于Q學習算法的強化學習。本書的前兩章簡要介紹了上述思想,但也足以說明這些學習算法之間的聯系,以及它們之間的相同之處和不同之處。與這些內容相關的其他材料可詳見文獻\[24\]。
由此,進一步的研究工作開始著重于機器人團隊如何學習以實現相互合作。這些研究工作用于驗證機器人在合作搜索和救援以確保重要設施和邊界區域安全方面的應用。同時,也逐步開始關注強化學習和多智能體強化學習的研究。這些機器人就是具有學習能力的智能體。孩子們是如何學習玩捉人游戲的?人們是如何練習踢足球的?以及在追捕罪犯的過程中警察是如何協作的?應該采用什么樣的策略?如何制定這些策略?當和一群新朋友玩足球時,如何能夠快速評估每個人的能力,并在比賽中采用特殊策略呢?
隨著研究團隊開始致力于深入研究多智能體機器學習和博弈理論,逐漸發現盡管已有很多相關論文發表,但并不集中也不夠全面。雖然已有一些綜述性文章\[5\],但均未能充分說明這些不同方法的具體細節。本書旨在向讀者介紹一種特殊形式的機器學習。全書主要是關于多智能體機器學習,同時也包括一般學習算法的核心內容。學習算法的形式各不相同,然而往往都具有相似方法。在此,將著重比較這些方法的相同和不同之處。
本書的主要內容是基于本人的研究工作,以及過去10年里所指導下的博士生、碩士生的研究工作。在此,特別感謝Sidney Givigi教授。Givigi教授為本書第6章中所介紹的主要思路和算法提供了堅實基礎。另外,本書中還包含了Xiaosong(Eric)Lu博士的研究成果。其中,關于疆土守衛部分的內容主要來源于其博士論文。同時,還有一些研究生也為本書做出了貢獻,他們是Badr Al Faiya、Mostafa Awheda、Pascal De BeckCourcelle和Sameh Desouky。如果沒有研究小組中學生們的辛勤工作,本書是不可能完成的。
原 書 前 言
Howard M.Schwartz
于加拿大渥太華
2013年9月
譯 者 序
“多智能體”——一般專指多智能體系統( Multi Agent System,MAS)或多智能體技術( Multi Agent Technology,MAT)。多智能體系統是分布式人工智能的一個重要分支,是20世紀末~ 21世紀初國際上人工智能的前沿學科。多智能體學習相關的研究領域已成為人工智能發展的熱點。
本書主要介紹了多智能體學習的相關內容,目的在于解決大型、復雜的現實問題,而解決這類問題已超出了單個智能體的能力。研究者主要研究智能體之間的交互通信、協調合作、沖突消解等方面,強調多個智能體之間的緊密群體合作,而非個體能力的自治和發揮,關于Lyapunov技術的非線性自適應控制方面的理論材料被減少,取而代之的是有關強化學習的思想。強化學習的目標是取得最大化的獎勵(回報)。強化學習和非監督學習最有趣的部分就是獎勵的選擇,這是一個全新的發展迅速的應用領域。機器人團隊必須要學會共同工作和相互競爭。本書是一本專門介紹多智能體強化學習的著作。
本書中重點研究了雙人階段博弈和矩陣博弈問題。其中主要通過3個不同的博弈游戲:猜硬幣、石頭一剪刀一布和囚徒困境來進行闡述。這些都被稱為矩陣博弈(matrixgames)或階段博弈(stage games)的游戲,因為在游戲過程中沒有發生狀態轉移。本書沒有過于深入研究博弈論本身,而是專注于與這些游戲相關的學習算法。另外,作者還結合自己的教學實踐,探討了多機器人智能體的微分博弈問題,并通過“逃跑者一追捕者”博弈和“疆土防御”博弈進行了深入討論。
需要指出的是,書中矩陣、矢量為保持與原書一致,并未使用黑斜體,請讀者注意。
本書第1~3章由譚勵翻譯,第4~6章由連曉峰翻譯,全書由連曉峰審校統稿,彭森、于嘉驥、李世明、李偉男、蔡有林、侯寶奇、竇超、張鵬、侯秀林、張欣、邵妍潔、張吉東、張丹瑤、趙辰等人也參與了部分內容的翻譯。
由于譯者的水平有限,書中不當或錯誤之處懇請各位業內專家學者和廣大讀者不吝賜教。
譯者
Howard M.Schwartz 博士,在加拿大魁北克蒙特利爾的麥吉爾大學獲得工學學士學位,在美國馬薩諸塞州劍橋麻省理工學院獲得碩士和博士學位,現為加拿大渥太華卡爾頓大學系統與計算機工程系的教授,研究領域包括自適應和智能控制系統、機器人、機器學習、多智能體學習、系統辨識和狀態估計。
目 錄
譯者序
原書前言
第1章監督式學習概述
1 1 LS算法
1 2 RLS算法
1 3 LMS算法
1 4隨機逼近法
參考文獻
第2章單智能體強化學習
2 1簡介
2 2 n臂賭博機問題
2 3學習結構
2 4值函數
2 5最優值函數
2 5.1網格示例
2 6 MDP
2 7學習值函數
2 8策略迭代
2 9 時間差分學習
2 10狀態一行為函數的時間差分學習
2 11 Q學習
2 12資格跡
參考文獻
第3章雙人矩陣博弈學習
3 1矩陣博弈
3 2雙人矩陣博弈中的納什均衡
3 3雙人零和矩陣博弈中的線性規劃
3 4學習算法
3 5梯度上升算法
3 6 WoLF - IGA算法
3 7 PHC算法
3 8 WoLF - PHC算法
3 9矩陣博弈中的分散式學習
3 10學習自動機
3 11線性回報一無為算法
3 12線性回報一懲罰算法
3 13滯后錨算法
3 14 LR.滯后錨算法
3 14.1仿真
參考文獻
第4章多人隨機博弈學習
4 1簡介
4 2多人隨機博弈
4 3極大極小Q學習算法
4 3.1 2 x2網格博弈
4 4納什Q學習算法
4 4.1學習過程
4 5單純形算法
4 6 Lemke - Howson算法
4 7納什Q學習算法實現
4 8朋友或敵人Q學習算法
4 9無限梯度上升算法
4 10 PHC算法
4 11 WoLF - PHC算法
4 12 網格世界中的疆土防御問題
4 12.1仿真和結果
4 13 LR.滯后錨算法在隨機博弈中的擴展
4 14 EMA Q學習算法
4 15 EMA Q學習與其他方法的仿真與結果比較
4 15.1矩陣博弈
4 15 2隨機博弈
參考文獻
第5章微分博弈
5 1簡介
5 2模糊系統簡述
5 2.1模糊集和模糊規則
5 2 2模糊推理機
5 2 3模糊化與去模糊化
5 2 4模糊系統及其示例
5 3模糊Q學習
5 4 FACL
5 5瘋狂司機微分博弈
5 6模糊控制器結構
5.7 Q(A)學習模糊推理系統
5 8瘋狂司機博弈的仿真結果
5 9雙車追捕者一逃跑者博弈中的學習算法
5 10雙車博弈仿真
5 11 疆土防御微分博弈
5 12疆土防御微分博弈中的形成回報
5 13仿真結果
5 13.1 -個防御者對一個人侵者
5 13 2兩個防御者對一個人侵者
參考文獻
第6章群智能與性格特征的進化
6 1簡介
6 2群智能的進化
6 3環境表征
6 4群機器人的性格特征
6 5性格特征的進化
6 6仿真結構框架
6 7零和博弈示例
6 7.1收斂性
6 7 2仿真結果
6 8后續仿真實現
6 9機器人走出房間
6 10機器人跟蹤目標
6 11小結
參考文獻