*控制是現代控制理論中的重要課題。近年來,隨著工程應用的需求和人工智能的興起,在系統模型未知或部分未知的情況下尋求近似*控制的方法逐漸嶄露頭角。本書上冊包括*控制基礎和*控制的數學理論兩部分,著重介紹經典變分法、龐特里亞金極小值原理以及動態規劃方法;下冊側重*控制的智能方法,包括強化學習與自適應動態規劃、*控制的數值方法、模型預測控制、微分博弈以及平行控制。為了適應智能時代的人才需求,我們在中國科學院大學計算機與控制學院和人工智能學院開設了包含*控制數學理論與智能方法的研究生專業課,并在課程講義的基礎上整理得到本書。
本書上冊可作為高年級本科生或研究生的*控制課程教材,上下冊的結合可供控制論、人工智能、管理學等領域的學生、科研人員和專業技術人員參考。
*控制是現代控制理論中的重要課題。近年來,隨著工程應用的需求和人工智能的興起,在系統模型未知或部分未知的情況下尋求近似*控制的方法逐漸嶄露頭角。本書上冊包括*控制基礎和*控制的數學理論兩部分,著重介紹經典變分法、龐特里亞金極小值原理以及動態規劃方法;下冊側重*控制的智能方法,包括強化學習與自適應動態規劃、*控制的數值方法、模型預測控制、微分博弈以及平行控制。為了適應智能時代的人才需求,我們在中國科學院大學計算機與控制學院和人工智能學院開設了包含*控制數學理論與智能方法的研究生專業課,并在課程講義的基礎上整理得到本書。本書上冊可作為高年級本科生或研究生的*控制課程教材,上下冊的結合可供控制論、人工智能、管理學等領域的學生、科研人員和專業技術人員參考。
最優控制與最優教學
三十多年前,最優控制曾是我由力學轉入控制后的首選方向。記得第一個課題就是橋梁和高層
建筑的主動減振控制,屬分布參數系統問題;第二個是非線性問題的次優控制,試圖利用最小二乘
方法和勒讓德特殊函數進行遞歸求解 Hamilton-Jacobi-Bellman(HJB)方程。可惜因其他研究任務
最后都沒持續下去,成為心中至今的遺憾。喜歡最優控制的一個重要原因是大學和碩士期間著迷于
變分法、力學和物理中各種各樣的變分原理、泛函分析及其在希爾伯特空間的幾何表示方式。我一
直希望能利用泛函從代數幾何空間的角度去解釋最優控制,并進而在流形上近似求解各種非線性最
優控制問題。
赴美留學之后,研究方向立刻轉入以人工智能為基礎和以智能機器人系統為對象的智能控制。1986年,上導師 George N.Saridis教授的自組織系統之隨機控制(Stochastic Control of Self-organizing Systems)課時,一度曾有機會回頭從事最優控制的研究,但由于對于如何利用熵(entropy)表示與導師有嚴重的分歧,一番爭吵之后,最后少果而終,僅留下一篇會議論文和一篇雜志論文 1。有幸的是,這讓我有機會獨立地提出了早期自適應動態規劃( adaptive dynamic
programming,ADP,最初稱為
approximate dynamic programming)的思想。更可喜的是,今天,
以劉德榮教授和魏慶來研究員為代表的復雜系統管理與控制國家重點實驗室團隊在此領域碩果累
累,已成為國際上研究 ADP的先鋒與重鎮。
其實,至今我仍認為熵表示可能是統一各種最優控制方法,特別是將自適應和預測控制統一起
來的可行途徑,甚至更廣泛的平行控制也可以納入熵表示的框架之中。特別是跟隨副導師 Robert
F. McNaughton教授上完自動機、形式語言和理論計算機課程之后,更感到控制熵與信息熵、計算復雜性之間有著深刻的內在關聯,再加上學習控制和機器學習(當時稱為學習機器,learning
1關于爭吵的部分描述見 2001年出版的 Modeling
Uncertainty: An Examination of Stochastic Theory, Methods, and Applications第 16章最后一節。會議論文之后于
1992年發表于圖森召開的 IEEE控制與決策會議,題為 Suboptimal Control for Nonlinear Stochastic Systems。雜志論文于 1994年發表于 Control
Theory and Advanced Technology第 10卷第 4期,題為 Suboptimal Control of Nonlinear Stochastic Systems。
machines)方法,或許能夠創出一條從最優控制的數學理論到最優控制的智能方法之新路 2。這三十余年來未熄的夢想,就是驅動創作本書的原始動機。
當然,本書的寫作還有一個十分顯然的現實動機。近十年來,周圍愿以控制理論和控制工程專業為第一選擇的學生相對大大減少,學生們都希望轉入其他以算法為主更時興、見效更快的專業。相對而言,控制付出大,回報卻不見得大。然而,控制是硬科技,更是智能技術中的硬智能。沒有過硬的控制,許多想法和算法無法落地。而且,最優控制是控制之中的硬課程,是硬中之硬。正如國家與社會的發展不能只發展虛擬經濟,必須有強硬的實體經濟支撐,技術的健康發展,一定也不可忽略控制技術,必須有高質量的人才不斷加入控制技術的研究與開發之中才可持續。因此,一部與時代技術和應用要求合拍的最優控制教程,是吸引更多優秀學生從事控制專業的重要一步,這就是本書寫作的現實動機。
因此, 2015年秋,我答應承擔起中國科學院大學(以下簡稱國科大)計算機與控制學院的
最優控制研究生教學任務,并籌劃寫一本新的最優控制教材。最初有兩個計劃,一是按以學習者為中心的教育(learner-centered education,LCE,其中老師和學生都是學習者)之思想教學,并按照教學三境界方式安排教學內容和進度;二是變編年體式的教科書為紀傳體的教材,就像《史記》開創中國史書的撰寫新方式,希望使最優控制這門課的課本盡量生動有趣,與時代相宜。
所謂教學三境界是仿王國維關于詞之三層境界之說,讓教學也有三階段或三境界:
1
)開始:滴水見大海, See the whole ocean from a drop of water。用開始的幾堂課,把最優控制的核心問題、主要概念和關鍵方法以最簡單的例子講清楚。目的就是帶學生登頂看城,讓學生有一個整體觀。
2
)過程:借用蘇軾的《題西林壁》,橫看成嶺側成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中。Difficulty and confused, but not lost, still know where you are and
enjoy.滴水階段之后,根據學生水平和興趣及教學要求,放開地去講,但不斷地與滴水的內容回連和關聯。學生可以不懂,但必須知道懂了什么、不知什么,內容的意義或意味著什么。這就如同帶領學生手機地圖探城,大街小巷任游。
3
)結局:借用杜甫的《望岳》,蕩胸生層云,決眥入歸鳥。會當凌絕頂,一覽眾山小。
In the end you feel like an expert in Optimal Control:Be there,done that,and so what!課的后期,以一個綜合的題目或項目,把滴水階段的問題、概念、方法再回頭以廬山階段學到的手段一網打盡,讓學生從心理上感覺到自己了解掌握了最優控制的精髓,上升到泰山境地,今后可以
2見 1989年王飛躍在
NASA/RPI空間探索智能機器人系統中心提交的題為 Information-based Complexity and Its Application in Intelligent
Machines的工作報告。
有信心地使用或補習最優控制的方法和技術。這就像游城之后,讓學生講述經歷和體會,讓他們有這座城市我去過,是一個活生生的地方,消除心理障礙,不再抽象神秘了。
這是我在美教授二十年機器人與自動化(Robotics and Automation)課程的實踐與經驗的總結,曾獲得很好的效果,使學生對內容的理解從原來大約 20%的程度提高到差不多 70%3。最優控制差不多是控制課程中最難的,我希望以三境界的方法教授國科大的最優控制。
新型教材的撰寫更是自己很久以來的想法。讀過許多領域的專業著作,多數初讀時的感覺很難擺脫枯燥無味四字,往往對書中一些內容不知為什么、干什么,更不知誰提出來了,當時的情景與動機是什么。沒有歷史感,更無發展感。每當此時,我就想起小時看過的文革之前的一些中小學課本:物理課本介紹牛頓定律時有牛頓的頭像和簡介,化學課本介紹元素周期表時有門捷列夫的畫像和故事,似乎自己就是因此才養成喜歡讀書的習慣。
一次,讀《史記》紀傳體形成過程研究的論文,深嘆司馬遷納百家眾體,創新出以紀傳體為中心,五體相依,體系嚴密的新史體,以致百代而下,史官不能易其法,學者不能舍其書,從此
《春秋》《左傳》《國語》等編年體史書不再主流,而紀傳體不斷發展延至今日。個人認為,今天絕大多數的專業著作和教科書之寫作方式仍屬知識的編年體,太注重知識本身之用,卻忘了是誰去學誰去用。我們應該學習司馬遷,重視專業知識之前、之中、之后的人,就是學習者和應用者,用知識描述的紀傳體方式來創作專著和教科書,讓人在其中,故事穿之,使死知識變活知識,生動有趣,讓 LCE以學習者為中心的教育和教學不再是口號和空話。由于時間的原因,本書的寫作,只是沿此方向的一個十分初步的嘗試,希望將來有機會結合 wiki、微信和網絡化、可視化等技術深入系統地研究紀傳體的教科書和學術著作應如何撰寫4。
由于肩負其他科研任務,我無法以個人之力完成最優控制的教學和教材寫作任務。這些任務的完成,特別是本書寫作,張杰博士是最主要的貢獻者。張杰大學在清華大學讀數學,碩士在人民大學攻經濟,博士期間才開始在中科院自動化所與我一起從事社會計算、計算經濟,特別是博弈論方面的研究工作。我一直希望張杰能以閉環實時反饋的思路在平行經濟,特別是平行博弈方向有所建樹,所以要求他再回頭補足一些控制的核心知識。因此,博士一畢業,就安排他與我一起教授
最優控制,并承擔了大部分的教學和教材工作。兩年多來,我幾乎只是動口并反復無常地提出了許多幾近苛刻的要求,張杰博士總是全力以赴,而且給了我許多事先沒有想到的驚喜。我堅信,張杰博士一定會獨立成為最優控制這門課的一位非常優秀的教師。
3見王飛躍科學網博客:《關于機器人課教學的三境界實踐簡憶》,http://blog.sciencenet.cn/blog-2374-860504.html。 4更多關于教學的想法,請見王飛躍科學網博客:《我的教學夢》,http://blog.sciencenet.cn/blog-2374-6431.html;以及《將來如何教學生?》,http://blog.sciencenet.cn/blog-2374-341680.html。
2015年最優控制課后部分師生交流合影,就座二人為授課教師,本書作者王飛躍、張杰(摘自 2015年國科大最優控制課程紀念冊)
第一年( 2015年)教授最優控制時,我還請了北京交通大學的侯忠生教授,講授數據驅動的控制方法;我們實驗室的魏慶來研究員,講授自適應動態規劃方法。第二年( 2016年)上課時,邀請了國科大的王立新教授講授模糊邏輯和模糊控制,以及美國印第安納大學 -普渡大學的李靈犀教授講授強化學習方法。在張杰博士的精心協調和安排之下,講課效果之佳完全超出我的預想,學期結束時得到了許多同學積極正面的反饋,摘錄如下:
教學三境界
第一次接觸到這般教學思想,從整體到局部,再從局部回歸整體。如今課程結束,那些知識卻深深地印在腦海之中。
幾位老師給我們描繪了一幅控制的完美歷史畫卷,張老師說他喜歡這種歷史的厚重感,敢問又有哪位同學能不被這么美妙的歷史所吸引。在這種強烈的興趣下我也相信每位同學都愿意深入這門課程去探索科學的真諦。
最優控制理論是我十幾年的求學過程中上過的最優質的課程。課程內容既扎根本質又放眼前沿,高大上的微信公眾平臺也讓我得以隨時了解課堂信息,全面、客觀的考核方式更是讓我真正做到了平時努力學,考試輕松過。
在懷柔國科大,有幸能上最優控制理論這門課,遇到那么棒的老師,認識一群那么棒的同學,是我這輩子,學生時代,最美好的回憶!
國科大最優控制2015年授課教師,左上為中科院自動化所王飛躍教授,左下為北京交通大學侯忠生教授,右上為中科院自動化所張杰副研究員,右下為中科院自動化所魏慶來研究員(摘自 2015年國科大最優控制課程紀念冊)
特別令我高興的是,第一年結束時,我還得到一本由最優控制課程的教學照片和評語制作成的紀念冊,不但精美,而且難忘。這不但讓我感到自己所費心血值得,也再次讓我想起物理學大師 John Wheeler的話:大學里為什么要有學生?那是因為老師有不懂的東西,需要學生來幫助解答。
國科大最優控制2016年部分授課教師,左圖為國科大王立新教授,右圖為印第安納大學 -普渡大學李靈犀教授
2016年最優控制課后師生共游國科大后山雁棲湖,左三、左五、左六分別為本課教師張杰、王飛躍、王立新
回國后能有這樣一次令人難忘的教學經歷,十分難得,為此我必須感謝上課的兩百余名同學和五名教授團隊,特別是付出最大努力的張杰博士。然而,這離我最初希望以教學三境界為支撐,以平行課堂和平行教育的方式進行最優控制教學的設想還有很大一段距離。可喜的是,兩年來的教學實踐和教材撰寫已為下一步的智能化平行教學奠定了一個良好的基礎。衷心希望這本教材所開始的新教學理念,能在同學的幫助之下得到深入地發展和鞏固,使本書的下冊《最優控制
智能方法》更加完善和成功,也為教學改革做一次有益且有效的努力。
《最優控制
數學理論與智能方法》(上冊)是一次教學和教材的改革嘗試,一定存在許多不足之處,作為主導和組織者,對此我必須承擔全部責任。在此,我十分感謝王雨桐、白天翔、曾帥博士、張曉磊、顧穎城、王曉博士、高琳等幫助此課的同事和同學。希望本書面世后能夠得到相關專家和一線師生的批評指正,以便今后改正和改進,在此表示衷心的感謝。
2017年夏末于北京靜安園中國科學院自動化研究所復雜系統管理與控制國家重點實驗室中國國防科技大學軍事計算實驗與平行系統技術研究中心
第 1部分最優控制介紹
第 1章最優控制基礎 3
11引言 4
12變分問題 5
121最速降線問題 5
122等周問題 7
123變分法的誕生 9
13最優控制問題 13
131最優控制問題的早期探索 13
132最優控制問題數學理論的奠基16
133無確定模型的最優控制問題:智能方法 26
小結 34
第 2章最優控制方法 35
21變分法與最優控制的駐點條件 36
211 Euler的幾何方法 36
212 Lagrange的 方法39
213 Lagrange乘子法43
214 Hestenes的經典變分求解最優控制44
215變分法解最優控制示例45
22 Pontryagin極小值原理與最優控制的必要條件 48
221 Weierstrass-Erdmann條件 48
222 Weierstrass條件50
223 Pontryagin極小值原理 51
224極小值原理解最優控制示例 53
23動態規劃與最優控制的充分條件54
231 Hamilton-Jacobi方程 54
232 Bellman的動態規劃方法55
233動態規劃解最優控制示例 57
24微分博弈與最優控制的平衡條件59
241博弈與平衡 60
242 Isaac的微分博弈 63
25自適應動態規劃 66
251神經網絡與反向傳播算法 66
252離散時間自適應動態規劃 69
253連續時間自適應動態規劃 72
254神經網絡與控制74
255自適應動態規劃求解最優控制示例 74
26模型預測控制 77
261最優控制的數值方法 78
262模型預測控制求解最優控制示例 79
27平行控制 81
271 ACP方法的基本概念82
272平行控制的基本框架和原則 82
小結 85
第 2部分最優控制的數學理論
第 3章最優控制的變分方法 89
31函數極值問題 90
311函數極值與 Taylor展開 90
312函數極值的必要條件和充分條件 92
32變分初步:從函數極值到泛函極值 95
321泛函及其范數 96
322從函數極值到泛函極值98
323泛函極值的必要條件 103
324 Euler-Lagrange方程的求解 110
325 Euler-Lagrange方程與 Hamilton方程組116
33等式約束的處理 119
331 Lagrange乘子法回顧 119
332微分約束的泛函極值 121
333積分約束的泛函極值 126
34目標集的處理 130
341兄弟打賭:具有可變端點的變分問題130
342目標集終端時刻固定,終端狀態自由131
343目標集終端時刻自由,終端狀態固定135
344目標集終端時刻和狀態自由且無關 141
345性能指標的轉化與一般目標集的處理143
35從變分法到最優控制 149
351變分法求解最優控制問題:極小值原理初探150
352有一般目標集的最優控制問題154
353分段連續可微的最優控制 157
354 Weierstrass-Erdmann條件與
Weierstrass條件 167
355穩態系統的 Hamiltonian函數 169
小結 172
第 4章 Pontryagin極小值原理173
41 Pontryagin極小值原理基礎174
411 Pontryagin極小值原理的表述 174
412穩態 Mayer形式極小值原理的證明179
413穩態 Bolza形式極小值原理的證明191
414時變系統極小值原理的證明 195
415一般目標集的處理 198
42極小值原理求解最優控制的例子201
421極小值原理求解無約束最優控制 202
422極小值原理求解有約束的最優控制 206
43時間最短控制與燃料最省控制 213
431時間最短控制的 Bang-Bang控制原理 213
432線性定常系統的時間最短控制示例 218
433燃料最省控制與 Bang-off-Bang控制原理 227
434時間和燃料加權的最優控制示例 233
44線性二次型最優控制 243
441線性二次型最優控制與 Ricatti方程243
442極小值原理求解線性二次型最優控制示例
247
小結 251
第 5章動態規劃253
51最優性原理254
511多階段決策的最優性原理 254
512動態規劃求解最短路示例 256
52動態規劃求解離散最優控制 259
521離散時間最優控制問題259
522 Bellman方程 262
523動態規劃求解離散最優控制示例 263
524維數災難之咒 281
53動態規劃求解連續最優控制 282
531 Hamilton-Jacobi-Bellman方程 282
532動態規劃與極小值原理的關系289
533動態規劃求解連續最優控制示例 291
54動態規劃求解線性二次型最優控制 296
541離散時間線性二次型最優控制296
542連續時間線性二次型最優控制302
543二次型性能指標的參數305
小結 308
參考文獻 309
索引 321