強化學習

來自孔夫子網的圖片

《強化學習》，[加] RichardS.Sut 著，出版社：電子工業出版社。

電子工業出版社成立於1982年10月，是工業和信息化部直屬的科技與教育出版社^[1]，享有「全國優秀出版社」、「講信譽、重服務」的優秀出版社、「全國版權貿易先進單位」、首屆中國出版政府獎「先進出版單位」等榮譽稱號^[2]。

內容簡介

《強化學習（第2版）》作為強化學習思想的深度解剖之作，被業內公認為是一本強化學習基礎理論的經典著作。它從強化學習的基本思想出發，深入淺出又嚴謹細緻地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法，並以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。

《強化學習（第2版）》適合所有對強化學習感興趣的讀者閱讀、收藏。

作者介紹

作者簡介

Richard Sutton（理查德•薩頓）

埃德蒙頓 DeepMind 公司的傑出科學家，阿爾伯塔大學計算科學系教授。他於2003年加入阿爾伯塔大學，2017年加入DeepMind。之前，曾在美國電話電報公司（AT＆T）和通用電話電子公司（GTE）實驗室工作，在馬薩諸塞大學做學術研究。

1978年獲得斯坦福大學心理學學士學位，1984年獲得馬薩諸塞大學計算機科學博士學位，加拿大皇家學會院士和人工智能促進會的會士。

主要研究興趣是在決策者與環境相互作用時所面臨的學習問題，他認為這是智能的核心問題。其他研究興趣有：動物學習心理學、聯結主義網絡，以及能夠不斷學習和改進環境表徵和環境模型的系統。

他的科學出版物被引用超過7萬次。

他也是一名自由主義者，國際象棋選手和癌症倖存者。

Andrew Barto （安德魯•巴圖）

馬薩諸塞大學阿默斯特分校信息與計算機科學學院名譽教授。1970年獲得密歇根大學數學專業的傑出學士學位，並於1975年獲該校計算機科學專業的博士學位。1977年他加入馬薩諸塞州阿默斯特大學計算機科學系。在2012年退休之前，他帶領了馬薩諸塞大學的自主學習實驗室，該實驗室培養了許多著名的機器學習研究者。

目前擔任Neural Computation （《神經計算》）期刊的副主編，Journal of Machine Learning Research （《機器學習研究》）期刊的顧問委員會成員，以及Adaptive Behavior （《自適應行為》）期刊的編委員會成員。

他是美國科學促進會的會員，IEEE（國際電子電氣工程師協會）的終身會士（Life Fellow），也是神經科學學會的成員。

2004年，因強化學習領域的貢獻榮獲IEEE神經網絡學會先鋒獎，並因在強化學習理論和應用方面的開創、富有影響力的研究獲得 IJCAI-17卓越研究獎；2019年獲得馬薩諸塞大學神經科學終身成就獎。

他在各類期刊、會議和研討會上發表了100多篇論文，參與撰寫多部圖書的相關章節。

譯者簡介

俞凱

上海交通大學計算科學與工程系教授，思必馳公司創始人、首席科學家。清華大學自動化系本科、碩士，劍橋大學工程系博士。青年千人，國家自然科學基金委優青，上海市「東方學者」特聘教授。IEEE 高級會員，現任 IEEE Speech and Language Processing Technical Committee 委員，中國人工智能產業發展聯盟學術和知識產權組組長，中國計算機學會語音對話及聽覺專業組副主任。

長期從事交互式人工智能，尤其是智能語音及自然語言處理的研究和產業化工作。發表國際期刊和會議論文 150 余篇，獲得Computer Speech and Language, Speech Communication 等多個國際期刊及InterSpeech等國際會議的最優論文獎，所搭建的工程系統曾獲美國國家標準局語音識別評測冠軍，對話系統國際研究挑戰賽冠軍等。

獲評2014「吳文俊人工智能科學技術獎」進步獎，「2016科學中國人年度人物」，2018中國計算機學會「青竹獎」。

參考文獻

↑ 我國出版社的等級劃分和分類標準，知網出書，2021-03-01
↑ 關於我們，電子工業出版社

[1] 我國出版社的等級劃分和分類標準，知網出書，2021-03-01

[2] 關於我們，電子工業出版社

[1]

[2]

求真百科

強化學習

目錄

內容簡介

作者介紹

參考文獻