開啟主選單

求真百科

理查德·貝爾曼

理查德·貝爾曼

中文名: 理查德·貝爾曼

外文名: Richard Bellman

國 籍: 美國

出生日期: 1920年8月26日

逝世日期: 1984年3月19日

主要成就: 動態規劃的創始人。

出生地: 美國

理查德·貝爾曼(英文:Richard Bellman,1920年8月26日——1984年3月19日),美國數學家,美國國家科學院院士,動態規劃的創始人。[1]

目錄

生平

貝爾曼先後在布魯克林學院和威斯康星大學學習數學。隨後他在洛斯·阿拉莫斯為一個理論物理部門的團體工作。與1946年獲得普林斯頓大學博士學位。

貝爾曼曾是南加州大學教授,美國藝術與科學研究院研究員(1975年),美國國家工程院院士(1977年),美國國家科學院院士(1983年)。

榮譽

他在1979年被授予電氣電子工程師協會獎,由於其在「決策過程和控制系統理論方面的貢獻,特別是動態規劃的發明和應用。」

強化學習

強化學習是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。其靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。強化學習最早可以追溯到巴甫洛夫的條件反射實驗,它從動物行為研究和優化控制兩個領域獨立發展,最終經理查德·貝爾曼之手將其抽象為馬爾可夫決策過程 (Markov Decision Process,MDP)。

強化學習的奠基人

強化學習的發展歷程如下所示

1956年Bellman提出了動態規劃方法。

1977年Werbos提出只適應動態規划算法。

1988年sutton提出時間差分算法。

1992年Watkins提出Q-learning 算法。

1994年rummery提出Saras算法。

1996年Bersekas提出解決隨機過程中優化控制的神經動態規劃方法。

2006年Kocsis提出了置信上限樹算法。

2009年kewis提出反饋控制只適應動態規划算法。

2014年silver提出確定性策略梯度(Policy Gradients)算法。

2015年Google Deepmind提出Deep-Q-Network算法。

在2016年,AlphaGo擊敗李世石之後,融合了深度學習的強化學習技術大放異彩,成為這兩年最火的技術之一。但是,縱觀強化學習幾十年的發展史可以看出,強化並不是一門新的技術。強化學習就是一個古老而又時尚的技術,其奠基人是理查德·貝爾曼。

貝爾曼與動態規劃

在現實生活中,有一類活動的過程,由於它的特殊性,可將過程分成若干個互相聯繫的階段,在它的每一階段都需要作出決策,從而使整個過程達到最好的活動效果。因此各個階段決策的選取不能任意確定,它依賴於當前面臨的狀態,又影響以後的發展。當各個階段決策確定後,就組成一個決策序列,因而也就確定了整個過程的一條活動路線。這種把一個問題看作是一個前後關聯具有鏈狀結構的多階段過程就稱為多階段決策過程,這種問題稱為多階段決策問題。在多階段決策問題中,各個階段採取的決策,一般來說是與時間有關的,決策依賴於當前狀態,又隨即引起狀態的轉移,一個決策序列就是在變化的狀態中產生出來的,故有「動態」的含義,稱這種解決多階段決策最優化的過程為動態規劃方法。

動態規劃(Dynamic Programming,DP)是運籌學的一個分支,是求解決策過程最優化的過程。20世紀50年代初,美國數學家理查德·貝爾曼(英語:Richard Bellman)等人在研究多階段決策過程的優化問題時,提出了著名的最優化原理,從而創立了動態規劃。動態規劃的應用極其廣泛,包括工程技術、經濟、工業生產、軍事以及自動化控制等領域,並在背包問題、生產經營問題、資金管理問題、資源分配問題、最短路徑問題和複雜系統可靠性問題等中取得了顯著的效果。

動態規劃基本思想

動態規划算法通常用於求解具有某種最優性質的問題。在這類問題中,可能會有許多可行解。每一個解都對應於一個值,我們希望找到具有最優值的解。動態規划算法與分治法類似,其基本思想也是將待求解問題分解成若干個子問題,先求解子問題,然後從這些子問題的解得到原問題的解。與分治法不同的是,適合於用動態規劃求解的問題,經分解得到子問題往往不是互相獨立的。若用分治法來解這類問題,則分解得到的子問題數目太多,有些子問題被重複計算了很多次。如果我們能夠保存已解決的子問題的答案,而在需要時再找出已求得的答案,這樣就可以避免大量的重複計算,節省時間。我們可以用一個表來記錄所有已解的子問題的答案。不管該子問題以後是否被用到,只要它被計算過,就將其結果填入表中。這就是動態規劃法的基本思路。具體的動態規划算法多種多樣,但它們具有相同的填表格式。[2]

參考來源