開啟主選單

求真百科

動態規劃與最優控制·近似動態規劃第Ⅱ卷

動態規劃與最優控制·近似動態規劃第Ⅱ卷》,[美] 德梅萃·P.博塞克斯 著,賈慶山 譯,出版社: 清華大學出版社。

清華大學出版社成立於1980年6月,是教育部主管、清華大學主辦的綜合性大學出版社[1]。清華社現年出版圖書、音像製品、電子出版物等近3000種,銷售規模和綜合實力以及在高等教育教材市場、科技圖書市場、館配圖書市場占有率均名列前茅[2]

目錄

內容簡介

《動態規劃與最優控制--近似動態規劃(第Ⅱ卷)》系統性介紹動態規劃,特別是近似動態規劃,包括折扣問題的理論與計算方法、隨機最短路問題、無折扣問題、平均費用問題、折扣與無折扣問題的近似動態規劃等。

目錄

第1章 折扣問題——理論

1.1 總費用最小化——介紹

1.1.1 有限階段動態規劃算法

1.1.2 符號簡寫與單調性

1.1.3 無窮階段結果的預覽

1.1.4 隨機的和依賴歷史的策略

1.2 折扣問題——各階段費用有界

1.3 調度與多柄老虎機問題

1.3.1 項目的指標

1.3.2 項目逐個退出策略

1.4 折扣連續時間問題

1.5 壓縮映射的作用

1.5.1 極大模壓縮

1.5.2 折扣問題——單階段費用無界

1.6 折扣動態規劃的一般形式

1.6.1 壓縮與單調性的基本結論

1.6.2 折扣動態博弈

1.7 注釋、參考文獻及習題

習題

第2章 折扣問題——計算方法

2.1 馬爾可夫決策問題

2.2 值迭代

2.2.1 值迭代的單調誤差界

2.2.2 值迭代的變形

2.2.3 Q-學習

2.3 策略迭代

2.3.1 針對費用的策略迭代

2.3.2 Q-因子的策略迭代

2.3.3 樂觀策略迭代

2.3.4 有限前瞻策略和滾動

2.4 線性規劃方法

2.5 一般折扣問題的方法

2.5.1 採用近似的有限前瞻策略

2.5.2 推廣的值迭代

2.5.3 近似值迭代

2.5.4 推廣的策略迭代

2.5.5 推廣的樂觀策略迭代

2.5.6 近似策略迭代

2.5.7 數學規劃

2.6 異步方法

2.6.1 異步值迭代

2.6.2 異步策略迭代

2.6.3 具有均一不動點的策略迭代

2.7 注釋、資源和習題

習題

第3章 隨機最短路問題

3.1 問題建模

3.2 主要結論

3.3 基本壓縮性質

3.4 值迭代

3.4.1 有限步終止的條件

3.4.2 異步值迭代

3.5 策略迭代

3.5.1 樂觀策略迭代

3.5.2 近似策略迭代

3.5.3 具有不合適策略的策略迭代

3.5.4 具有均一不動點的異步策略迭代

3.6 可數狀態問題

3.7 注釋、資源和習題

習題

第4章 無折扣問題

4.1 每階段的費用無界

4.1.1 主要結論

4.1.2 值迭代

4.1.3 其他計算方法

4.2 線性系統和二次費用

4.3 庫存控制

4.4 最優停止

4.5 最優博弈策略

4.6 連續時間問題——排隊的控制

4.7 非平穩和周期性問題

4.8 注釋、資源和習題

習題

第5章 每階段平均費用問題

5.1 有限空間平均費用模型

5.1.1 與折扣費用問題的關係

5.1.2 Blackwell 最優策略

5.1.3 最優性條件

5.2 所有初始狀態的平均費用相等的條件

5.3 值迭代

5.3.1 單鏈值迭代

5.3.2 多鏈值迭代

5.4 策略迭代

5.4.1 單鏈策略迭代

5.4.2 多鏈策略迭代

5.5 線性規劃

5.6 無窮空間平均費用模型

5.6.1 最優性的充分條件

5.6.2 有限狀態空間和無限控制空間

5.6.3 可數狀態——消失的折扣方法

5.6.4 可數狀態——壓縮方法

5.6.5 具有二次費用的線性系統

5.7 注釋、資源和習題

習題

第6章 近似動態規劃:折扣模型

6.1 基於仿真的費用近似的一般性問題

6.1.1 近似結構

6.1.2 基於仿真的近似策略迭代

6.1.3 直接和間接近似

6.1.4 蒙特卡羅仿真

6.1.5 簡化

6.2 直接策略評價——梯度法

6.3 策略評價的投影方程方法

6.3.1 投影貝爾曼方程

6.3.2 投影方程的矩陣形式

6.3.3 基於仿真的估計方法

6.3.4 LSTD、LSPE 和TD(0) 方法

6.3.5 樂觀版本

6.3.6 多步基於仿真的方法

6.3.7 提要

6.4 策略迭代問題

6.4.1 基於幾何採樣的搜索增強

6.4.2 基於離線策略方法的搜索增強

6.4.3 策略振盪——震顫

6.5 聚集方法

6.5.1 基於聚集問題的費用近似

6.5.2 通過增廣問題的費用近似

6.5.3 多步聚集

6.5.4 異步分布聚集

6.6 Q-學習

6.6.1 Q-學習:隨機值迭代算法

6.6.2 Q-學習和策略迭代

6.6.3 Q-因子近似和投影方程

6.6.4 最優停止問題的Q-學習

6.6.5 Q-學習和聚集

6.6.6 有限階段Q-學習

6.7 注釋、資源和習題

習題

第7章 近似動態規劃:無折扣模型及推廣

7.1 隨機最短路問題

7.2 平均費用問題

7.2.1 近似策略評價

7.2.2 近似策略迭代

7.2.3 平均費用問題的Q-學習

7.3 一般問題和蒙特卡羅線性代數

7.3.1 投影方程

7.3.2 矩陣逆合迭代方法

7.3.3 多步方法

7.3.4 最優停止的Q-學習的推廣

7.3.5 方程誤差方法

7.3.6 傾斜投影

7.3.7 推廣聚集

7.3.8 奇異線性系統的確定性方法

7.3.9 奇異線性系統的隨機方法

7.4 在策略空間的近似

7.4.1 梯度公式

7.4.2 通過仿真計算梯度

7.4.3 梯度評價的關鍵特徵

7.4.4 策略和值空間的近似

7.5 注釋、資源和習題

習題

附錄A 動態規劃中的測度論問題

A.1 兩階段例子

A.2 可測問題

參考文獻

  1. 國家對出版社等級是怎樣評估的 ,搜狐,2024-07-06
  2. 企業簡介,清華大學出版社有限公司