求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

ChatGPT原理與架構檢視原始碼討論檢視歷史

事實揭露 揭密真相
前往: 導覽搜尋

來自 孔夫子網 的圖片

ChatGPT原理與架構》,副標題:大模型的預訓練、遷移和中間件編程 ,程戈 著,出版社: 機械工業出版社。

機械工業出版社成立於1950年,是建國後國家設立的第一家科技出版社,前身為科學技術出版社,1952年更名為機械工業出版社[1]。機械工業出版社(以下簡稱機工社)由機械工業信息研究院作為主辦單位,目前隸屬於國務院國資委[2]

內容簡介

這是一本深入闡述ChatGPT等大模型的工作原理、運行機制、架構設計和底層技術,以及預訓練、遷移、微調和中間件編程的著作。它將幫助我們從理論角度全面理解大模型,從實踐角度更好地應用大模型,是作者成功訓練並部署大模型的過程復盤和經驗總結。第1章介紹了ChatGPT等大模型的發展歷程、技術演化和技術棧等基礎知識;第2~5章深入講解了Transformer的架構原理,並從GPT-1的生成式預訓練到GPT-3的稀疏注意力機制詳細描述了GPT系列的架構演進;6~8章從底層技術實現的角度講解了大語言模型的訓練策略、數據處理方法,以及如何利用策略優化和人類反饋來進一步提升模型的表現;第9~10章首先詳細講解了大語言模型在垂直領域的低算力遷移方法,並給出了醫療和司法領域的遷移案例,然後講解了大模型的中間件編程;第11章對GPT的未來發展趨勢進行預測,探討數據資源、自回歸模型的局限性,以及大語言等

目錄

前言

第1章 人工智能的新里程碑——ChatGPT/1

1.1 ChatGPT的發展歷程/1

1.2 ChatGPT的能力/3

1.3 大語言模型的技術演化/6

1.3.1 從符號主義到連接主義/6

1.3.2 Transformer模型/7

1.3.3 無監督預訓練/10

1.3.4 有監督微調/11

1.3.5 人類反饋強化學習/11

1.4 大語言模型的技術棧/12

1.5 大語言模型帶來的影響/13

1.6 大語言模型復現的壁壘/16

1.6.1 算力瓶頸/16

1.6.2 數據瓶頸/17

1.6.3 工程瓶頸/18

1.7 大語言模型的局限性/19

1.8 小結/20

第2章 深入理解Transformer模型/21

2.1 Transformer模型簡介/21

2.2 自注意力機制/23

2.2.1 自注意力機制的計算過程/23

2.2.2 自注意力機制的本質/26

2.2.3 自注意力機制的優勢與局限性/28

2.3 多頭注意力機制/29

2.3.1 多頭注意力機制的實現/29

2.3.2 多頭注意力機制的作用/31

2.3.3 多頭注意力機制的優化/32

2.4 前饋神經網絡/33

2.5 殘差連接/35

2.6 層歸一化/36

2.7 位置編碼/38

2.7.1 位置編碼的設計與實現/38

2.7.2 位置編碼的變體/40

2.7.3 位置編碼的優勢與局限性/41

2.8 訓練與優化/41

2.8.1 損失函數/41

2.8.2 優化器/42

2.8.3 學習率調整策略/42

2.8.4 正則化/43

2.8.5 其他訓練與優化技巧/44

2.9 小結/46

第3章 生成式預訓練/47

3.1 生成式預訓練簡介/47

3.2 GPT的模型架構/48

3.3 生成式預訓練過程/50

3.3.1 生成式預訓練的目標/52

3.3.2 生成式預訓練的誤差反向傳播過程/53

3.4 有監督微調/55

3.4.1 有監督微調的原理/55

3.4.2 有監督微調的特定任務/56

3.4.3 有監督微調的步驟/58

3.5 小結/59

第4章 無監督多任務與零樣本學習/61

4.1 編碼器與解碼器/61

4.2 GPT-2的模型架構/64

4.2.1 層歸一化/65

4.2.2 正交初始化/66

4.2.3 可逆的分詞方法/67

4.2.4 可學習的相對位置編碼/71

4.3 無監督多任務/72

4.4 多任務學習與零樣本學習的關係/74

4.5 GPT-2的自回歸生成過程/76

4.5.1 子詞單元嵌入/76

4.5.2 自回歸過程/77

4.6 小結/79

第5章 稀疏注意力與基於內容的學習/80

5.1 GPT-3的模型架構/81

5.2 稀疏注意力模式/83

5.2.1 Sparse Transformer的特點/83

5.2.2 局部帶狀注意力/85

5.2.3 跨層稀疏連接/85

5.3 元學習和基於內容的學習/86

5.3.1 元學習/87

5.3.2 基於內容的學習/87

5.4 概念分布的貝葉斯推斷/90

5.4.1 隱式微調/90

5.4.2 貝葉斯推斷/93

5.5 思維鏈的推理能力/95

5.6 小結/99

第6章 大語言模型的預訓練策略/100

6.1 預訓練數據集/100

6.2 預訓練數據的處理/102

6.3 分布式訓練模式/104

6.3.1 數據並行/105

6.3.2 模型並行/106

6.4 分布式訓練的技術路線/110

6.4.1 Pathways/111

6.4.2 Megatron-LM/113

6.4.3 ZeRO/116

6.5 訓練策略案例/120

6.5.1 訓練框架/120

6.5.2 參數穩定性/120

6.5.3 訓練設置的調整/121

6.5.4 BF16優化/121

6.5.5 其他因素/122

6.6 小結/123

第7章 近端策略優化算法/124

7.1 傳統的策略梯度方法/125

7.1.1 策略梯度方法的基本原理/125

7.1.2 重要性採樣/127

7.1.3 優勢函數/128

7.2 Actor-Critic算法/129

7.2.1 Actor-Critic算法的基本步驟/130

7.2.2 值函數與策略更新/131

7.2.3 Actor-Critic算法的問題與挑戰/131

7.3 信任域策略優化算法/132

7.3.1 TRPO算法的目標/132

7.3.2 TRPO算法的局限性/133

7.4 PPO算法的原理/134

7.5 小結/137

第8章 人類反饋強化學習/138

8.1 強化學習在ChatGPT迭代中的作用/138

8.2 InstructGPT訓練數據集/140

8.2.1 微調數據集的來源/141

8.2.2 標註標準/142

8.2.3 數據分析/143

8.3 人類反饋強化學習的訓練階段/145

8.3.1 有監督微調階段/145

8.3.2 獎勵建模階段/147

8.3.3 強化學習階段/148

8.4 獎勵建模算法/149

8.4.1 算法思想/149

8.4.2 損失函數/150

8.5 PPO算法在InstructGPT中的應用/151

8.6 多輪對話能力/153

8.7 人類反饋強化學習的必要性/154

8.8 小結/156

第9章 大語言模型的低算力領域遷移/157

9.1 指令自舉標註/157

9.2 人工智能反饋/161

9.3 低秩自適應/163

9.3.1 模型訓練與部署/164

9.3.2 秩的選擇/165

9.4 量化:降低部署的算力要求/166

9.5 SparseGPT剪枝算法/168

9.6 開源大語言模型的低算力遷移案例/170

9.6.1 基座模型/170

9.6.2 自舉指令微調的羊駝系列/171

9.6.3 中文解決方案/172

9.6.4 醫療領域的遷移實例/174

9.6.5 司法領域的遷移實例/175

9.7 小結/178

第10章 中間件編程/180

10.1 補齊短板——LangChain恰逢其時/180

10.2 多模態融合中間件/184

10.2.1 任務規劃/185

10.2.2 模型選擇/187

10.2.3 任務執行/188

10.2.4 響應生成/189

10.3 AutoGPT自主代理與任務規劃/189

10.4 中間件框架的競品/192

10.5 小結/194

第11章 大語言模型的未來之路/195

11.1 強人工智能之路/195

11.2 數據資源枯竭/198

11.3 自回歸模型的局限性/200

11.4 具身智能/202

11.4.1 具身智能的挑戰/203

11.4.2 PaLM-E/204

11.4.3 ChatGPT for Robotics/205

11.5 小結/210

參考文獻