自然語言處理導論檢視原始碼討論檢視歷史
《自然語言處理導論》,張奇,桂韜,黃萱菁 著,出版社: 電子工業出版社。
電子工業出版社成立於1982年10月,是工業和信息化部直屬的科技與教育出版社,每年出版新書2400餘種,音像和電子出版物400餘種,期刊8種,出版物內容涵蓋了信息科技的各個專業分支以及工業技術、經濟管理、大眾生活、少兒科普[1]等領域,綜合出版能力位居全國出版行業前列[2]。
內容簡介
自然語言處理是人工智能的重要方向之一,被譽為人工智能皇冠上的"明珠」。它融合了語言學、計算 機科學、機器學習等多學科內容。本書主要包含基礎技術、核心技術以及模型分析三個部分。基礎技術部分 主要介紹自然語言處理的基礎任務和底層技術,包含詞彙分析、句法分析、語義分析、篇章分析和語言模型; 核心技術部分主要介紹自然語言處理應用任務和相關技術,主要包括信息抽取、機器翻譯、情感分析、智能 問答、文本摘要、知識圖譜;模型分析部分主要介紹基於機器學習的自然語言處理模型的穩健性和可解釋性 問題。
目錄
第 1 部分 基礎技術
第 1 章 緒論 2
1.1 自然語言處理的基本概念 2
1.1.1 自然語言處理簡史 2
1.1.2 自然語言處理的主要研究內容 5
1.1.3 自然語言處理的主要難點 7
1.2 自然語言處理的基本範式 10
1.2.1 基於規則的方法 11
1.2.2 基於機器學習的方法 12
1.2.3 基於深度學習的方法 14
1.2.4 基於大模型的方法 15
1.3 本書內容安排 16
第 2 章 詞彙分析 18
2.1 語言中的詞彙 18
2.1.1 詞的形態學 18
2.1.2 詞的詞性 19
2.2 詞語規範化 23
2.2.1 詞語切分 23
2.2.2 詞形還原 24
2.2.3 詞幹提取 24
2.3 中文分詞 25
2.3.1 中文分詞概述 25
2.3.2 基於優選匹配的中文分詞算法 28
2.3.3 基於線性鏈條件隨機場的中文分詞算法 29
2.3.4 基於感知器的中文分詞算法 31
2.3.5 基於雙向長短期記憶網絡的中文分詞算法 34
2.3.6 中文分詞評測方法 36
2.3.7 中文分詞語料庫 37
2.4 詞性標註 38
2.4.1 基於規則的詞性標註 39
2.4.2 基於隱馬爾可夫模型的詞性標註 40
2.4.3 基於卷積神經網絡的詞性標註 42
2.4.4 詞性標註評測方法 44
2.4.5 詞性標註語料庫 45
2.5 延伸閱讀 46
2.6 習題 47
第 3 章 句法分析 48
3.1 句法概述 48
3.1.1 成分語法理論概述 49
3.1.2 依存語法理論概述 51
3.2 成分句法分析 53
3.2.1 基於上下文無關語法的成分句法分析 54
3.2.2 基於概率上下文無關語法的成分句法分析 59
3.2.3 成分句法分析評測方法 67
3.3 依存句法分析 69
3.3.1 基於圖的依存句法分析 70
3.3.2 基於神經網絡的圖依存句法分析 74
3.3.3 基於轉移的依存句法分析 79
3.3.4 基於神經網絡的轉移依存句法分析 82
3.3.5 依存句法分析評測方法 85
3.4 句法分析語料庫 86
3.5 延伸閱讀 89
3.6 習題 90
第 4 章 語義分析 91
4.1 語義學概述 91
4.1.1 詞彙語義學 92
4.1.2 句子語義學 96
4.2 語義表示 98
4.2.1 謂詞邏輯表示 99
4.2.2 框架表示 100
4.2.3 語義網絡表示 102
4.3 分布式表示 103
4.3.1 詞分布式表示 104
4.3.2 句子分布式表示 114
4.3.3 篇章分布式表示 117
4.4 詞義消歧 119
4.4.1 基於目標詞上下文的詞義消歧算法 119
4.4.2 基於詞義釋義匹配的詞義消歧算法 122
4.4.3 基於詞義知識增強預訓練的詞義消歧算法 126
4.4.4 詞義消歧評測方法 128
4.4.5 詞義消歧語料庫 128
4.5 語義角色標註 132
4.5.1 基於句法樹的語義角色標註算法 132
4.5.2 基於深度神經網絡的語義角色標註算法 135
4.5.3 語義角色標註評測方法 140
4.5.4 語義角色標註語料庫和語義角色標註評測 140
4.6 延伸閱讀 143
4.7 習題 144
第 5 章 篇章分析 145
5.1 篇章理論概述 145
5.1.1 篇章的銜接 146
5.1.2 篇章的連貫 148
5.1.3 篇章的結構 149
5.2 話語分割 153
5.2.1 基於詞彙句法樹的統計話語分割算法 154
5.2.2 基於循環神經網絡的話語分割算法 155
5.3 篇章結構分析 157
5.3.1 修辭結構篇章分析 157
5.3.2 淺層篇章分析 161
5.4 指代消解 167
5.4.1 基於表述對的指代消解算法 168
5.4.2 基於表述排序的指代消解算法 170
5.4.3 基於實體的指代消解算法 175
5.5 延伸閱讀 179
5.6 習題 180
第 6 章 語言模型 181
6.1 語言模型概述 181
6.2 n 元語言模型 182
6.2.1 加法平滑 184
6.2.2 古德-圖靈估計法 184
6.2.3 Katz 平滑 185
6.2.4 平滑方法總結 187
6.3 神經網絡語言模型 188
6.3.1 前饋神經網絡語言模型 188
6.3.2 循環神經網絡語言模型 189
6.4 預訓練語言模型 191
6.4.1 動態詞向量算法 ELMo 191
6.4.2 生成式預訓練語言模型 GPT 193
6.4.3 掩碼預訓練語言模型 BERT 195
6.4.4 序列到序列的預訓練語言模型 BART 199
6.4.5 預訓練語言模型的應用 201
6.5 大規模語言模型 203
6.5.1 基礎大模型訓練 205
6.5.2 指令微調 207
6.5.3 人類反饋 209
6.6 語言模型評測方法 210
6.7 延伸閱讀 210
6.8 習題 212
第 2 部分 核心技術
第 7 章 信息抽取 214
7.1 信息抽取概述 214
7.2 命名實體識別 216
7.2.1 非嵌套命名實體識別 217
7.2.2 嵌套命名實體識別 225
7.2.3 多規範命名實體識別 230
7.2.4 命名實體識別評測方法 233
7.2.5 命名實體識別語料庫 233
7.3 關係抽取 235
7.3.1 有監督關係抽取 236
7.3.2 遠程監督關係抽取 240
7.3.3 開放關係抽取 245
7.3.4 關係抽取評測方法 249
7.3.5 關係抽取語料庫 250
7.4 事件抽取 251
7.4.1 限定域事件抽取 251
7.4.2 開放域事件抽取 255
7.4.3 事件抽取評測方法 260
7.4.4 事件抽取語料庫 260
7.5 延伸閱讀 261
7.6 習題 262
第 8 章 機器翻譯.263
8.1 機器翻譯概述 263
8.1.1 機器翻譯的發展歷程 264
8.1.2 機器翻譯的現狀與挑戰 265
8.2 基於統計的機器翻譯方法 266
8.2.1 任務定義與基本問題 266
8.2.2 IBM 模型Ⅰ 270
8.2.3 IBM 模型Ⅱ 274
8.2.4 IBM 模型Ⅲ 275
8.2.5 IBM 模型Ⅳ 276
8.2.6 IBM 模型Ⅴ 277
8.3 基於神經網絡的機器翻譯方法 278
8.3.1 循環神經網絡翻譯模型 279
8.3.2 卷積神經網絡翻譯模型 281
8.3.3 自注意力神經網絡翻譯模型 284
8.4 機器翻譯語料庫 288
8.5 延伸閱讀 290
8.6 習題 291
第 9 章 情感分析 292
9.1 情感分析概述 292
9.1.1 情感模型 293
9.1.2 情感分析的主要任務 297
9.2 篇章級情感分析 300
9.2.1 基於支持向量機的篇章級情感分析 301
9.2.2 基於層次結構的篇章級情感分析 303
9.2.3 篇章級情感分析語料庫 305
9.3 句子級情感分析 307
9.3.1 基於詞典的句子級情感分析 308
9.3.2 基於遞歸神經張量網絡的句子級情感分析 309
9.3.3 基於情感知識增強預訓練的句子級情感分析 310
9.3.4 句子級情感分析語料庫 312
9.4 屬性級情感分析 313
9.4.1 情感信息抽取 313
9.4.2 屬性級情感分類 319
9.4.3 屬性級情感分析語料庫 329
9.5 延伸閱讀 331
9.6 習題 331
第 10 章 智能問答 332
10.1 智能問答概述 332
10.1.1 智能問答的發展歷程 333
10.1.2 智能問答的主要類型 334
10.2 閱讀理解 336
10.2.1 基於特徵的閱讀理解算法 337
10.2.2 基於深度神經網絡的閱讀理解算法 340
10.2.3 閱讀理解語料庫 346
10.3 表格問答 347
10.3.1 基於特徵的表格問答方法 348
10.3.2 基於深度學習的表格問答模型 349
10.3.3 表格問答語料庫 350
10.4 社區問答 351
10.4.1 基於特徵的語義匹配算法 352
10.4.2 基於深度學習的語義匹配算法 353
10.4.3 社區問答語料庫 356
10.5 開放領域問答 357
10.5.1 基於檢索-閱讀理解架構的開放領域問答模型 358
10.5.2 基於端到端架構的開放領域問答模型 360
10.5.3 開放領域問答語料庫 362
10.6 延伸閱讀 363
10.7 習題 364
第 11 章 文本摘要 365
11.1 文本摘要概述 365
11.1.1 文本摘要的發展歷程 365
11.1.2 文本摘要的主要任務 367
11.2 抽取式文本摘要 368
11.2.1 基於排序的方法 368
11.2.2 基於序列標註的方法 373
11.3 生成式文本摘要 377
11.3.1 序列到序列生成式文本摘要 378
11.3.2 抽取與生成結合式文本摘要 384
11.4 文本摘要評測 388
11.4.1 人工評測 389
11.4.2 自動評測 390
11.5 文本摘要語料庫 393
11.5.1 單文檔摘要語料庫 393
11.5.2 多文檔摘要語料庫 393
11.5.3 對話摘要語料庫 393
11.5.4 多模態文本摘要語料庫 394
11.5.5 跨語言文本摘要語料庫 394
11.6 延伸閱讀 394
11.7 習題 395
第 12 章 知識圖譜 396
12.1 知識圖譜概述 396
12.1.1 知識圖譜的發展歷程 398
12.1.2 知識圖譜的研究內容 399
12.2 知識圖譜的表示與存儲 400
12.2.1 知識圖譜的符號表示 401
12.2.2 知識圖譜的向量表示 404
12.2.3 基於表的知識圖譜存儲 407
12.2.4 基於圖的知識圖譜存儲 410
12.3 知識圖譜的獲取與構建 413
12.3.1 屬性補全 415
12.3.2 實體鏈接 417
12.3.3 實體對齊 421
12.4 知識圖譜推理 426
12.4.1 基於符號邏輯的知識圖譜推理 427
12.4.2 基於表示學習的知識圖譜推理 430
12.5 知識圖譜問答 434
12.5.1 基於語義解析的知識圖譜問答 435
12.5.2 基於信息檢索的知識圖譜問答 437
12.5.3 基於深度學習的知識圖譜問答 441
12.5.4 知識圖譜問答語料庫 445
12.6 延伸閱讀 446
12.7 習題 447
第 3 部分 模型分析
第 13 章 模型穩健性 449
13.1 穩健性概述 449
13.1.1 穩健性的基本概念 450
13.1.2 穩健性的主要研究內容 451
13.2 數據偏差消除 452
13.3 文本對抗攻擊方法 454
13.3.1 字符級別的攻擊方法 455
13.3.2 詞級別的攻擊方法 456
13.3.3 句子級別的攻擊方法 458
13.3.4 後門攻擊 459
13.4 文本對抗防禦方法 463
13.4.1 基於對抗訓練的文本對抗防禦方法 463
13.4.2 基於表示壓縮的文本對抗防禦方法 465
13.4.3 基於數據增強的文本對抗防禦方法 466
13.4.4 對抗樣本檢測 468
13.5 模型穩健性評測基準 469
13.5.1 特定任務穩健性評測基準 469
13.5.2 模型穩健性通用評測基準 472
13.6 延伸閱讀 477
13.7 習題 478
第 14 章 模型可解釋性 479
14.1 可解釋性概述 479
14.1.1 可解釋性的分類 480
14.1.2 解釋方法評估 481
14.2 解釋性分析方法 483
14.2.1 局部分析方法 483
14.2.2 全局分析方法 489
14.3 自然語言處理算法的解釋性分析方法 492
14.3.1 模型解釋性分析方法 492
14.3.2 數據解釋性分析方法 496
14.3.3 可解釋評估 498
14.4 延伸閱讀 500
14.5 習題 500
參考文獻 501
索引 564
參考文獻
- ↑ 100部科普經典名著,豆瓣,2018-04-26
- ↑ 關於我們,電子工業出版社