精通特徵工程檢視原始碼討論檢視歷史
《精通特徵工程》,愛麗絲·鄭等 著,陳光欣 譯,出版社: 人民郵電出版社。
人民郵電出版社是全國優秀出版社、全國百佳圖書出版單位。人民郵電出版社出版領域涵蓋科技出版、教育出版、大眾出版,涉及信息技術、通信、工業技術、科普[1]、經濟管理、攝影、藝術、運動與休閒、心理學、少兒、大中專教材等10餘個出版門類,年出版圖書[2]近萬種。
內容簡介
本書介紹大量特徵工程技術,闡明特徵工程的基本原則。主要內容包括:機器學習流程中 的基本概念,數值型數據的基礎特徵工程,自然文本的特徵工程,詞頻- 逆文檔頻率,高效的分類變量編碼技術,主成分分析,模型堆疊,圖像處理,等等。
作者介紹
愛麗絲·鄭(Alice Zheng) 亞ma遜廣告平台建模和優化團隊負責人,應用機器學習、生成算法和平台開發領域的技術領dao者,前微軟研究院機器學習研究員。 阿曼達·卡薩麗(Amanda Casari) 谷歌雲*發者關係工程經理,曾是Concur Labs的產品經理和數據科學家,在數據科學、機器學習、複雜系統和機器人等多個領域都有豐富經驗。
目錄
前言 ix
第 1 章 機器學習流程 1
1.1 數據 1
1.2 任務 1
1.3 模型 2
1.4 特徵 3
1.5 模型評價 3
第 2 章 簡單而又奇妙的數值 4
2.1 標量、向量和空間 5
2.2 處理計數 7
2.2.1 二值化 7
2.2.2 區間量化(分箱) 9
2.3 對數變換 13
2.3.1 對數變換實戰 16
2.3.2 指數變換:對數變換的推廣 19
2.4 特徵縮放/ 歸一化 24
2.4.1 min-max 縮放 24
2.4.2 特徵標準化/ 方差縮放 24
2.4.3 2
歸一化 25
2.5 交互特徵 28
2.6 特徵選擇 30
2.7 小結 31
2.8 參考文獻 32
第3 章 文本數據:扁平化、過濾和分塊 33
3.1 元素袋:將自然文本轉換為扁平向量 34
3.1.1 詞袋 34
3.1.2 n 元詞袋 37
3.2 使用過濾獲取清潔特徵 39
3.2.1 停用詞 39
3.2.2 基於頻率的過濾 40
3.2.3 詞幹提取 42
3.3 意義的單位:從單詞、n 元詞到短語 43
3.3.1 解析與分詞 43
3.3.2 通過搭配提取進行短語檢測 44
3.4 小結 50
3.5 參考文獻 51
第4 章 特徵縮放的效果:從詞袋到tf-idf 52
4.1 tf-idf:詞袋的一種簡單擴展 52
4.2 tf-idf 方法測試 54
4.2.1 創建分類數據集 55
4.2.2 使用tf-idf 變換來縮放詞袋 56
4.2.3 使用邏輯回歸進行分類 57
4.2.4 使用正則化對邏輯回歸進行調優 58
4.3 深入研究:發生了什麼 62
4.4 小結 64
4.5 參考文獻 64
第5 章 分類變量:自動化時代的數據計數 65
5.1 分類變量的編碼 66
5.1.1 one-hot 編碼 66
5.1.2 虛擬編碼 66
5.1.3 效果編碼 69
5.1.4 各種分類變量編碼的優缺點 70
5.2 處理大型分類變量 70
5.2.1 特徵散列化 71
5.2.2 分箱計數 73
5.3 小結 79
5.4 參考文獻 80
第6 章 數據降維:使用PCA 擠壓數據 82
6.1 直觀理解 82
6.2 數學推導 84
6.2.1 線性投影 84
6.2.2 方差和經驗方差 85
6.2.3 主成分:第 1種表示形式 86
6.2.4 主成分:矩陣- 向量表示形式 86
6.2.5 主成分的通用解 86
6.2.6 特徵轉換 87
6.2.7 PCA 實現 87
6.3 PCA 實戰 88
6.4 白化與ZCA 89
6.5 PCA 的局限性與注意事項 90
6.6 用例 91
6.7 小結 93
6.8 參考文獻 93
第7 章 非線性特徵化與k-均值模型堆疊 94
7.1 k-均值聚類 95
7.2 使用聚類進行曲面拼接 97
7.3 用於分類問題的k-均值特徵化 100
7.4 優點、缺點以及陷阱 105
7.5 小結 107
7.6 參考文獻 107
第8 章 自動特徵生成:圖像特徵提取和深度學習 108
8.1 *簡單的圖像特徵(以及它們因何失效) 109
8.2 人工特徵提取:SIFT 和HOG 110
8.2.1 圖像梯度 110
8.2.2 梯度方向直方圖 113
8.2.3 SIFT 體系 116
8.3 通過深度神經網絡學習圖像特徵 117
8.3.1 全連接層 117
8.3.2 卷積層 118
8.3.3 ReLU 變換 122
8.3.4 響應歸一化層 123
8.3.5 池化層 124
8.3.6 AlexNet 的結構 124
8.4 小結 127
8.5 參考文獻 128
第9 章 回到特徵:建立學術論文推薦器 129
9.1 基於項目的協同過濾 129
9.2 第 1關:數據導入、清理和特徵解析 130
9.3 *二關:更多特徵工程和更智能的模型 136
9.4 第三關:更多特徵= 更多信息 141
9.5 小結 144
9.6 參考文獻 144
附錄A 線性建模與線性代數基礎 145
A.1 線性分類概述 145
A.2 矩陣的解析 147
A.2.1 從向量到子空間 148
A.2.2 奇異值分解(SVD) 150
A.2.3 數據矩陣的四個基本子空間 151
A.3 線性系統求解 153
A.4 參考文獻 155
作者簡介 156
封面簡介 156
參考文獻
- ↑ 100部科普經典名著,豆瓣,2018-04-26
- ↑ 圖書的演變歷史資料,學習啦,2017-06-07