Hive編程指南
Hive編程指南 |
《Hive編程指南》是一本Apache Hive的編程指南,旨在介紹如何使用Hive的SQL方法——HiveQL來匯總、查詢和分析存儲在Hadoop分布式文件系統上的大數據集合。全書通過大量的實例,首先介紹如何在用戶環境下安裝和配置Hive,並對Hadoop和MapReduce進行詳盡闡述,最終演示Hive如何在Hadoop生態系統進行工作。 《Hive編程指南》適合對大數據感興趣的愛好者以及正在使用Hadoop系統的數據庫管理員閱讀使用。
目錄
基本內容
外文名:Programming Hive
作者:卡普廖洛 (Edward Capriolo) 萬普勒 (Dean Wampler)
頁數:318頁
出版日期:2013年12月1日
書名:Hive編程指南
出版社:人民郵電出版社
開本:16
ISBN:7115333831、9787115333834
語種:簡體中文
類型:計算機與互聯網
內容簡介
市場中第一本Hive圖書。
Hive在Hadoop系統中的應用趨勢比較可觀。
作者簡介
Edward Capriolo:Media6degrees公司系統管理員,他是Apache軟件基金會成員,還是Hadoop-Hive項目成員。
Dean Wampler:Think Big Analytics公司總顧問,對大數據問題以及Hadoop和機器學習有專門的研究。
Jason Rutherglen:Think Big Analytics公司軟件架構師,對大數據、Hadoop、搜索和安全有專門的研究。
圖書目錄
第1章基礎知識
1.1Hadoop和MapReduce綜述
1.2Hadoop生態系統中的Hive
1.2.1Pig
1.2.2HBase
1.2.3Cascading、Crunch及其他
1.3Java和Hive:詞頻統計算法
1.4後續事情
第2章基礎操作
2.1安裝預先配置好的虛擬機
2.2安裝詳細步驟
2.2.1裝Java
2.2.2安裝Hadoop
2.2.3本地模式、偽分布式模式和分布式模式
2.2.4測試Hadoop
2.2.5安裝Hive
2.3Hive內部是什麼
2.4啟動Hive
2.5配置Hadoop環境
2.5.1本地模式配置
2.5.2分布式模式和偽分布式模式配置
2.5.3使用JDBC連接元數據
2.6Hive命令
2.7命令行界面
2.7.1CLI選項
2.7.2變量和屬性
2.7.3Hive中「一次使用」命令
2.7.4從文件中執行Hive查詢
2.7.5hiverc文件
2.7.6使用HiveCLI的更多介紹
2.7.7查看操作命令歷史
2.7.8執行shell命令
2.7.9在Hive內使用Hadoop的dfs命令
2.7.10Hive腳本中如何進行注釋
2.7.11顯示字段名稱
第3章數據類型和文件格式
3.1基本數據類型
3.2集合數據類型
3.3文本文件數據編碼
3.4讀時模式
第4章HiveQL:數據定義
4.1Hive中的數據庫
4.2修改數據庫
4.3創建表
4.3.1管理表
4.3.2外部表
4.4分區表、管理表
4.4.1外部分區表
4.4.2自定義表的存儲格式
4.5刪除表
4.6修改表
4.6.1表重命名
4.6.2增加、修改和刪除表分區
4.6.3修改列信息
4.6.4增加列
4.6.5刪除或者替換列
4.6.6修改表屬性
4.6.7修改存儲屬性
4.6.8眾多的修改表語句
第5章HiveQL:數據操作
5.1向管理表中裝載數據
5.2通過查詢語句向表中插入數據
5.3單個查詢語句中創建表並加載數據
5.4導出數據
第6章HiveQL:查詢
6.1SELECT…FROM語句
6.1.1使用正則表達式來指定列
6.1.2使用列值進行計算
6.1.3算術運算符
6.1.4使用函數
6.1.5LIMIT語句
6.1.6列別名
6.1.7嵌套SELECT語句
6.1.8CASE…WHEN…THEN句式
6.1.9什麼情況下Hive可以避免進行MapReduce
6.2WHERE語句
6.2.1謂詞操作符
6.2.2關於浮點數比較
6.2.3LIKE和RLIKE
6.3GROUPBY語句
6.4JOIN語句
6.4.1INNERJOIN
6.4.2JOIN優化
6.4.3LEFTOUTERJOIN
6.4.4OUTERJOIN
6.4.5RIGHTOUTERJOIN
6.4.6FULLOUTERJOIN
6.4.7LEFTSEMI—JOIN
6.4.8笛卡爾積JOIN
6.4.9map—sideJOIN
6.5ORDERBY和SORTBY
6.6含有SORTBY的DISTRIBUTEBY
6.7CLUSTERBY
6.8類型轉換
6.9抽樣查詢
6.9.1數據塊抽樣
6.9.2分桶表的輸入裁剪
6.10UNIONALL
第7章HiveQL:視圖
7.1使用視圖來降低查詢複雜度
7.2使用視圖來限制基於條件過濾的數據
7.3動態分區中的視圖和map類型
7.4視圖零零碎碎相關的事情
第8章HiveQL:索引
8.1創建索引
8.2重建索引
8.3顯示索引
8.4刪除索引
8.5實現一個定製化的索引處理器
第9章模式設計
9.1按天劃分的表
9.2關於分區
9.3唯一鍵和標準化
9.4同一份數據多種處理
9.5對於每個表的分區
9.6分桶表數據存儲
9.7為表增加列
9.8使用列存儲表
9.8.1重複數據
9.8.2多列
9.9(幾乎)總是使用壓縮
第10章調優
10.1使用EXPLAIN
10.2EXPLAINEXTENDED
10.3限制調整
10.4JOIN優化
10.5本地模式
10.6並行執行
10.7嚴格模式
10.8調整mapper和reducer個數
10.9JVM重用
10.10索引
10.11動態分區調整
10.12推測執行
10.13單個MapReduce中多個GROUPBY
10.14虛擬列
第11章其他文件格式和壓縮方法
11.1確定安裝編解碼器
11.2選擇一種壓縮編/解碼器
11.3開啟中間壓縮
11.4最終輸出結果壓縮
11.5sequencefile存儲格式
11.6使用壓縮實踐
11.7存檔分區
11.8壓縮:包紮
……
第12章開發
第13章函數
第14章Streaming
第15章自定義Hive文件和記錄格式
第16章Hive的Thrift服務
第17章存儲處理程序和NoSQL
第18章安全
第19章鎖
第20章Hive和Oozie整合
第21章Hive和亞馬遜網絡服務系統(AWS)
第22章HCatalog
第23章案例研究
術語詞彙表[1]
參考文獻
- ↑ Hive編程指南 PDF 高質量版碼農之家網,2019-11-07