求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

Pig編程指南檢視原始碼討論檢視歷史

事實揭露 揭密真相
前往: 導覽搜尋
Pig編程指南

《Pig編程指南》不僅為初學者講解Apache Pig的基礎知識,同時也向有一定使用經驗的高級用戶介紹更加綜合全面的Pig重要特性,如PigLatin腳本語言、控制台shell交互命令以及用於對Pig進行拓展的用戶自定義函數(UDF)等。當讀者有大數據處理需求時,《Pig編程指南》提供了如何更高效地使用Pig來完成需求的方法。 《Pig編程指南》適合各個層次的Pig用戶及開發人員閱讀使用。

基本內容

作者:蓋茨

譯者:曹坤

頁數:191

ISBN:9787115301116

外文名:Programming Pig

開本:16

出版社:人民郵電出版社

出版時間:2013-2

定價:49.00元

書名:Pig編程指南

品牌:人民郵電出版社

內容介紹

《Pig編程指南》不僅為初學者講解ApachePig的基礎知識,同時也向有一定使用經驗的高級用戶介紹更加綜合全面的Pig重要特性,如PigLatin腳本語言、控制台shell交互命令以及用於對Pig進行拓展的用戶自定義函數(UDF)等。當讀者有大數據處理需求時,提供了如何更高效地使用Pig來完成需求的方法。

推薦

Apache Pig 是一個高級過程語言,適合於使用 Hadoop 和 MapReduce 平台來查詢大型半結構化數據集。通過允許對分布式數據集進行類似 SQL 的查詢,Pig 可以簡化 Hadoop 的使用。本文不僅為初學者講授,Pig 的基礎知識,同時還向有經驗的用戶更加全面的介紹Pig的重點特性。 通過學習本書,你將能夠身日了解數據模型,包括基本數據和複雜數據類型。掌握更高效的在Hadoop集群中運行腳本的方法和技巧。

目錄

第1章初識Pig

1.1Pig是什麼?

1.1.1Pig是基於Hadoop的

1.1.2PigLatin,一種並行數據流語言

1.1.3Pig的用途

1.1.4Pig的設計思想

1.2Pig發展簡史

第2章安裝和運行Pig

2.1下載和安裝Pig

2.1.1從Apache下載Pig軟件包

2.1.2從Cloudera下載Pig

2.1.3使用Maven下載Pig

2.1.4下載Pig源碼

2.2運行Pig

2.2.1本地單機運行Pig

2.2.2在Hadoop集群上運行Pig

2.2.3在雲服務上運行Pig

2.2.4命令行使用以及配置選項介紹

2.2.5返回碼

第3章命令行交互工具Grunt

3.1在Grunt中輸入Pig Latin腳本

3.2在Grunt中使用HDFS命令

3.3在Grunt中控制Pig

第4章Pig數據模型

4.1數據類型

4.1.1基本類型

4.1.2複雜類型

4.1.3NULL值

4.2模式

第5章PigLatin介紹

5.1基礎知識

5.1.1大小寫敏感

5.1.2注釋

5.2輸入和輸出

5.2.1加載

5.2.2存儲

5.2.3輸出

5.3關係操作

5.3.1foreach

5.3.2Filter

5.3.3Group

5.3.4Orderby

5.3.5Distinct

5.3.6Join

5.3.7Limit

5.3.8Sample

5.3.9Parallel

5.4用戶自定義函數UDF

5.4.1註冊UDF

5.4.2define命令和UDF

5.4.3調用靜態Java函數

第6章PigLatin高級應用

6.1高級關係操作

6.1.1foreach的高級功能

6.1.2使用不同的Join實現方法

6.1.3cogroup

6.1.4union

6.1.5cross

6.2在Pig中集成遺留代碼和Map Reduce程序

6.2.1stream

6.2.2mapreduce

6.3非線性數據流

6.4執行過程控制

6.4.1set

6.4.2設置分割器

6.5PigLatin預處理器

6.5.1參數傳入

6.5.2宏

6.5.3包含其他的Pig Latin腳本

第7章開發和測試Pig Latin腳本

7.1開發工具

7.1.1語法高亮和語法檢查

7.1.2describe

7.1.3explain

7.1.4illustrate

7.1.5Pig統計信息

7.1.6Map Reduce任務運行狀態信息

7.1.7調試技巧

7.2使用Pig Unit測試用戶的腳本

第8章讓Pig飛起來

8.1編寫優質的腳本

8.1.1儘早地並經常地進行過濾

8.1.2儘早地並經常地進行映射

8.1.3正確併合理使用join

8.1.4適當的情況下使用multiquery

8.1.5選擇正確的數據類型

8.1.6選擇合適的並行值

8.2編寫優質的UDF

8.3調整Pig和Hadoop

8.4對計算中間結果進行壓縮

8.5數據層優化

8.6垃圾數據處理

第9章在Python中嵌入Pig Latin腳本

9.1編譯

9.2綁定

9.3運行

9.4工具方法

第10章編寫評估函數和過濾函數

10.1使用Java編寫評估函數

10.1.1UDF將在哪裡執行

10.1.2求值函數基本概念

10.1.3輸入和輸出模式

10.1.4錯誤處理和處理過程信息報告

10.1.5構造器和將數據從前端傳送到後端

10.1.6重載UDF

10.1.7運算函數的內存問題

10.2代數運算接口

10.3累加器接口

10.4使用Python寫UDF

10.5書寫過濾器函數

第11章編寫加載函數和存儲函數

11.1加載函數

11.1.1前端執行計劃函數

11.1.2從前端調用傳遞信息到後端調用

11.1.3後端數據讀取

11.1.4可擴展的加載函數接口

11.2存儲函數

11.2.1存儲函數前端執行計劃

11.2.2存儲函數和UDF Context

11.2.3寫數據

11.2.4任務失敗後數據的清理

11.2.5存儲元數據信息

第12章Pig和其他Hadoop社區的成員

12.1Pig和Hive

12.2Cascading

12.3NoSQL數據庫

12.3.1HBase

12.3.2Cassandra

12.4Hadoop中的元數據

附錄A內置的用戶自定義函數和Piggybank

內置UDF

內置加載函數和存儲函數

內置求值函數和過濾函數

Piggybank

附錄BHadoop綜述

Map Reduce

Map階段

Combiner階段

Shuffle階段

Reduce階段

輸出階段

分布式緩存

故障處理

HDFS

作者介紹

書末說明

作者簡介

alan gates 是將PIG從雅虎的研究項目轉化成一個成功的Apache開源項目的工程師團隊中最早的成員。他負責監督Pig的實現、編程接口和總體設計。[1]

參考文獻

  1. Pig編程指南道客巴巴網,2019-02-13