開啟主選單

求真百科

Hadoop權威指南

Hadoop權威指南

本書從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數據集的理想工具。全書共14章,3個附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分布式文件系統;Hadoop的I/O、MapReduce應用程序開發;MapReduce的工作機制;MapReduce的類型和格式;MapReduce的特性;如何安裝Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;ZooKeeper簡介,最後還提供了豐富的案例分析。

目錄

基本介紹

書 名: Hadoop權威指南

作 者: (美)懷特 著,曾大聃周傲英 譯,周敏 審校

出 版 社: 清華大學出版社

出版時間: 2010-5-1

I S B N : 9787302224242

定 價: ¥79.00

內容簡介

本書是Hadoop權威參考,程序員可從中探索如何分析海量數據集,管理員可以從中了解如何安裝與運行Hadoop集群。

圖書目錄

第1章 初識Hadoop

第2章 MapReduce簡介

第3章 Hadoop分布式文件系統

第4章 Hadoop的I/O

第5章 MapReduce應用開發

第6章 MapReduce的工作原理

第7章 MapReduce的類型與格式

第8章 MapReduce特性

第9章 Hadoop集群的安裝

第10章 Hadoop的管理

第11章 Pig簡介

第12章 Hbase簡介

第13章 ZooKeeper簡介

第14章 案例研究

附錄A Apache Hadoop的安裝

附錄B Cloudera的Hadoop分發包

附錄C 預備NCDC氣象資料

Hadoop與傳統BI的對比

新興互聯網公司百度,以及傳統航空企業東航,都在大數據領域進行了深入嘗試,同樣在大數據領域同樣樂此不疲的還有雅虎、中國移動、阿里巴巴等。這些企業都無一例外的認識到,數據已經成為企業的核心資產,如何充分利用這部分核心資產,並挖掘更多的商業價值,將關乎這些企業能否在大數據時代繼續保持基業常青。

今天,企業對數據價值的認同已經成為共識,然而如何從海量的數據信息中挖掘其中的價值卻並不那麼容易,幸運的是,百度找到了hadoop數據挖掘與分析工具。

「當時的百度也有自己的幾個分布式處理框架,但是在擴展性和容錯方面尚有一些問題,並且都較為專用,缺乏較通用的計算模型。那時百度也啟動了一系列較底層的基礎框架方面的項目,同時也看到了Google關於MapReduce的論文,於是開始了基於自身需求的Hadoop定製化。」馬如悅如是說。

Hadoop是一個開源的分布式系統基礎架構,由Apache基金會開發,使得用戶可以在不了解分布式底層細節的情況下,開發分布式應用程序,充分利用集群的威力實現高速運算和存儲。Hadoop尤其適合大數據的分析與挖掘,最為常見的應用就是Web數據分析。因為從本質上講,Hadoop提供了在大規模服務器集群中捕捉、組織、搜索、共享以及分析數據的模式,且可以支持多種數據源 (結構化、半結構化和非結構化),規模則能夠從幾十台服務器擴展到上千台服務器。

隨着越來越多的傳統企業開始關注大數據的價值,Hadoop也開始在傳統企業的商業智能或數據分析系統中扮演重要角色。相比傳統的基於數據庫的商業智能解決方案,Hadoop擁有無以比擬的靈活性優勢和成本優勢,這一點eBay自動化架構總監Juhan Lee深有體會:

「從海量的非結構化數據中分析數據,並試圖找出其中暗藏的規律時,我們往往需要構建一個數據分析的模型,並把這些非結構化數據進行結構化,生成一個分析型的數據庫。」 Juhan解釋說。

「問題在於,你根據某種分析的需要將大批非結構化數據轉化成結構化數據之後,一旦分析的需求發生變化,你需要把之前的工作重新做一遍。Hadoop的內部數據存儲能力是非常重要的,能在你不知道該如何處理數據的時候儘可能多的保存數據,Hadoop系統允許你不斷的嘗試。在傳統的數據分析系統中,你必須明確的知道你希望做什麼,需要哪些數據。」

而百度馬如悅則告訴IT168編輯:MapReduce現在在百度使用非常廣泛,包括分布式網頁索引的建立,各種日誌的挖掘分析等。集群總機器數在萬數量級,日均輸入數據處理量在20PB左右。

此外馬如悅認為Hadoop 並不適用於不涉及大量數據的實時處理、計算密集型任務。「一般而言,我們認為MapReduce較適合處理時效性要求在5分鐘以上的業務。」

推薦

《Hadoop權威指南(第2版)(修訂•升級版)》編輯推薦:Google帝國的基石是什麼?MapReduce算法!開源項目Hadoop作為它的一個具體實現,可以輕鬆用於構建和維護一個可靠性高、伸縮性強的分布式系統。 作者Tom White作為Hadoop的項目負責人,通過自己對Hadoop和Hadoop社區的理解,化繁為簡,用淺顯易懂的語言介紹了Hadoop能做什麼,怎麼做才能充分發揮Hadoop的優勢,Hadoop能夠和哪些開源工具結合使用。《Hadoop權威指南(第2版)》是一本主題豐富、講解透徹的權威參考書,可幫助程序員了解分析海量數據集的細枝末節,幫助管理員掌握搭建和運行Hadoop集群的具體過程。

經過修訂和更新的第2版概述了Hadoop的最新動態,例如Hive、sqoop和Avro等。書中還提供了案例分析來幫助讀者了解如何用Hadoop來解決具體的問題。如果想充分利用數據,從中挖掘出有價值的見解或者觀點,毫無疑問,《Hadoop權威指南(第2版)(修訂•升級版)》將是您不可或缺的重要參考。

「誰說大象不能跳舞?Hadoop-輕鬆應對海量數據存儲與分析所帶來的挑戰!」

使用Hadoop分布式文件系統(HDFS)來存儲大型數據集,然後用MapReduce對這些數據II執行分布式計算。Hadoop的數據和I/O構建塊(用於壓縮、數據完整性、序列化和持久處理)。

探究MapReduce應用開發中常見的陷阱和高級特性。設計,構建和管理Hadoop專用集群或在雲上運行Hadoop。使用Pig這種高級的查詢語言來進行大規模數據處理。使用Hive(Hadoop的數據倉庫系統)來分析數據集。

使用HBase(Hadoop的數據庫)來處理結構化數據和半結構化數據。

深入介紹Zookeeper,一個用於構建分布式系統的協作類型工具箱。

Cloudera是一家行業領先的Hadoop軟件和服務供應商。Cloudera's Distribution forHadoop (CDH)是一個基於Apache Hadoop的綜合性數據管理平台,Cloudera Enterprise則包括一些工具、平台和支持,供生產環境中使用Hadoop時使用。

媒體推薦

有了這本權威指南,讀者有機會通過大師的手筆來學習Hadoop——在掌握技術的同時,領略作者的睿智和清晰的文風。 ——Hadoop創始人 Doug Cutting於Cloudera

作者簡介

作者:(美國)懷特(Tom White) 譯者:周敏奇 錢衛寧 金澈清 王曉玲

懷特(Tom White),從2007年以來,一直擔任Apache Hadoop項目負責人。他是Apache軟件基金會的成員之一,同時也是Cloudera的一名工程師。Tom為oreully網、java.net和IBM的developerWorks寫過大量文章,並經常在很多行業大會上發表演講。[1]

參考文獻