Python和PySpark數據分析檢視原始碼討論檢視歷史

來自孔夫子網的圖片

《Python和PySpark數據分析》，出版社：清華大學出版社，ISBN：9787302645368。

清華大學出版社成立於1980年6月，是教育部主管、清華大學主辦的綜合性大學出版社^[1]。清華社先後榮獲「先進高校出版社」「全國優秀出版社」「全國百佳圖書出版單位」「中國版權最具影響力企業」「首屆全國教材建設獎全國教材建設先進集體」等榮譽^[2]。

內容簡介

Spark數據處理引擎是一個驚人的分析工廠：輸入原始數據，輸出洞察。PySpark用基於Python的API封裝了Spark的核心引擎。它有助於簡化Spark陡峭的學習曲線，並使這個強大的工具可供任何在Python數據生態系統中工作的人使用。《Python和PySpark數據分析》幫助你使用PySpark解決數據科學的日常挑戰。你將學習如何跨多台機器擴展處理能力，同時從任何來源(無論是Hadoop集群、雲數據存儲還是本地數據文件)獲取數據。一旦掌握了基礎知識，就可以通過構建機器學習管道，並配合Python、pandas和PySpark代碼，探索PySpark的全面多功能特性。主要內容 ● 組織PySpark代碼 ● 管理任何規模的數據 ● 充滿信心地擴展你的數據項目 ● 解決常見的數據管道問題 ● 創建可靠的長時間運行的任務

作者介紹

作為一家數據驅動軟件公司的ML總監，Jonathan Rioux每天都在使用PySpark。他向數據科學家、數據工程師和精通數據的業務分析師講授PySpark的用法。

參考文獻

↑ 我國出版社的等級劃分和分類標準，知網出書，2021-03-01
↑ 企業簡介，清華大學出版社有限公司

[1] 我國出版社的等級劃分和分類標準，知網出書，2021-03-01

[2] 企業簡介，清華大學出版社有限公司

[1]

[2]

Python和PySpark數據分析檢視原始碼討論檢視歷史

目錄

內容簡介

作者介紹

參考文獻