開啟主選單
求真百科
搜尋
檢視 Python和PySpark数据分析 的原始碼
←
Python和PySpark数据分析
由於下列原因,您沒有權限進行 編輯此頁面 的動作:
您請求的操作只有這個群組的使用者能使用:
用戶
您可以檢視並複製此頁面的原始碼。
{| class="wikitable" align="right" |- |<center><img src=https://www0.kfzimg.com/sw/kfz-cos/kfzimg/20581873/6969987e68a6019d_s.jpg width="260"></center> <small>[https://book.kongfz.com/306317/7188733904 来自 孔夫子网 的图片]</small> |} 《'''Python和PySpark数据分析'''》,出版社: 清华大学出版社,ISBN:9787302645368。 清华大学出版社成立于1980年6月,是教育部主管、[[清华大学]]主办的综合性大学出版社<ref>[http://www.zhongyw.com.cn/news/show-53574.html 我国出版社的等级划分和分类标准],知网出书,2021-03-01</ref>。清华社先后荣获 “先进高校出版社”“全国优秀出版社”“全国百佳图书出版单位”“中国版权最具影响力企业”“首届全国教材建设奖全国[[教材]]建设先进集体”等荣誉<ref>[http://www.tup.tsinghua.edu.cn/aboutus/qyjj.html 企业简介],清华大学出版社有限公司</ref>。 ==内容简介== Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。 《Python和PySpark数据分析》帮助你使用PySpark解决数据[[科学]]的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。 主要内容 ● 组织PySpark代码 ● 管理任何规模的数据 ● 充满信心地扩展你的数据项目 ● 解决常见的数据管道问题 ● 创建可靠的长时间运行的任务 ==作者介绍== 作为一家数据驱动软件公司的ML[[总监]],Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。 ==参考文献== [[Category:040 類書總論;百科全書總論]]
返回「
Python和PySpark数据分析
」頁面