×

正在处理。。。

即刻使用手机阅读

编程语言与程序设计 深入大型数据集:并行与分布化Python代码

作者:J.T. 沃勒翰 字数:14.7万字 出版社:电子工业出版社

价格:6930阅饼

免费试读 购买
扫一扫 扫一扫

本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。本书适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。

快来抢沙发~

快来说两句,抢沙发

看过的人还看

获取掌阅iReader

京ICP备11008516号(署)网出证(京)字第143号京ICP证090653号京公网安备11010502030452

2015 All Rights Reserved 掌阅科技股份有限公司 版权所有

不良信息举报:jubao@zhangyue.com 举报电话:010-59845699