登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』Python和Dask数据科学

書城自編碼: 3535771
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作者: [美] 杰西·丹尼尔[Jesse C.,Daniel] 著
國際書號(ISBN): 9787302553786
出版社: 清华大学出版社
出版日期: 2020-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 479

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
背影2
《 背影2 》

售價:NT$ 386.0
她的罪名
《 她的罪名 》

售價:NT$ 279.0
巨变与突围:碰撞中的清帝国:1644—1840
《 巨变与突围:碰撞中的清帝国:1644—1840 》

售價:NT$ 437.0
变态心理揭秘
《 变态心理揭秘 》

售價:NT$ 279.0
非洲三万里(2024版)
《 非洲三万里(2024版) 》

售價:NT$ 381.0
不思而美:一个人的心灵简史
《 不思而美:一个人的心灵简史 》

售價:NT$ 325.0
减压七处方
《 减压七处方 》

售價:NT$ 314.0
成为作家
《 成为作家 》

售價:NT$ 269.0

建議一齊購買:

+

NT$ 1066
《 Hadoop权威指南:大数据的存储与分析(第4版) 》
+

NT$ 822
《 Hadoop权威指南(第3版) 》
+

NT$ 346
《 Hadoop应用实战 》
+

NT$ 389
《 Hadoop高级数据分析 使用Hadoop生态系统设计和构建大数据系统 》
+

NT$ 497
《 Hadoop+Spark生态系统操作与实战指南 》
+

NT$ 407
《 Hadoop 2.0-YARN核心技术实践 》
編輯推薦:
《Python和Dask数据科学》详尽介绍使用Dask进行数据准备、数据清理、探索性数据分析和数据可视化,*后介绍使用Dask进行机器学习。通过提供真实的数据、丰富的案例,帮助读者尽快了解和掌握Dask的用法。每个知识点都提供了相应的代码段,帮助读者通过实践强化对知识的理解。每章的开头和结尾对该章的主要内容进行概括和总结。
《Python和Dask数据科学》还提供了示例代码和数据集的下载地址。可以在论坛里对《Python和Dask数据科学》发表评论,提出技术问题,从作者和其他用户那里得到帮助和提高。《Python和Dask数据科学》是迄今为止*详尽介绍使用Dask进行数据科学工作的书籍。
內容簡介:
主要内容
● 处理大型的结构化和非结构化数据集
● 使用Seaborn和Datashader实现可视化
● 实现自己的算法
● 构建分布式应用
● 打包和部署Dask应用
關於作者:
Jesse C. Daniel具有5年使用Python编写应用程序的经验,其中包括从事PyData堆栈Pandas、NumPy、SciPy和scikit-learn的工作3年。Jesse于2016年进入丹佛大学,担任商业信息和分析学的副教授,讲授Python数据科学课程。他目前领导着丹佛当地的一家科技公司的数据科学家团队。
目錄
第Ⅰ部分 可扩展计算的基础
第1章 可扩展计算的重要性 3
1.1 Dask的优势 4
1.2 有向无环图 9
1.3 横向扩展、并发和恢复 13
1.3.1 纵向扩展和横向扩展 14
1.3.2 并发和资源管理 16
1.3.3 从失败中恢复 17
1.4 本书使用的数据集 18
1.5 本章小结 19
第2章 Dask入门 21
2.1 DataFrame API初探 22
2.1.1 Dask对象的元数据 22
2.1.2 使用compute方法运行计算任务 25
2.1.3 使用persist简化复杂计算 27
2.2 DAG的可视化 28
2.2.1 使用Dask延迟对象查看DAG 28
2.2.2 带有循环和集合的复杂DAG的可视化 29
2.2.3 使用persist简化DAG 32
2.3 任务调度 35
2.3.1 延迟计算 35
2.3.2 数据本地化 36
2.4 本章小结 38
第II部分 使用Dask DataFrame处理结构化数据
第3章 介绍Dask DataFrame 41
3.1 为什么使用DataFrame 42
3.2 Dask和Pandas 43
3.2.1 管理DataFrame分区 45
3.2.2 混洗介绍 48
3.3 Dask DataFrame的局限性 49
3.4 本章小结 50
第4章 将数据读入DataFrame 53
4.1 从文本文件读取数据 54
4.1.1 Dask数据类型 59
4.1.2 为Dask DataFrame创建数据模式 61
4.2 从关系数据库中读取数据 65
4.3 从HDFS和S3中读取数据 68
4.4 读取Parquet格式的数据 72
4.5 本章小结 74
第5章 DataFrame的清理和转换 75
5.1 使用索引和轴 77
5.1.1 从DataFrame中选择列 77
5.1.2 从DataFrame中删除列 79
5.1.3 DataFrame中列的重命名 81
5.1.4 从DataFrame中选择行 81
5.2 处理缺失值 83
5.2.1 对DataFrame中的缺失值计数 83
5.2.2 删除含有缺失值
的列 85
5.2.3 填充缺失值 85
5.2.4 删除缺少数据的行 86
5.2.5 使用缺失值输入多个列 87
5.3 数据重编码 89
5.4 元素运算 93
5.5 过滤和重新索引DataFrame 95
5.6 DataFrame的连接 97
5.6.1 连接两个DataFrame 98
5.6.2 合并两个DataFrame 101
5.7 将数据写入文本文件和Parquet文件 103
5.7.1 写入含分隔符的文本文件 103
5.7.2 写入Parquet 文件 104
5.8 本章小结 105
第6章 聚合和分析DataFrame 107
6.1 描述性统计信息 108
6.1.1 什么是描述性统计信息 108
6.1.2 使用Dask计算描述性统计信息 110
6.1.3 使用describe方法进行描述性统计 114
6.2 内置的聚合函数 115
6.2.1 什么是相关性 115
6.2.2 计算Dask DataFrame的相关性 117
6.3 自定义聚合函数 121
6.3.1 使用t检验测试分类变量 121
6.3.2 使用自定义聚合函数来实现Brown-Forsythe检验 123
6.4 滚动窗口功能 134
6.4.1 为滚动函数准备数据 135
6.4.2 将rolling方法应用到一个窗口函数 136
6.5 本章小结 137
第7章 使用Seaborn对DataFrame进行可视化 139
7.1 prepare-reduce-collect-plot模式 141
7.2 可视化散点图与规则图的延伸关系 143
7.2.1 使用Dask和Seaborn创建散点图 143
7.2.2 在散点图中添加线性回归线 146
7.2.3 在散点图中添加非线性回归线 147
7.3 使用小提琴图可视化分类关系 149
7.3.1 使用Dask和Seaborn创建小提琴图 150
7.3.2 从Dask DataFrame随机采样数据 152
7.4 使用热图可视化两个分类关系 154
7.5 本章小结 157
第8章 用Datashader对位置数据可视化 159
8.1 什么是Datashader?它是如何工作的? 160
8.1.1 Datashader渲染流程的五个阶段 161
8.1.2 使用Datashader进行可视化 165
8.2 将位置数据绘制为交互式热图 166
8.2.1 准备用于地图平铺的地理数据 166
8.2.2 创建交互式热图 167
8.3 本章小结 169
第III部分 扩展和部署Dask
第9章 使用Bag和Arrays 173
9.1 使用Bag读取和解析非结构化数据 175
9.1.1 从Bag中选择和查看数据 176
9.1.2 常见的解析错误和解决办法 176
9.1.3 使用分隔符 177
9.2 转换、过滤和合并元素 184
9.2.1 使用map函数转换元素 184
9.2.2 使用filter函数过滤Bag 186
9.2.3 计算Bag的描述统计量 189
9.2.4 使用foldby方法创建聚合函数 190
9.3 从Bag中创建Arrays和DataFrame 192
9.4 使用Bag和NLTK进行并行文本分析 193
9.4.1 二元分析的基础 194
9.4.2 提取token和过滤停顿词 194
9.4.3 分析二元组 198
9.5 本章小结 200
第10章 使用Dask-ML进行机器学习 201
10.1 使用Dask-ML建立线性模型 202
10.1.1 准备二进制向量化数据 204
10.1.2 使用Dask-ML建立Logistic回归模型 210
10.2 评估和调整Dask-ML模型 211
10.2.1 用计分法评估Dask-ML模型 211
10.2.2 使用Dask-ML构建朴贝叶斯分类器 212
10.2.3 自动调整超参数 213
10.3 持续的Dask-ML模型 215
10.4 本章小结 217
第11章 扩展和部署Dask 219
11.1 使用Docker在Amazon AWS上创建Dask集群 220
11.1.1 入门 221
11.1.2 生成安全密钥 222
11.1.3 创建ECS集群 224
11.1.4 配置集群的网络 227
11.1.5 在Elastic文件系统中创建共享数据驱动 231
11.1.6 在Elastic ContainerRepository中为Docker镜像分配空间 236
11.1.7 为调度器、工作节点和Notebook创建和部署镜像 237
11.1.8 连接到集群 244
11.2 在集群上运行和监视Dask作业 246
11.3 在AWS上清理Dask集群 250
11.4 本章小结 252
附录A 软件的安装 253
內容試閱
前言

《Python和Dask数据科学》读者对象
《Python和Dask数据科学》带你亲身体验一个典型的数据科学工作流程,引导你使用Dask完成数据清理乃至数据部署。《Python和Dask数据科学》首先介绍可扩展计算的一些基础知识,并解释Dask如何利用这些概念在大小数据集上执行操作。在此基础上,《Python和Dask数据科学》将重点转向利用各种真实世界的数据集去准备、分析、可视化和建模,从而提供关于如何使用Dask执行公共数据科学任务的具体实例。最后,《Python和Dask数据科学》教你一步步地在AWS上部署自己的Dask集群去扩展你的分析代码。
《Python和Dask数据科学》主要是为初级到中级的数据科学家、数据工程师和数据分析师编写的,带读者处理能使单台机器到达极限的数据集。虽然有其他分布式框架如PySpark的经验不是必需的,但是具有这方面经验的读者可以通过与Dask的功能和性能进行比较而从《Python和Dask数据科学》中受益。虽然可在互联网上查阅到各种文章和文献,但那些都无法像《Python和Dask数据科学》一样全面介绍如何将Dask用于数据科学。
《Python和Dask数据科学》结构安排:路线图
《Python和Dask数据科学》分为三部分,共包含11章。
第Ⅰ部分介绍有关可扩展计算的一些基础知识,并提供了几个简单示例,说明Dask如何使用这些概念来扩展工作负载。
? 第1章通过构建一个案例来介绍Dask,说明Dask为什么是数据科学工具包中的一个重要工具。并解释有向无环图Directed Acyclic Graph,DAG,DAG是可扩展计算和Dask的核心概念。
? 第2章将介绍Dask如何使用DAG在多个CPU核心甚至物理机上分配任务。该章介绍如何自动显示由任务调度器生成的DAG,以及任务调度器如何分配资源并有效地处理数据。
第Ⅱ部分介绍常见的数据清理、分析和可视化任务,以及使用Dask DataFrame构造的结构化数据。
? 第3章介绍Dask DataFrame的概念设计,以及如何对Pandas DataFrame进行抽象化和并行化处理。
? 第4章讨论如何从各种数据源和存储格式如文本文件、数据库、S3和Parquet文件中创建Dask DataFrame。
? 第5章深入探讨如何使用DataFrame来清理和转换数据集,包括排序、过滤、处理丢失的值、连接数据集以及以多种文件格式编写数据帧。
? 第6章介绍如何使用内置聚合函数如sum、mean等,以及自己写一个聚合函数和窗口函数,还介绍如何生成基本的描述性统计。
? 第7章介绍基本可视化效果的创建步骤。
? 第8章在第7章的基础上,介绍具有交互性和地理特征的高级可视化。
第Ⅲ部分介绍Dask的高级主题,如非结构化数据、机器学习和构建可扩展工作负载。
? 第9章演示如何使用Dask包和数组去解析、清理和分析非结构化数据。
? 第10章展示了如何从Dask数据源中构建机器学习模型,以及测试和维护训练模型。
? 第11章介绍如何使用Docker在AWS上建立Dask集群。
如果你喜欢循序渐进地学习,可以选择按顺序阅读《Python和Dask数据科学》;如果你想了解一些特定内容,也可选择跳过一些章节阅读。但是无论选择如何阅读,都应该首先阅读一下第1章和第2章,以便更好地理解Dask如何将工作负载工作任务从多个CPU核心扩展到多台机器。你还应该参考附录,了解有关Dask设置的具体信息和正文中使用的一些其他包的具体细节。
关于代码
《Python和Dask数据科学》在真实数据集的基础上提供实际操作的案例。因此,书中有许多代码。许多源代码包含有注释,旨在进一步解释代码的含义。
所有代码都由Jupyter Notebook提供,可从以下网址下载:http:www.tupwk.com. cndownpage。另外,也可扫描封底二维码下载。每一个Notebook单元都对应着一个已编号的源代码,并按照在《Python和Dask数据科学》中的顺序显示。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.