登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

『簡體書』Pandas数据分析

書城自編碼: 3879567
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: [美]斯蒂芬妮·莫林 著 李强 译
國際書號(ISBN): 9787302631354
出版社: 清华大学出版社
出版日期: 2023-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 946

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
欧洲共同法的历史:1000—1800
《 欧洲共同法的历史:1000—1800 》

售價:NT$ 529.0
冲突与控制:19世纪意大利的法律与秩序
《 冲突与控制:19世纪意大利的法律与秩序 》

售價:NT$ 529.0
世俗与抗争:18世纪俄国乌拉尔劳动者的思想演变
《 世俗与抗争:18世纪俄国乌拉尔劳动者的思想演变 》

售價:NT$ 529.0
东亚区域意识的建构史
《 东亚区域意识的建构史 》

售價:NT$ 637.0
古罗马图书馆史:从罗马世界拉丁文学的起源到罗马帝国的私人图书馆
《 古罗马图书馆史:从罗马世界拉丁文学的起源到罗马帝国的私人图书馆 》

售價:NT$ 481.0
图解服务器端网络架构(第2版)
《 图解服务器端网络架构(第2版) 》

售價:NT$ 539.0
民艺四十年(全新译本)
《 民艺四十年(全新译本) 》

售價:NT$ 367.0
农政与财政:明清社会经济(中大史学文丛)
《 农政与财政:明清社会经济(中大史学文丛) 》

售價:NT$ 335.0

編輯推薦:
Pandas是强大且流行的库,是Python中数据科学的代名词。本书将向你介绍如何使用Pandas对真实世界的数据集进行数据分析,如股市数据、模拟黑客攻击的数据、天气趋势、地震数据、葡萄酒数据和天文数据等。Pandas使我们能够有效地处理表格数据,从而使数据整理和可视化变得更容易。
內容簡介:
《Pandas数据分析》详细阐述了与Pandas数据分析相关的基本解决方案,主要包括数据分析导论、使用Pandas DataFrame、使用Pandas进行数据整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可视化数据、使用Seaborn和自定义技术绘图、金融分析、基于规则的异常检测、Python机器学习入门、做出更好的预测、机器学习异常检测等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
關於作者:
斯蒂芬妮·莫林是纽约彭博有限合伙企业(Bloomberg LP)的数据科学家和软件工程师,负责解决信息安全方面的棘手问题,特别是围绕异常检测、构建数据收集工具和知识共享等方面的工作。她在数据科学、设计异常检测解决方案以及在广告技术(AdTech)和金融科技(FinTech)行业中利用R和Python的机器学习方面拥有丰富的经验。
她拥有哥伦比亚大学傅氏基金工程和应用科学学院运筹学学士学位,辅修经济学、创业与创新。在闲暇时间,她喜欢环游世界、发明新食谱、学习人与计算机之间使用的新语言。
目錄
第1篇 Pandas入门
第1章 数据分析导论 3
1.1 章节材料 3
1.2 数据分析基础知识 5
1.2.1 数据收集 6
1.2.2 数据整理 7
1.2.3 探索性数据分析 8
1.2.4 得出结论 9
1.3 统计基础知识 10
1.3.1 采样 11
1.3.2 描述性统计 12
1.3.3 集中趋势的度量 12
1.3.4 均值 12
1.3.5 中位数 13
1.3.6 众数 13
1.3.7 数据散布的度量 14
1.3.8 全距 14
1.3.9 方差 15
1.3.10 标准差 15
1.3.11 变异系数 16
1.3.12 四分位距 17
1.3.13 四分位离散系数 17
1.3.14 汇总数据 18
1.3.15 常见分布 22
1.3.16 缩放数据 24
1.3.17 量化变量之间的关系 25
1.3.18 汇总统计的陷阱 27
1.3.19 预测 28
1.3.20 推论统计 32
1.4 设置虚拟环境 35
1.4.1 虚拟环境 35
1.4.2 使用venv 36
1.4.3 Windows中的操作 37
1.4.4 Linux/macOS中的操作 37
1.4.5 使用conda 38
1.4.6 安装所需的Python包 40
1.4.7 关于Pandas 40
1.4.8 Jupyter Notebook 41
1.4.9 启动JupyterLab 41
1.4.10 验证虚拟环境 43
1.4.11 关闭JupyterLab 45
1.5 小结 45
1.6 练习 46
1.7 延伸阅读 47
第2章 使用Pandas DataFrame 49
2.1 章节材料 49
2.2 Pandas数据结构 50
2.2.1 Series 55
2.2.2 Index 56
2.2.3 DataFrame 57
2.3 创建Pandas DataFrame 60
2.3.1 从Python对象中创建DataFrame 61
2.3.2 从文件中创建DataFrame 65
2.3.3 从数据库中创建DataFrame 69
2.3.4 从API中获取数据以创建DataFrame 71
2.4 检查DataFrame对象 74
2.4.1 检查数据 74
2.4.2 描述数据 77
2.5 抓取数据的子集 80
2.5.1 选择列 81
2.5.2 切片 84
2.5.3 索引 86
2.5.4 过滤 88
2.6 添加和删除数据 95
2.6.1 创建新数据 96
2.6.2 删除不需要的数据 104
2.7 小结 106
2.8 练习 107
2.9 延伸阅读 107
第2篇 使用Pandas进行数据分析
第3章 使用Pandas进行数据整理 111
3.1 章节材料 112
3.2 关于数据整理 113
3.2.1 数据清洗 114
3.2.2 数据转换 114
3.2.3 宽数据格式 116
3.2.4 长数据格式 118
3.2.5 数据充实 121
3.3 探索API以查找和收集温度数据 122
3.4 清洗数据 132
3.4.1 重命名列 133
3.4.2 类型转换 134
3.4.3 按值排序 140
3.4.4 索引排序 143
3.4.5 设置索引 144
3.4.6 重置索引 145
3.4.7 重新索引 146
3.5 重塑数据 153
3.5.1 转置DataFrame 155
3.5.2 旋转DataFrame 155
3.5.3 融合DataFrame 161
3.6 处理重复、缺失或无效的数据 164
3.6.1 查找有问题的数据 164
3.6.2 处理潜在的问题 171
3.7 小结 180
3.8 练习 180
3.9 延伸阅读 182
第4章 聚合Pandas DataFrame 183
4.1 章节材料 183
4.2 在DataFrame上执行数据库风格的操作 185
4.2.1 查询DataFrame 186
4.2.2 合并DataFrame 187
4.3 使用DataFrame操作充实数据 197
4.3.1 算术和统计 198
4.3.2 分箱 200
4.3.3 应用函数 205
4.3.4 窗口计算 207
4.3.5 滚动窗口 207
4.3.6 扩展窗口 210
4.3.7 指数加权移动窗口 211
4.3.8 管道 212
4.4 聚合数据 215
4.4.1 汇总DataFrame 217
4.4.2 按组聚合 218
4.4.3 数据透视表和交叉表 224
4.5 处理时间序列数据 227
4.5.1 基于日期选择和过滤数据 228
4.5.2 基于时间选择和过滤数据 230
4.5.3 移动滞后数据 234
4.5.4 差分数据 235
4.5.5 重采样 236
4.5.6 合并时间序列 240
4.6 小结 242
4.7 练习 243
4.8 延伸阅读 245
第5章 使用Pandas和Matplotlib可视化数据 247
5.1 章节材料 247
5.2 Matplotlib简介 249
5.2.1 基础知识 249
5.2.2 绘图组件 255
5.2.3 其他选项 258
5.3 使用Pandas绘图 260
5.3.1 随时间演变 262
5.3.2 变量之间的关系 269
5.3.3 分布 275
5.3.4 计数和频率 283
5.4 pandas.plotting模块 291
5.4.1 散点图矩阵 291
5.4.2 滞后图 294
5.4.3 自相关图 296
5.4.4 自举图 297
5.5 小结 298
5.6 练习 299
5.7 延伸阅读 299
第6章 使用Seaborn和自定义技术绘图 301
6.1 章节材料 301
6.2 使用Seaborn进行高级绘图 303
6.2.1 分类数据 304
6.2.2 相关性和热图 308
6.2.3 回归图 317
6.2.4 分面 321
6.3 使用Matplotlib格式化绘图 323
6.3.1 标题和标签 323
6.3.2 图例 326
6.3.3 格式化轴 329
6.4 自定义可视化 336
6.4.1 添加参考线 336
6.4.2 区域着色 341
6.4.3 注解 344
6.4.4 颜色 346
6.4.5 颜色表 348
6.4.6 条件着色 355
6.4.7 纹理 357
6.5 小结 360
6.6 练习 360
6.7 延伸阅读 361
第3篇 使用Pandas进行实际应用分析
第7章 金融分析 365
7.1 章节材料 366
7.2 构建Python包 367
7.2.1 封装结构 368
7.2.2 stock_analysis包概述 369
7.2.3 UML图 371
7.3 收集金融数据 372
7.3.1 StockReader类 373
7.3.2 从Yahoo!Finance中收集历史数据 381
7.4 探索性数据分析 383
7.4.1 Visualizer类系列 388
7.4.2 可视化股票 394
7.4.3 可视化多个资产 407
7.5 金融工具的技术分析 413
7.5.1 StockAnalyzer类 414
7.5.2 AssetGroupAnalyzer类 421
7.5.3 比较资产 423
7.6 使用历史数据建模 427
7.6.1 StockModeler类 427
7.6.2 时间序列分解 433
7.6.3 ARIMA 434
7.6.4 使用statsmodel进行线性回归 436
7.6.5 比较模型 438
7.7 小结 440
7.8 练习 441
7.9 延伸阅读 442
第8章 基于规则的异常检测 445
8.1 章节材料 445
8.2 模拟登录尝试 446
8.2.1 假设 446
8.2.2 构建login_attempt_simulator包 447
8.2.3 辅助函数 448
8.2.4 构建LoginAttemptSimulator类 450
8.2.5 从命令行中进行模拟 461
8.3 探索性数据分析 467
8.3.1 读入模拟数据 467
8.3.2 异常登录行为的特点 468
8.3.3 检查数据 469
8.3.4 比较登录尝试次数 470
8.3.5 比较登录成功率 473
8.3.6 使用错误率指标 474
8.3.7 通过可视化找出异常值 476
8.4 实现基于规则的异常检测 479
8.4.1 百分比差异 480
8.4.2 Tukey围栏 485
8.4.3 Z分数 486
8.4.4 评估性能 488
8.5 小结 493
8.6 练习 493
8.7 延伸阅读 494
第4篇 scikit-learn和机器学习
第9章 Python机器学习入门 499
9.1 章节材料 499
9.2 机器学习概述 501
9.2.1 机器学习的类型 502
9.2.2 常见任务 502
9.2.3 Python中的机器学习 503
9.3 探索性数据分析 504
9.3.1 红酒品质数据 505
9.3.2 白葡萄酒和红葡萄酒化学性质数据 508
9.3.3 行星和系外行星数据 511
9.4 预处理数据 517
9.4.1 训练和测试集 518
9.4.2 缩放和居中数据 520
9.4.3 编码数据 522
9.4.4 估算 525
9.4.5 附加转换器 527
9.4.6 构建数据管道 529
9.5 聚类 531
9.5.1 k均值 532
9.5.2 按轨道特征对行星进行分组 532
9.5.3 使用肘点法确定k值 535
9.5.4 解释质心并可视化聚类空间 537
9.5.5 评估聚类结果 540
9.6 回归 542
9.6.1 线性回归 542
9.6.2 预测行星一年的长度 543
9.6.3 解释线性回归方程 544
9.6.4 做出预测 545
9.6.5 评估回归结果 546
9.6.6 指标 548
9.7 分类 552
9.7.1 逻辑回归 552
9.7.2 预测红酒质量 553
9.7.3 通过化学性质确定葡萄酒类型 554
9.7.4 评估分类结果 555
9.7.5 混淆矩阵 555
9.7.6 分类指标 559
9.7.7 准确率和错误率 559
9.7.8 精确率和召回率 560
9.7.9 F分数 562
9.7.10 敏感性和特异性 563
9.7.11 ROC曲线 564
9.7.12 精确率-召回率曲线 568
9.8 小结 571
9.9 练习 572
9.10 延伸阅读 574
第10章 做出更好的预测 577
10.1 章节材料 577
10.2 使用网格搜索调整超参数 580
10.2.1 拆分验证集 580
10.2.2 使用交叉验证 582
10.2.3 使用RepeatedStratifiedKFold 585
10.3 特征工程 588
10.3.1 交互项和多项式特征 589
10.3.2 降维 592
10.3.3 特征联合 601
10.3.4 特征重要性 603
10.4 集成方法 606
10.4.1 随机森林 608
10.4.2 梯度提升 609
10.4.3 投票 610
10.4.4 检查分类预测置信度 612
10.5 解决类不平衡的问题 616
10.5.1 欠采样 618
10.5.2 过采样 619
10.6 正则化 621
10.7 小结 623
10.8 练习 624
10.9 延伸阅读 626
第11章 机器学习异常检测 629
11.1 章节材料 629
11.2 探索模拟登录尝试数据 631
11.3 利用无监督学习执行异常检测 638
11.3.1 隔离森林 639
11.3.2 局部异常因子 641
11.3.3 比较模型 643
11.4 实现有监督学习的异常检测 647
11.4.1 基线模型 649
11.4.2 虚拟分类器 649
11.4.3 朴素贝叶斯 651
11.4.4 逻辑回归 655
11.5 将反馈循环与在线学习相结合 657
11.5.1 创建PartialFitPipeline子类 658
11.5.2 随机梯度下降分类器 658
11.5.3 构建初始模型 660
11.5.4 评估模型 661
11.5.5 更新模型 666
11.5.6 提交结果 668
11.5.7 进一步改进 669
11.6 小结 669
11.7 练习 670
11.8 延伸阅读 671
第5篇 其 他 资 源
第12章 未来之路 675
12.1 数据资源 675
12.1.1 Python包 676
12.1.2 Seaborn 676
12.1.3 scikit-learn 676
12.2 搜索数据 677
12.3 API 677
12.4 网站 678
12.4.1 金融 678
12.4.2 官方数据 679
12.4.3 健康与经济 679
12.4.4 社交网络 680
12.4.5 运动 680
12.4.6 杂项 681
12.5 练习使用数据 681
12.5.1 Kaggle 682
12.5.2 DataCamp 682
12.6 Python练习 682
12.7 小结 684
12.8 练习 684
12.9 延伸阅读 685
练习答案 693
附录A 695
数据分析工作流程 695
选择合适的可视化结果 696
机器学习工作流程 697
內容試閱
数据科学通常被认为是一个跨学科领域,涉及编程技能、统计知识和领域知识等。它已经迅速成为当今社会最热门的领域之一,而了解如何处理数据将使你在职业生涯中拥有很大的优势。无论是哪个行业、职位或项目,对数据技能的需求都很高,因此学习和掌握数据分析技能对于现代人来说至关重要。数据科学领域涵盖许多不同方面:数据分析师更专注于提取业务见解,数据科学家重在将机器学习技术应用于业务问题,数据工程师专注于设计、构建和维护数据分析师和科学家使用的数据管道,机器学习工程师则拥有数据科学家的大部分技能,并且与数据工程师一样,都是熟练的软件工程师。由此可见,数据科学涵盖许多领域,但对于它所涉及的领域而言,数据分析都是一个基本组成部分。你无论是要成为数据分析师、数据科学家、数据工程师,还是机器学习工程师,本书都可以为你提供基础技能。数据科学中的传统技能包括了解如何从各种来源(如数据库和API)收集数据并对其进行处理。Python是一种流行的数据科学语言,它提供了收集和处理数据以及构建生产质量数据产品的方法。由于它是开源的,因此我们很容易通过利用其他人编写的库解决常见的数据任务和问题。Pandas是强大且流行的库,是Python中数据科学的代名词。本书将向你介绍如何使用Pandas对真实世界的数据集进行数据分析,如股市数据、模拟黑客攻击的数据、天气趋势、地震数据、葡萄酒数据和天文数据等。Pandas使我们能够有效地处理表格数据,从而使数据整理和可视化变得更容易。一旦学会了如何进行数据分析,就可以探索一些应用。我们将构建Python包,并借助常用于数据可视化、数据整理和机器学习的其他库(如Matplotlib、Seaborn、NumPy和scikit-learn)。学习完本书之后,你将有能力用Python完成自己的数据科学项目。本书读者本书是为那些想要学习Python数据科学的具有不同经验水平的人编写的,如果你的知识背景与以下一项(或两项)相似,则可从本书中获得最大收益:你之前拥有使用另一种语言(如R、SAS或MATLAB)的数据科学经验,并且想要学习Pandas以便将你的工作流转移到Python。你拥有一些Python经验,并希望使用Python学习数据科学。内容介绍本书内容分为5篇共12章,具体介绍如下。第1篇:Pandas入门,包括第1~2章。第1章“数据分析导论”,阐释数据分析的基础知识、统计学基础知识,并指导你设置环境以在Python中处理数据和使用Jupyter Notebook。第2章“使用Pandas DataFrame”,详细介绍Pandas数据结构,并演示创建Pandas DataFrame和检查DataFrame对象的操作。第2篇:使用Pandas进行数据分析,包括第3~6章。第3章“使用Pandas进行数据整理”,介绍数据整理的过程,展示如何探索API以收集数据,并指导你使用Pandas进行数据清理和重塑。第4章“聚合Pandas DataFrame”,介绍如何查询和合并DataFrame,如何对DataFrame执行复杂的操作(包括滚动计算和聚合),以及如何有效地处理时间序列数据。第5章“使用Pandas和Matplotlib可视化数据”,介绍如何在Python中创建数据可视化,首先使用Matplotlib库,然后直接从Pandas对象中创建绘图。第6章“使用Seaborn和自定义技术绘图”,继续介绍数据可视化,演示如何使用Seaborn库可视化长格式数据,并阐释自定义可视化所需的工具,使其可用于演示。第3篇:使用Pandas进行实际应用分析,包括第7~8章。第7章“金融分析”,介绍构建Python包的操作,演示如何创建用于分析股票的Python包,并将其应用于金融应用程序。第8章“基于规则的异常检测”,介绍模拟登录尝试数据并执行探索性数据分析的操作,然后使用基于规则的方法实现黑客登录异常检测策略。第4篇:scikit-learn和机器学习,包括第9~11章。第9章“Python机器学习入门”,介绍机器学习和使用scikit-learn库构建模型,以执行聚类、回归和分类等任务。第10章“做出更好的预测”,展示调整和提高机器学习模型性能的策略。第11章“机器学习异常检测”,使用机器学习技术重新执行登录尝试数据的异常检测任务,演示无监督学习和有监督学习工作流。第5篇:其他资源,包括第12章。第12章“未来之路”,提供更多资源,以方便你继续数据科学探索之旅。充分利用本书你应该熟悉Python,尤其是Python 3及更高版本。另外,你还应该知道如何用Python编写函数和基本脚本,了解变量、数据类型和控制流(if/else、for/while循环)等标准编程概念,并能够使用Python作为函数式编程语言。掌握一些面向对象编程的基本知识可能对你会有所帮助,但不是必需的。如果你的Python实力还没有达到这个水平,则Python文档包含一个有用的教程,可帮助你快速上手: https://docs.python.org/3/tutorial/index.html 本书随附的代码可以在GitHub上找到,其网址如下: https://github.com/stefmolin/Hands-On-Data-Analysis-with-Pandas-2nd-edition 为了充分利用本书,可在Jupyter Notebook中进行操作(每章都提供了相应的笔记本)。在第1章“数据分析导论”中介绍了设置环境和获取这些文件的操作。本书还有一个Python入门笔记本提供了速成课程,其网址如下: https://github.com/stefmolin/Hands-On-Data-Analysis-with-Pandas-2nd-edition/blob/master/ch_01/python_101.ipynb 最后,一定要认真完成每章末尾的练习。其中一些练习可能非常具有挑战性,但它们会使你对章节内容的理解变得更透彻。每章练习的答案可在以下网址中找到: https://github.com/stefmolin/Hands-On-Data-Analysis-with-Pandas-2nd-edition/tree/master/solutions 下载彩色图像我们还提供了一个PDF文件,其中包含本书中使用的屏幕截图/图表的彩色图像。你可通过以下地址下载: https://static.packt-cdn.com/downloads/9781800563452_ColorImages.pdf 本书约定本书中使用了许多文本约定。(1)有关代码块的设置如下。代码行将以>>>开头,而该行的后续行将以...开头: >>> df = pd.read_csv(... ‘data/fb_2018.csv’, index_col=‘date’, parse_dates=True... )>>> df.head() 任何前面没有>>>或...的代码都不是我们将要运行的,它们仅供参考: try:del df[‘ones’]except KeyError:pass # 在此处理错误 (2)要突出代码块时,相关行将加粗显示: >>> df.price.plot(... title=‘Price over Time’, ylim=(0, None)... ) (3)代码结果前不会显示任何内容: >>> pd.Series(np.random.rand(2), name=‘random’)0 0.2357931 0.257935Name: random, dtype: float64 (4)任何命令行输入或输出都采用如下所示的粗体代码形式: # Windows:C:\\path\\of\\your\\choosing> mkdir pandas_exercises # Linux, Mac, and shorthand:$ mkdir pandas_exercises (5)术语或重要单词采用中英文对照的形式给出,在括号内保留其英文原文。示例 如下: 虽然箱形图是初步了解分布的好工具,但我们仍无法了解每个四分位数内的分布情况。为此,可以转向对离散(discrete)变量(如人数或书籍数量)使用直方图(histogram),而对连续(continuous)变量(如高度或时间)则使用核密度估计(kernel density estimates,KDE)。 (6)对于界面词汇或专有名词将保留其英文原文,在括号内添加其中文译名。示例如下: 在File Browser(文件浏览器)窗格中,双击 ch_01 文件夹,其中应该已经包含我们将用于验证设置的Jupyter Notebook。 (6)本书还使用了以下两个图标: 表示警告或重要的注意事项。 表示提示信息或操作技巧。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.