登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

『簡體書』样本数据处理

書城自編碼: 3763174
分類: 簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 许桂秋
國際書號(ISBN): 9787121435737
出版社: 电子工业出版社
出版日期: 2022-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 405

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
桥头楼上
《 桥头楼上 》

售價:NT$ 296.0
中国近代史(中国史学大家蒋廷黻典作品)
《 中国近代史(中国史学大家蒋廷黻典作品) 》

售價:NT$ 223.0
先跳了再说: 仓本聪的工作与生活哲学
《 先跳了再说: 仓本聪的工作与生活哲学 》

售價:NT$ 314.0
抗焦虑饮食(赠实践手册)
《 抗焦虑饮食(赠实践手册) 》

售價:NT$ 498.0
生活不是掷骰子:理性决策的贝叶斯思维
《 生活不是掷骰子:理性决策的贝叶斯思维 》

售價:NT$ 386.0
万有引力书系·基辅罗斯:东斯拉夫文明的起源
《 万有引力书系·基辅罗斯:东斯拉夫文明的起源 》

售價:NT$ 661.0
康熙的红票:全球化中的清朝
《 康熙的红票:全球化中的清朝 》

售價:NT$ 437.0
PyTorch语音识别实战
《 PyTorch语音识别实战 》

售價:NT$ 386.0

建議一齊購買:

+

NT$ 359
《 电路(第5版)(换封面加十二五标) 》
+

NT$ 458
《 经济法概论(第二版) 》
+

NT$ 332
《 马克思主义哲学(第二版) 》
+

NT$ 493
《 战略管理:建立持续竞争优势(第17版)(工商管理经典译丛) 》
+

NT$ 379
《 马克思主义中国化专题研究 》
+

NT$ 284
《 风险模型(新编21世纪风险管理与精算系列教材) 》
內容簡介:
本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用Python语言及Kettle软件进行数据处理的能力。全书内容分别为数据预处理概述、Kettle工具的初步使用、数据的导入与导出、数据清洗、数据标注、Kettle作业设计、基于Kettle构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。 本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不在于是覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成,以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,本书中引入了多个基础技术案例及综合实践案例,以帮助读者了解样本数据处理涉及的基本技术的知识和技能。 本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,也可供对样本数据处理技术感兴趣的读者阅读。
關於作者:
许桂秋,运营总监。2000年9月—2004年6月,厦门大学,计算机科学与技术专业学习,获工学学士;2007年8月—2011年4月,中国石油天然气股份有限公司,项目经理,工程师;2011年6月—2016年7月,曙光信息产业股份有限公司,项目经理,工程师;2016年7月—至今,中科瑞翼(北京)教育科技有限公司,运营总监。主要著作出版情况:《大数据导论》、《Python编程基础与应用》、《NoSQL数据库原理与应用》、《数据挖掘与机器学习》等9本系列教材,浙江科技出版社,2019年。
目錄
第1章 数据预处理概述1
1.1 数据预处理的背景与目的1
1.1.1 数据预处理的背景:数据质量1
1.1.2 数据预处理的目的3
1.2 数据预处理的流程3
1.2.1 数据清洗3
1.2.2 数据集成5
1.2.3 数据变换6
1.2.4 数据归约9
1.2.5 数据预处理的注意事项14
1.3 数据预处理的工具14
本章习题15
第2章 Kettle工具的初步使用16
2.1 Kettle的安装16
2.1.1 Java的安装16
2.1.2 Kettle的下载安装与Spoon的启动20
2.2 Kettle的使用21
2.2.1 转换的基本概念21
2.2.2 第一个转换案例23
本章习题42
第3章 数据的导入与导出43
3.1 基于文件的数据导入与导出43
3.1.1 文本文件的导入与导出43
3.1.2 文本文件的导入与导出案例45
3.1.3 Excel文件的导入与导出51
3.1.4 Excel文件的导入与导出案例51
3.1.5 XML文件的导入与导出59
3.1.6 XML文件的导入与导出案例59
3.1.7 JSON文件的导入与导出64
3.1.8 JSON文件的导入与导出案例65
3.2 基于数据库的数据导入与导出69
3.2.1 关系数据库的数据导入与导出69
3.2.2 MySQL数据库的数据导入与导出案例71
3.3 基于Web的数据导入与导出78
3.3.1 HTML数据的导入与导出78
3.3.2 HTML数据的导入与导出案例79
3.3.3 基于HTTP GET请求的导入与导出83
3.3.4 基于HTTP GET请求的导入与导出案例83
3.4 基于CDC变更数据的导入与导出86
3.4.1 基于源数据的CDC86
3.4.2 基于源数据的CDC案例87
3.4.3 基于触发器的CDC98
3.4.4 基于触发器的CDC案例99
3.4.5 基于快照的CDC109
3.4.6 基于快照的CDC案例109
3.4.7 基于日志的CDC113
3.4.8 基于日志的CDC案例113
本章习题116
第4章 数据清洗117
4.1 数据清洗概述117
4.1.1 Kettle常用的数据清洗步骤117
4.1.2 字符串清理119
4.1.3 字段清理123
4.1.4 使用参照表清理数据130
4.1.5 数据校验136
4.2 数据排重141
4.2.1 如何识别重复数据141
4.2.2 去除完全重复数据142
4.2.3 去除不完全重复数据144
4.3 使用脚本组件进行数据清洗147
4.3.1 使用JavaScript代码组件清理数据147
4.3.2 使用正则表达式组件清理数据149
4.3.3 使用其他脚本组件清理数据152
本章习题156
第5章 数据标注157
5.1 数据标注简介157
5.1.1 数据标注是什么157
5.1.2 数据标注分类简介158
5.1.3 数据标注流程简介159
5.2 数据标注分类160
5.2.1 图像标注161
5.2.2 文本标注164
5.2.3 语音标注166
5.3 数据标注质量检验167
5.3.1 数据标注质量的影响167
5.3.2 数据标注的质量标准169
5.3.3 数据标注质量检验方法172
5.4 图像数据标注实战175
5.4.1 车辆车牌标注175
5.4.2 遥感影像标注180
5.4.3 医疗影像标注184
5.4.4 行人数据标注188
5.4.5 基于行人标注数据集的行人检测192
5.5 文本标注实战198
本章习题207
第6章 Kettle作业设计208
6.1 作业的概念及组成209
6.1.1 作业项209
6.1.2 跳210
6.1.3 注释210
6.2 作业的执行方式210
6.2.1 回溯210
6.2.2 多路径和回溯211
6.2.3 并行执行211
6.3 作业的创建及常用作业项212
6.3.1 创建作业213
6.3.2 “START”作业项213
6.3.3 “作业”作业项213
6.3.4 “转换”作业项215
6.4 变量216
6.4.1 定义变量216
6.4.2 使用变量218
6.5 监控218
6.5.1 日志219
6.5.2 邮件通知220
6.6 命令行启动221
6.7 作业实验223
本章习题252
第7章 基于Kettle构建数据仓库253
7.1 数据仓库的介绍253
7.1.1 数据仓库的起因253
7.1.2 数据仓库的发展254
7.1.3 数据仓库的定义255
7.1.4 数据仓库的特点255
7.1.5 数据仓库的结构255
7.1.6 数据仓库建模256
7.1.7 数据仓库与ETL的关系257
7.2 构建维度表258
7.2.1 管理各种键258
7.2.2 维度表的加载262
7.2.3 缓慢变化维度263
7.3 构建事实表268
7.3.1 批量加载268
7.3.2 查找维度271
7.3.3 事实表的处理271
本章习题280
第8章 基于Python的数据导入与导出281
8.1 Pandas281
8.1.1 Series282
8.1.2 DataFrame284
8.2 文本文件的导入与导出286
8.2.1 导入CSV文件286
8.2.2 导出CSV文件290
8.2.3 JSON格式数据的导入与导出291
8.3 Excel文件的导入与导出292
8.4 数据库的导入与导出292
8.4.1 关系数据库的导入与导出293
8.4.2 非关系数据库的导入与导出294
本章习题297
第9章 基于Python的数据整理298
9.1 合并多个数据集298
9.1.1 使用键进行DataFrame合并298
9.1.2 使用index进行DataFrame合并302
9.1.3 沿着横轴或纵轴串接303
9.2 数据重塑305
9.2.1 多级索引数据的重塑305
9.2.2 应用pivot方法重塑数据307
9.3 数据转换310
9.3.1 移除重复数据310
9.3.2 利用函数或映射进行数据转换312
9.3.3 值转换312
9.3.4 重命名轴索引313
9.3.5 离散化和面元划分314
9.3.6 检测或过滤异常值317
9.3.7 排列和随机采样318
9.3.8 计算指标/哑变量319
本章习题322

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.