登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』数据整理实践指南

書城自編碼: 2740170
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: [美]麦卡伦[Q. Ethan McCallum]
國際書號(ISBN): 9787115411020
出版社: 人民邮电出版社
出版日期: 2016-03-01
版次: 1 印次: 1
頁數/字數: 209/261000
書度/開本: 16开 釘裝: 平装

售價:NT$ 368

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
共享现实:是什么让我们成为人类
《 共享现实:是什么让我们成为人类 》

售價:NT$ 717.0
女佣异闻:乙一出道25周年纪念短篇集
《 女佣异闻:乙一出道25周年纪念短篇集 》

售價:NT$ 279.0
生活观察图鉴 中国常见鸟类观察图鉴
《 生活观察图鉴 中国常见鸟类观察图鉴 》

售價:NT$ 839.0
父亲身份:探寻血缘之谜
《 父亲身份:探寻血缘之谜 》

售價:NT$ 493.0
悠游人间 赛博朋克少女插画绘制教程
《 悠游人间 赛博朋克少女插画绘制教程 》

售價:NT$ 559.0
“李晓鹏说中华史”系列(全二册)
《 “李晓鹏说中华史”系列(全二册) 》

售價:NT$ 818.0
绿色剧变:能源大革命与世界新秩序
《 绿色剧变:能源大革命与世界新秩序 》

售價:NT$ 386.0
你的韧性超乎你的想象
《 你的韧性超乎你的想象 》

售價:NT$ 335.0

建議一齊購買:

+

NT$ 368
《 达梦数据库应用基础 》
+

NT$ 518
《 SQL优化最佳实践:构建高效率Oracle数据库的方法与技巧 》
+

NT$ 518
《 数据科学入门 》
+

NT$ 299
《 深度学习:方法及应用 》
+

NT$ 407
《 你不可不知的关系数据库理论 》
編輯推薦:
作者携手数据领域的强大智囊团为读者贡献的一本处理噪音数据的指南。本书囊括众多真实世界的应用案例以及高水平的方法和策略。本书汇集国外数据社区的技术骨干和活跃分子的集体智慧,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。噪音数据就是那些"给你惹麻烦的数据",从蹩脚的存储到糟糕的说明,再到令人误解的策略,有多重情况可能导致噪音数据。那么什么才是决定性因素呢?有人认为是技术方面的问题,比如缺失值或格式不对的记录,但是噪音数据包含更多的问题。本书介绍了多种有效的方式来应对噪音数据。在本书中,多位数据领域的专家共同揭示了如何处理棘手的数据问题的奥秘。通过阅读本书,你将学会:测试你的数据,判断它是否适合分析;将电子表格数据转变成可用的格式;处理潜藏在文本数据里的编码问题;进行一种成功的网络搜集尝试;利用自然语言处理(NLP, Natural Language Processing)工具揭露线上评论的真实情感;处理可以影响分析工作的云计算问题;避免那些制造数据分析障碍的策略;采用一种系统的数据质量分析方法。
內容簡介:
随着数据科学的热门,数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据,进行数据清理的案例,向读者展示了处理数据的方法。本书共有19章,从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南,它向读者介绍了驾驭、提取数据的方法,如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据,它向读者介绍了数据也会“撒谎”。第3部分是方法,它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施,它向读者介绍了如何存储数据。第5部分是数据的商业化,它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略,它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。
關於作者:
Q.Ethan McCallum 是一位顾问、作家,也是一名科技爱好者。他帮助很多公司在数据和技术方面做出明智的决策,他为The O’Relly Network 和Java.net撰写文章,并且为《CC++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。
目錄
目录
第1章 从头说起:什么是噪音数据1
第2章 是我的问题还是数据的问题4
2.1 理解数据结构5
2.2 校验8
2.2.1 字段校验8
2.2.2 值校验9
2.2.3 简单统计的物理解释10
2.3 可视化11
2.3.1 关键词竞价排名示例13
2.3.2 搜索来源示例18
2.3.3 推荐分析19
2.3.4 时间序列数据22
2.4 小结27
第3章 数据是给人看的不是给机器看的28
3.1 数据28
3.1.1 问题:数据是给人看的29
3.1.2 对数据的安排29
3.1.3 数据分散在多个文件中32
3.2 解决方案:编写代码34
3.2.1 从糟糕的数据格式中读取数据34
3.2.2 从多个文件中读取数据36
3.3 附言42
3.4 其他格式43
3.5 小结45
第4章 纯文本中潜在的噪音数据46
4.1 使用哪种纯文本编码?46
4.2 猜测文本编码格式50
4.3 对文本规范化处理53
4.4 问题:在纯文本中掺入了特定应用字符55
4.5 通过Python处理文本59
4.6 实践练习题60
第5章 重组Web数据62
5.1 你能获得数据吗63
5.1.1 一般工作流程示例64
5.1.2 Robots 协议65
5.1.3 识别数据组织模式66
5.1.4 存储离线版本68
5.1.5 网页抓取信息69
5.2 真正的困难73
5.2.1 下载原始内容73
5.2.2 表单、对话框和新建窗口73
5.2.3 Flash74
5.3 不利情况的解决办法75
5.4 小结75
第6章 检测撒谎者以及相互矛盾网上评论的困惑76
6.1 Weotta公司76
6.2 获得评论77
6.3 情感分类77
6.4 极化语言78
6.5 创建语料库80
6.6 训练分类器81
6.7 分类器验证82
6.8 用数据设计84
6.9 经验教训84
6.10 小结85
6.11 信息资源86
第7章 请噪音数据站出

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.