登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』大数据挖掘及应用

書城自編碼: 3033069
分類: 簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 王国胤、刘群、于洪、曾宪华
國際書號(ISBN): 9787302469278
出版社: 清华大学出版社
出版日期: 2017-07-01
版次: 1 印次: 1
頁數/字數: 400/624000
書度/開本: 32开 釘裝: 平装

售價:NT$ 428

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
文史星历:秦汉史丛稿
《 文史星历:秦汉史丛稿 》

售價:NT$ 661.0
神灵衰落:祈雨与乾隆朝的信仰危机
《 神灵衰落:祈雨与乾隆朝的信仰危机 》

售價:NT$ 498.0
深度营销:成就营销领导力的12大原则(麦肯锡年度经管好书,12大原则揭秘营销本质,带好团队就是从领导力到影响力!)
《 深度营销:成就营销领导力的12大原则(麦肯锡年度经管好书,12大原则揭秘营销本质,带好团队就是从领导力到影响力!) 》

售價:NT$ 325.0
新质生产力:发展新动能
《 新质生产力:发展新动能 》

售價:NT$ 493.0
状态比能力更重要:108个状态调整法
《 状态比能力更重要:108个状态调整法 》

售價:NT$ 308.0
中国上市公司担保行为的影响因素及其效应研究
《 中国上市公司担保行为的影响因素及其效应研究 》

售價:NT$ 202.0
企业级数据架构:核心要素、架构模型、数据管理与平台搭建    李杨
《 企业级数据架构:核心要素、架构模型、数据管理与平台搭建 李杨 》

售價:NT$ 554.0
政和元年:宋辽金夏的国运博弈与谍战风云
《 政和元年:宋辽金夏的国运博弈与谍战风云 》

售價:NT$ 381.0

建議一齊購買:

+

NT$ 319
《 数据挖掘实用案例分析 》
+

NT$ 449
《 洞见数据价值:大数据挖掘要案纪实 》
+

NT$ 384
《 轻松学大数据挖掘:算法、场景与数据产品 》
+

NT$ 929
《 数据挖掘与分析 概念与算法 》
+

NT$ 263
《 大数据挖掘与统计机器学习(大数据分析统计应用丛书) 》
編輯推薦:
大数据系列丛书由多本既独立又有丰富内在联系的大数据时代思维、技术与应用的教材组成。《大数据挖掘及应用》是其中的又一力作。本书内容宽泛,图文并茂,文字流畅,技术先进,是全新设计的数据挖掘及应用课程的教材,适合不同层次读者的学习需要。全书分导论、方法论和进阶应用三大部分,共11章,涵盖大数据挖掘及应用领域的基础理论知识和方法、数据可视化技术、深度学习技术、R语言基础、大数据分析算法的并行化基础理论,大数据分布式存储与并行计算平台及编程框架等重要概念。全书提供大量案例,不仅包括简单程序的代码,也包括较大应用程序代码,结合一系列案例和学生竞赛作品,把数据分析技术的概念、理论融入实践中。每章配有习题,以加深对知识的认识、理解和掌握,激发读者浓厚的学习兴趣,巩固所学知识,提高编程能力。本书可作为高等院校计算机、软件工程、大数据等专业的教材,也可作为教辅资料,还可作为学习应用技术的参考书。以本书内容为主题的在线微视频开放课程已经在http:cqupt.gaoxiaobang.com上线。与本书配套的电子课件,每章案例涉及的软件程序、课后习题解答及部分案例的演示视频均可登录清华大学出版社网站下载使用。
內容簡介:
本书围绕大数据背景下的数据挖掘及应用问题,从大数据挖掘的基本概念入手,由浅入深、循序渐进地介绍了大数据挖掘分析过程中的数据准备和预处理方法、数据可视化技术、数据挖掘理论和经典算法、常用大数据分析计算平台的编程模型、并行化程序设计技术、统计分析R语言基础等内容。其中数据挖掘理论和经典算法不仅覆盖了传统的关联分析、分类和聚类,还包括深度学习理论等数据挖掘研究和发展的潮流主题。每一章内容都尽量从不同角度进行深入浅出的剖析,还配以丰富的习题和参考文献,对于读者掌握大数据挖掘及应用领域的基本知识和进一步研究都具有参考价值。本书可以作为高校本科相关专业数据分析类课程教材和面向各专业的数据科学通识教材,也可供广大IT从业人员参考。
目錄
目录

第1章大数据挖掘及应用概论1
1.1大数据智能分析处理的普及和应用1
1.1.1云计算1
1.1.2大数据3
1.1.3云计算与大数据的智能应用4
1.2大数据的发展及挑战10
1.2.1大数据的发展催生三元空间世界10
1.2.2大数据智能分析处理面临的挑战12
1.3数据挖掘概述14
1.3.1数据挖掘的概念14
1.3.2数据挖掘的功能15
1.3.3数据挖掘运用的技术16
1.3.4大数据挖掘与传统数据挖掘16
1.4大数据挖掘的计算框架17
1.4.1大数据挖掘计算框架17
1.4.2大数据挖掘处理基本流程21
1.5大数据时代互联网 的未来: 智能互联23
1.6本书架构26
1.7小结27
1.8习题27
1.9参考文献28第2章数据认知与预处理29
2.1数据分析的定义和流程30
2.1.1如何理解和描述数据分析的问题30
2.1.2数据获取与准备31
2.1.3数据质量评估32
2.2数据类型33
2.2.1属性的定义33
2.2.2标称属性33
2.2.3二元属性34
2.2.4序值属性34
2.2.5数值属性34
2.3数据的统计描述方法35
2.3.1数据的中心趋势度量35
2.3.2数据的离散趋势度量37
2.4数据对象关系的计算方法39
2.4.1数据相似性计算方法40
2.4.2数据相关性计算方法46
2.5数据准备48
2.5.1数据清洗与集成48
2.5.2数据归约52
2.5.3数据转换58
2.6数据统计分析常用工具介绍61
2.6.1Excel统计分析工具61
2.6.2SPSS统计分析工具63
2.6.3SAS统计分析工具64
2.6.4R语言统计分析工具66
2.7SPSS案例分析68
2.7.1日志文件数据准备68
2.7.2数据录入与编辑68
2.7.3数据清洗与转换70
2.7.4数据方差分析72
2.7.5数据相关性分析74
2.7.6数据间距离分析74
2.8小结77
2.9习题78
2.10参考文献79第3章数据可视化80
3.1可视化简介80
3.2高维数据可视化81
3.2.1降维方法82
3.2.2非降维方法84
3.3网络数据可视化90
3.3.1节点链接法90
3.3.2邻接矩阵布局96
3.3.3混合布局98
3.4可视化案例分析99
3.4.1案例一: China VIS 2015竞赛题99
3.4.2案例二: VAST Challenge 2016竞赛题107
3.5小结120
3.6习题121
3.7参考文献122第4章数据关联分析123
4.1数据关联分析简介123
4.2基本概念125
4.2.1频繁项集和关联规则126
4.2.2闭项集和极大频繁项集128
4.2.3稀有模式和负模式129
4.3Apriori算法130
4.3.1Apriori算法的核心思想131
4.3.2Apriori算法描述132
4.3.3改进的Apriori算法133
4.4FPGrowth算法137
4.4.1FPGrowth算法的核心思想138
4.4.2FPGrowth算法描述139
4.5面向大数据的有效数据结构142
4.6关联规则有效性的评估方法143
4.6.1关联规则兴趣度评估144
4.6.2关联规则相关度评估144
4.6.3其他相关评估度量方法146
4.7多维关联规则挖掘148
4.8多层关联规则挖掘151
4.9基于Python平台的案例分析156
4.10小结158
4.11习题159
4.12参考文献161第5章数据分类分析163
5.1基本概念和术语163
5.1.1数据分类163
5.1.2解决分类问题的一般方法165
5.2决策树算法166
5.2.1决策树归纳166
5.2.2决策树构建167
5.2.3属性测试条件的表示方法169
5.2.4选择最佳划分的度量171
5.2.5决策树归纳算法175
5.2.6树剪枝176
5.2.7决策树归纳的特点178
5.3贝叶斯分类算法180
5.3.1贝叶斯定理181
5.3.2朴素贝叶斯分类182
5.3.3贝叶斯信念网络184
5.4支持向量机算法185
5.4.1数据线性可分的情况185
5.4.2数据非线性可分的情况189
5.5粗糙集分类算法190
5.6分类器评估方法191
5.6.1评估分类器性能的度量192
5.6.2保持方法和随机二次抽样195
5.6.3交叉验证195
5.6.4自助法195
5.6.5使用统计显著性检验选择模型196
5.7组合分类器技术197
5.7.1组合分类方法简介198
5.7.2装袋198
5.7.3提升和AdaBoost199
5.7.4随机森林200
5.7.5提高类不平衡数据的分类准确率200
5.8惰性学习法(k最近邻分类)201
5.9基于Python平台的案例分析203
5.9.1数据集准备203
5.9.2算法描述204
5.9.3算法测试206
5.10小结209
5.11习题209
5.12参考文献211第6章数据聚类分析214
6.1基本概念和术语214
6.1.1聚类分析简介215
6.1.2对聚类的基本要求215
6.1.3聚类分析方法216
6.2基于划分的方法218
6.2.1kmeans算法218
6.2.2k中心点算法221
6.3基于层次的方法224
6.3.1凝聚的与分裂的层次聚类224
6.3.2簇间距离度量225
6.4基于密度的方法229
6.4.1传统的密度: 基于中心的方法230
6.4.2DBSCAN算法231
6.5基于概率模型的聚类方法233
6.5.1模糊聚类233
6.5.2基于概率模型的聚类235
6.5.3期望最大化算法237
6.6聚类评估239
6.6.1聚类趋势的估计239
6.6.2聚类簇数的确定241
6.6.3聚类质量的测定242
6.7基于Python平台的案例分析245
6.7.1数据准备245
6.7.2聚类分析结果探讨246
6.8小结248
6.9习题249
6.10参考文献253第7章深度学习255
7.1引言255
7.1.1发展背景255
7.1.2基本概念256
7.2深信网257
7.2.1玻尔兹曼机258
7.2.2受限玻尔兹曼机258
7.2.3深信网260
7.3深玻尔兹曼机264
7.4栈式自动编码器266
7.4.1自动编码器266
7.4.2栈式自动编码器267
7.5卷积神经网络269
7.5.1卷积269
7.5.2池化270
7.5.3CNN训练过程272
7.5.4CNN网络构造的案例分析276
7.6深度学习开源框架278
7.6.1开源框架简介278
7.6.2开源案例分析278
7.7深度学习应用技巧284
7.8小结285
7.9习题286
7.10参考文献286第8章R语言288
8.1下载和安装R语言288
8.1.1下载R语言288
8.1.2安装R语言288
8.2使用R语言292
8.2.1运行R语言292
8.2.2R语言常用操作294
8.2.3包的使用298
8.3R语言的数据结构300
8.3.1向量300
8.3.2矩阵301
8.3.3数组302
8.3.4因子303
8.3.5列表304
8.3.6数据框305
8.4R语言的编程结构306
8.4.1条件语句306
8.4.2循环语句308
8.5R语言的数据挖掘和图形绘制包310
8.6实际案例312
8.7小结314
8.8习题314
8.9参考文献315第9章Hadoop大数据分布式处理生态系统316
9.1Hadoop集群基础316
9.1.1Hadoop安装317
9.1.2Hadoop配置319
9.2HDFS基础操作324
9.3MapReduce并行计算框架331
9.3.1MapReduce程序实例: WordCount332
9.3.2Hadoop Streaming333
9.4基于Storm的分布式实时计算334
9.4.1Storm简介334
9.4.2Storm基本概念334
9.4.3Storm编程338
9.5基于Spark Streaming的分布式实时计算346
9.5.1Spark内存计算框架346
9.5.2Spark Streaming简介347
9.5.3Spark Streaming编程349
9.6小结352
9.7参考文献353第10章大数据分析算法的并行化355
10.1并行算法设计基础355
10.1.1并行算法概念355
10.1.2并行计算模型356
10.1.3并行算法设计的策略和技术360
10.2典型数据挖掘算法并行化案例362
10.2.1MR kmeans算法分析362
10.2.2Mahout聚类算法案例364
10.2.3Spark MLlib聚类算法案例369
10.3大数据分析应用案例371
10.3.1搜索引擎日志数据分析371
10.3.2出租车轨迹数据分析374
10.3.3新闻组数据分析377
10.4小结383
10.5习题383
10.6参考文献384第11章大数据挖掘及应用展望385
11.1大数据时代的发展回顾与展望385
11.1.1大数据发展回顾385
11.1.2从小到大的数据分析处理387
11.1.3大数据的智能分析与挖掘389
11.2大数据中的新数据类型391
11.3大数据挖掘的新方法394
11.3.1深度学习394
11.3.2知识计算395
11.3.3社会计算396
11.3.4特异群组挖掘397
11.4未来发展趋势398
11.5小结399
11.6参考文献399
內容試閱
《创新思维与TRIZ创新方法》编辑委员会
主审: 陈敏玲主编: 周苏副主编: 李亮亮褚赟韩志科王文
本书得到了创新方法工作专项:2013IM020900浙江省创新方法应用推广与示范2015F30029浙江省创新方法推广应用与服务项目的资助今天,大数据已经成为一个非常时尚的概念,得到广泛应用,不仅受到IT从业人员的重视,而且影响到了自然科学、社会科学、人文科学等领域的广大从业者,并对社会经济的各行业产生了深远的影响。大数据已经不再是对大量数据的处理问题了,最重要的是对大数据进行分析,只有通过分析才能从数据中获取深入的、智能的、有价值的信息与知识。不断增长的大数据呈现出数据量大、种类繁多、增速很快以及隐藏价值大的特点,因此好的分析技术和方法在大数据应用领域显得尤为重要。本书围绕大数据背景下的数据挖掘和应用问题,从大数据挖掘的基本概念入手,由浅入深、循序渐进地介绍了大数据挖掘分析过程中的数据准备和预处理技术、数据可视化技术、数据挖掘的基本方法、大数据分析计算的常用平台架构编程方法、并行化程序设计技术以及常用的SPSS统计分析工具、流行的统计分析R语言等内容。本书不仅面向在校大学生,而且面向社会广大的IT从业人员,有助于读者了解大数据挖掘所涉及的基本技术和方法。作者力图使读者通过学习,提高数据分析的实践动手能力,拓展在数据分析领域的视野。参与编写本书的所有作者均来自重庆邮电大学计算智能重庆市重点实验室,都具有多年从事数据挖掘、机器学习等人工智能领域的科研和教学实践经验。本书在结构设计与内容安排上既体现了所有作者的群体智慧,也体现了本领域的近期发展和前沿成果。目前,大数据的知识挖掘及应用方法逐渐成为各高校信息类和管理类本科专业的必修课程内容,同时,作为面向各专业的通识课也广受欢迎。本书作为立足于本科教学的教材,具有如下特色:1 在逻辑安排上循序渐进,由浅入深,便于读者系统学习。2 内容丰富,信息量大,融入了大量本领域的新知识和新方法。3 作为教材,在每一个环节都配有与理论学习内容相结合的案例分析,不仅有学生参赛作品展示,还有采用Python和R语言编写的应用实例,尤其是在第10章还给出了完整的大数据分析应用实际案例,使读者能够在大数据平台上实际感受一个完整的数据分析过程。4 图文并茂,形式生动,可读性强。全书内容分为3部分,共11章。第1部分是数据挖掘及应用导论,由第1~3章组成。第1章主要是关于大数据挖掘及应用的概论。本章讨论了大数据挖掘及应用普及的发展历程及重要性,探讨了目前所面临的挑战和问题,介绍了数据挖掘的基本概念、功能和方法,进而对大数据挖掘的计算框架和处理流程进行了分析总结。在本章教学中,可以紧跟最新事件,以生动的实例、动画、视频等形式激发学生兴趣。建议2学时。第2章的主题是数据认知和数据准备。本章首先从数据分析的定义和流程入手,给出了评价高质量数据的指标。然后对数据由什么类型的属性或字段组成,每个属性具有何种类型的数据值,是离散属性还是连续属性进行了描述,进而讨论了数据的中心趋势和离散趋势度量指标,以及数据相似性和相关性的计算方法,并着重探讨了数据预处理中数据清理、数据集成、数据归约和数据变换的技术。最后简述了目前常用的数据统计分析和预处理工具,并用一个案例对SPSS工具进行了介绍。在本章教学中,可以以一种数据统计分析工具为背景,进行形象具体的介绍。建议6学时。第3章主要介绍数据可视化技术。本章从可视化技术的应用开始,介绍了最常用的高维数据可视化方法和网络数据可视化方法,最后通过两个竞赛案例对可视化技术的实际应用作了详细的讲解。可视化技术能够以图形的表现方式帮助人们识别隐藏在杂乱数据集中的关系、趋势和偏差等有价值信息。在本章教学中,可以运用可视化软件进行案例演示,激发学生的学习兴趣。建议6学时。第2部分是数据挖掘及应用的方法论,由第4~8章组成。第4章包含数据关联分析的基本知识和主要经典算法。数据关联分析是数据挖掘中应用最早和最成熟的一类方法。本章从一个问题案例出发,先后介绍了关联规则分析的基本概念以及3种典型的频繁项集挖掘算法,并对关联规则的有效性进行了探讨,将学习内容扩展到频繁项集挖掘的一些高级方法,例如多维关联规则挖掘和多层关联规则挖掘,最后使用Python语言给出了经典Apriori算法的一个应用案例。在本章教学中,可以结合数据挖掘领域著名的开源软件weka进行演示教学,让学生形象地体会经典关联分析算法产生的效果和使用全过程。建议6学时。第5章包含数据分类分析的基本知识以及主要经典算法。本章从介绍分类的基本概念入手,讲解了数据分类分析的基本方法,包括最常用的决策树分类器,基于概率统计思想的贝叶斯分类算法,具有统计学习理论坚实基础的支持向量机算法,以及通过构建一组基于学习器进行集成学习的Adaboost算法,最后使用Python语言给出了一个具体案例,使读者能够熟悉数据分类分析的全过程。在本章教学中,可以结合数据挖掘领域著名的开源软件weka进行演示教学,让学生形象地体会经典分类算法产生的效果和使用全过程。建议6学时。第6章包含数据聚类分析的基本知识和主要经典算法。本章首先引入聚类的基本概念,进而讲解各种聚类算法,包括基于划分的kmeans算法和k中心点算法,基于层次的算法,基于密度的DBSCAN算法以及基于概率模型的期望最大化算法,并简要讨论了评估聚类方法的准则,最后使用Python语言给出一个案例,帮助读者更好地理解聚类分析技术。在本章教学中,可以结合数据挖掘领域著名的开源软件weka进行演示教学,让学生形象地体会经典聚类算法产生的效果和使用全过程。建议4~5学时。第7章探讨人工智能研究中的一个重要的新领域深度学习。本章首先介绍深度学习的发展和基本概念,然后具体分析了深度学习的几种经典模型与算法,包括最常用的深信网、深玻尔兹曼机、栈式自动编码器和卷积神经网络,最后介绍了几种深度学习开源模型并给出了一个具体案例,帮助读者了解深度学习在实际应用中的完整工作过程。在本章教学中,可以结合书中介绍的某一种深度学习开源框架,采用相应的数据集进行演示教学,让学生形象地体会深度学习算法产生的效果和使用全过程。建议6学时。第8章介绍目前流行的统计分析R语言。本章首先从R语言的下载安装开始,介绍R语言的基本技术,包括运行方法、常用操作、包的使用、常用数据结构、编程结构以及与数据挖掘和图形绘制相关的包,最后使用R语言给出了一个从数据预处理到数据分析的具体案例,使读者能够熟悉使用R语言做数据分析的全过程。在本章教学中,可以通过类似实训课程或者视频录像的形式,让学生形象地体会并掌握R语言的操作方法和编程基础。建议4学时。第3部分属于数据挖掘及应用的进阶部分,由第9~11章组成。第9章的主题是大数据分布式存储与并行计算的平台Apache Hadoop及其编程框架。本章从介绍Hadoop集群的基本概念开始,讲解了HDFS基本操作、MapReduce并行计算基础、基于Storm的分布式实时计算以及基于Spark Streaming的分布式实时计算等内容。在各节中都给出了若干案例,以供读者在实际编程过程中进行参考。在本章教学中,可以要求学生紧扣教材,完成各节中的案例,增强身临其境的体验。建议4~5学时。第10章介绍大数据分析处理算法的并行化基础理论和技术。本章介绍了并行计算算法的基本概念,以MRKMeans算法为典型案例分析了其在MapReduce计算框架下的并行化,并基于Mahout和MLlib对该算法进行了并行化实现,最后给出了3个完整的MapReduce平台下数据分析的具体案例,使读者能够了解在大数据平台上进行数据分析的全过程。在本章教学中,可以通过专门的视频演示,让学生理解并行化编程的复杂实际操作。建议4~5学时。第11章主要关注大数据挖掘及应用的发展趋势和研究前沿。本章首先从大数据时代发展的回顾与展望开始,介绍了大数据发展过程中出现的典型新数据类型以及新挖掘分析方法,并在最后对大数据的发展进行了展望。建议2学时。本书各章提供的教学建议和学时安排仅供教师参考。教师可以根据教学过程中的实际安排删减内容和调整学时。本书还提供了一些丰富的教学资源供教师教学参考和学生学习时使用。以本书各章内容为基础的在线微视频开放课程已经在cqupt.gaoxiaobang.com网站上线,教师可以通过课前推送的方式,指导学生观看相关视频进行课前预习,其他读者可以通过该视频课程巩固和完善对各个知识点的理解。除此之外,我们还提供了一些其他的附加材料,包括每章的幻灯片、每章涉及的案例的软件程序、课后习题解答以及一些案例的演示视频,以上这些资料在清华大学出版社的网站上向教师提供。本书的第1、11章由王国胤和张旭编写,第2、4章由刘群编写,第3章由秦红星编写,第5、6章由于洪编写,第7章由曾宪华编写,第8章由吴思远编写,第9章由李智星编写,第10章由张旭编写。全书架构由王国胤负责设计,王国胤和刘群负责统稿。本书的编写得到了重庆邮电大学计算智能重庆市重点实验室和计算机科学与技术学院教师们的大力支持和帮助,也得到了许多研究生的支持,他们帮助收集并整理了大量资料。没有他们的帮助,本书很难在约定时间内完成。在此,感谢他们对本书的写作所做出的各种贡献。限于作者学识和经验,书中难免会出现不足和遗漏之处,欢迎读者指出,一旦问题被证实,我们将给出更新勘误表,并对您表示感谢。评论和建议请发往liuqun@cqupt.edu.cn,我们很高兴能听到您的声音。
作者2017年1月
课程教学进度表(2020学年第学期)
课程号: 课程名称: 大数据导论学分: 2周学时: 2总学时: 34(其中理论学时(课内): 34(课外)实践学时: (34))主讲教师: 序号校历周次章节(或实验、习题课等)名称与内容学时教学方法课后作业布置11引言与第1章 大数据与大数据时代222第1章 大数据与大数据时代233第2章 大数据的可视化244第2章 大数据的可视化255第3章 大数据的商业规则266第4章 大数据时代的思维变革277第4章 大数据时代的思维变革288第5章 大数据促进医疗与健康299第6章 大数据激发创造力21010第7章 大数据预测分析21111第8章 大数据促进学习21212第9章 大数据在云端21313第9章 大数据在云端21414第10章 支撑大数据的技术21515第10章 支撑大数据的技术21616第11章 数据科学与数据科学家21717第12章 大数据的未来2课前阅读阅读分析课堂教学实验与思考实验与思考实验与思考实验与思考实验与思考实验与思考实验与思考实验与思考实验与思考实验与思考实验与思考课程实验总结填表人(签字): 日期:系(教研室)主任(签字):日期:


第5章数据分类分析分类classification是一种重要的数据分析形式,它是提取刻画重要数据类的模型,也是机器学习和数据挖掘领域中的一整套用于处理分类问题的方法。该类方法是有监督学习类型的,即: 给定一个数据集,所有实例都由一组属性来描述,每个实例仅属于一个类别,在给定数据集上运行可以学习得到一个从属性值到类别的映射,进而可使用该映射对新的未知实例进行分类,这种映射又称为模型或分类器(classifer)。在数据挖掘社区遴选出的十大算法中六个都是这类方法,这也反映出此类方法在数据挖掘中被使用的广泛程度。最早这类算法只能处理标称类别数据,如今已扩展到支持数值、符号乃至混合型的数据类型。具体的应用领域也很广泛,例如临床决策、生产制造、文档分析、生物信息学、空间数据建模地理信息系统等。本章从介绍分类的基本概念5.1节开始,其后,将学习数据分类分析的基本技术,包括最常用的决策树分类器的构建方法5.2节,基于概率统计思想的贝叶斯分类算法5.3节,具有统计学习理论坚实基础的,在所有知名的数据挖掘算法中最健壮、最准确的支持向量机Support Vector Machine算法5.4节,以及通过构建一组基于学习器进行集成学习的Adaboost算法5.7节,最后通过使用Python语言给出了一个具体案例,使读者能够熟悉数据分类分析的整个过程。5.1基本概念和术语本节给出分类分析相关的基本概念及其基本术语,为读者研究分类分析建立基础。5.1.1节通过一个描述性模型介绍分类中的有关定义。5.1.2节介绍分类的方法,并对相关的术语做出了解释。5.1.1数据分类分类任务就是通过学习得到一个目标函数(target function)f,把每个属性集x映射到一个预先定义的类标号y。目标函数也称分类模型(classfication model)。分类模型可以用于以下目的。1 描述性建模。分类模型可以作为解释性工具,用于区分不同类中的对象。例如,对于生物学家或者其他人,一个描述性模型有助于概括表51中的数据,并说明哪些特征决定一种脊椎动物是哺乳类、爬行类、鸟类、鱼类或者两栖类。表51脊椎动物的数据集名称体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号人类恒温毛发是否否是否哺乳类蟒蛇冷血鳞片否否否否是爬行类鲑鱼冷血鳞片否是否否否鱼类鲸恒温毛发是是是否否哺乳类青蛙冷血无否半否是是两栖类巨蜥冷血鳞片否否否是否爬行类蝙蝠恒温毛发是否是是是哺乳类鸽子恒温羽毛否是是是否鸟类猫恒温软毛是否否是否哺乳类豹纹鲨冷血鳞片是是否否否鱼类海龟冷血鳞片否半否是否爬行类企鹅恒温羽毛否半否是否鸟类豪猪恒温刚毛是否否是是哺乳类鳗冷血鳞片否是否否否鸟类蝾螈冷血无否半否是是两栖类2 预测性建模。分类模型还可以用于预测未知记录的类标号。如图51所示,分类模型可以看作是一个黑箱,当给定未知记录的属性集上的值时,它自动地赋予未知样本类标号。图51分类器的任务是根据输入属性集x确定类标号y例如,假设有一种叫做毒蜥的生物,其特征如表52所示。表52毒蜥的特征数据名称体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号毒蜥冷血鳞片否否否是是?可以根据表51中的数据集建立的分类模型来确定该生物所属的类。假设销售经理希望预测一位给定的顾客一次购物将花多少钱,这个数据分析任务就是数值预测(numeric prediction)的一个例子,其中所构造的模型预测一个连续值函数或有序值而不是类标号。这种模型是预测器(predictor)。回归分析(regression analysis)是数值预测最常用的统计方法,因此这两个术语常常作为同义词使用,尽管还存在其他数值预测方法。分类和数值预测是预测问题的两种主要类型。5.1.2解决分类问题的一般方法分类技术(或分类法)是一种根据输入数据集建立分类模型的系统方法。分类法包括决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。这些技术都使用一种学习算法(learning algorithm)确定分类模型,该模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是建立具有很好的泛化能力的模型,即建立能够准确地预测未知样本类标号的模型。图52展示了解决分类问题的一般方法。首先,需要一个训练集(training set),它由类标号已知的记录组成。使用训练集建立分类模型,该模型随后将运用于检验集(test set),检验集由类标号未知的记录组成。图52建立分类模型的一般方法由于提供了每个训练元组的类标号,这一阶段也称为监督学习(supervised learning,即分类器的学习在被告知每个训练元组属于哪个类的监督下进行的)。无监督学习(unsupervised learning,或称聚类)则不同,每个训练元组的类标号是未知的,并且要学习的类的个数或集合也可能事先不知道。例如,如果没有用于训练集的数据,则可以使用聚类尝试确定相似元组的组群。分类过程的学习模型也可以看作是学习一个映射或函数y=fX,它可以预测给定元组X的类标号y。在这种观点下,我们希望学习把数据类分开的映射或函数。在典型情况下,该映射用分类规则、决策树或数学公式的形式提供。在应用模型阶段,使用模型进行分类,首先要评估分类器的预测准确率。如果使用训练集来衡量分类器的准确率,则评估可能是乐观的,因为分类器趋向于过分拟合(overfit)该数据(即在学习期间,它可能包含了训练数据中的某些特定的异常,这些异常不在一般数据集中出现)。因此,需要使用由检验元组和与它们相关联的类标号组成的检验集,它们独立于训练元组,即不使用它们构造分类器。分类器在给定检验集上的准确率(accuracy)是分类器正确分类的检验元组所占的百分比。每个检验元组的类标号与学习模型对该元组的类预测进行比较。如果认为分类器的准确率是可以接受的,那么就可以用它对类标号未知的数据元组进行分类(这种数据在机器学习中也称为未知的或先前未见到的数据)。5.2决策树算法本节介绍决策树分类法,这是一种简单但广泛使用的分类技术。在5.2.1节通过案例对决策树归纳过程进行介绍。决策树的建立过程在5.2.2节给出。5.2.3节和5.2.4节分别给出了属性测试条件的方法和选择最佳划分的度量的方法。5.2.5节给出决策树归纳算法。树剪枝的概念在5.2.6节介绍。5.2.7节对决策树归纳的特点做了总结。5.2.1决策树归纳决策树归纳是从有类标号的训练元组中学习决策树。决策树(decision tree)是一种类似于流程图的树结构,其中,每个内部节点(internal node,即非树叶节点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶节点(leaf node)(或终端节点)存放一个类标号。树的最顶层节点是根节点(root node)。叶节点用矩形表示,而内部节点和根节点用椭圆表示。有些决策树算法只产生二叉树,而另一些决策树算法可能产生非二叉的树。例如,在图53中,在根节点处,使用体温这个属性把冷血脊椎动物和恒温脊椎动物区别开来。因为所有的冷血脊椎动物都是非哺乳动物,所以用一个类标号为非哺乳动物的叶节点作为根节点的右孩子。如果脊椎动物的体温是恒温的,则接下来用胎生这个属性来区分哺乳动物与其他恒温动物。图53哺乳动物分类问题的决策树给定一个类标号未知的元组X,在决策树上测试该元组的属性值。跟踪一条由根到叶节点的路径,该叶节点就存放着该元组的类预测。决策树容易转换成分类规则。决策树分类器的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。决策树可以处理高维数据。获取的知识用树的形式表示是直观的,并且容易被人理解。决策树归纳的学习和分类步骤是简单和快速的。一般而言,决策树分类器具有很高的准确率。然而,成功的使用可能依赖手头的数据。决策树归纳算法已经成功地应用于许多领域的分类,如医学、制造和生产、金融分析、天文学和分子生物学。决策树是许多商业规则归纳系统的基础。一旦构造了决策树,对检验记录进行分类就相当容易了。从树的根节点开始,将测试条件用于检验记录,根据测试结果选择适当的分枝。沿着该分枝或者到达另一个内部节点,使用新的测试条件,或者到达一个叶节点。到达叶节点之后,叶节点的类标号就被赋值给该检验记录。例如,图54显示了应用决策树预测火烈鸟的类标号所经过的路径,路径终止于类标号为非哺乳动物的叶节点。虚线表示在未标记的脊椎动物上使用各种属性测试条件的结果,该脊椎动物最终被指派到非哺乳动物类。图54对一种未标记的脊椎动物分类5.2.2决策树构建原则上讲,对于给定的属性集,可以构造的决策树的数目达指数级。尽管某些决策树比其他决策树更准确,但是由于搜索空间是指数规模的,找出最佳决策树在计算上是不可行的。尽管如此,人们还是开发了一些有效的算法,能够在合理的时间内构造出具有一定准确率的次最优决策树。这些算法通常都采用贪心策略(即非回溯的),在选择划分数据的属性时,采取一系列局部最优决策来构造决策树,Hunt算法就是一种这样的算法。Hunt算法是许多决策树算法的基础,包括ID3、C4.5和CART。在Hunt算法中,通常将训练记录相继划分成较纯的子集,以递归方式建立决策树。设Dt是与节点t相关联的训练记录集,而y={y1,y2,,yc}是类标号,Hunt算法的递归定义如下:(1) 如果Dt中所有记录都属于同一个类yt,则t是叶节点,用yt标记。(2) 如果Dt中包含属于多个类的记录,则选择一个属性测试条件(attribute test condition),将记录划分成较小的子集。对于测试条件的每个输出,创建一个子女节点,并根据测试结果将Dt中的记录发布到子女节点中。然后,对于每个子女节点,递归地调用该算法。为了解释该算法如何执行,考虑如下问题: 预测贷款申请者是会按时归还贷款还是会拖欠贷款。对于这个问题,训练数据集可以通过考察以前贷款者的贷款记录来构造。在表53所示的例子中,每条记录都包含贷款者的个人信息以及贷款者是否拖欠贷款的类标号。表53训练数据集: 预测拖欠银行贷款的贷款者Tid有房者婚姻状况年收入拖欠贷款者1是单身125k否2否已婚100k否3否单身70k否4是已婚120k否5否离异95k是6否已婚60k否7是离异220k否8否单身85k是9否已婚75k否10否单身90k是该分类问题的初始决策树只有一个节点,类标号为拖欠贷款者=否(见图55a),意味着大多数贷款者都按时归还贷款。然而,该树需要进一步的细化,因为根节点包含两个类的记录。根据有房者测试条件,这些记录被划分为较小的子集,如图55b所示。选取属性测试条件的理由稍后讨论,目前,假定此处这样选是划分数据的最优选择。接下来,对根节点的每个子女递归地调用Hunt算法。从表53给出的训练数据集可以看出,有房的贷款者都按时偿还了贷款,因此,根节点的左子女为叶节点,标记为拖欠贷款者=否(见图55b)。对于右子女,需要继续递归调用Hunt算法,直到所有的记录都属于同一个类为止。每次递归调用所形成的决策树显示在图55c和图55d中。图55Hunt算法构造决策树如果属性值的每种组合都在训练数据中出现,并且每种组合都具有唯一的类标号,则Hunt算法是有效的,但是对于大多数实际情况,这些假设太苛刻了,因此,需要附加的条件来处理以下的情况。(1) 算法的第二步图55b所创建的子女节点可能为空,即不存在与这些节点相关联的记录。如果没有一个训练记录包含与这样的节点相关联的属性值组合,这种情形就可能发生。这时,该节点成为叶节点,类标号为其父节点上训练记录中的多数类。(2) 在第二步,如果与相关联的所有记录都具有相同的属性值(目标属性除外),则不可能进一步划分这些记录。在这种情况下,该节点为叶节点,其标号为与该节点相关联的训练记录中的多数类。决策树归纳的学习算法必须解决下面两个问题。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.