登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』数据挖掘中的集成方法——通过集成预测来提升精度

書城自編碼: 2580479
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: [美]Giovanni Semi等著;王攀 等译
國際書號(ISBN): 9787030443274
出版社: 科学出版社
出版日期: 2015-06-16
版次: 1 印次: 1
頁數/字數: 112/121000
書度/開本: 16开 釘裝: 平装

售價:NT$ 664

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
麦肯锡原则:成就全球顶级公司的11条经验    (美) 达夫·麦克唐纳
《 麦肯锡原则:成就全球顶级公司的11条经验 (美) 达夫·麦克唐纳 》

售價:NT$ 498.0
氢经济
《 氢经济 》

售價:NT$ 549.0
校园欺凌
《 校园欺凌 》

售價:NT$ 279.0
培训需求分析与年度计划制订——基于组织战略,做”对的”培训!
《 培训需求分析与年度计划制订——基于组织战略,做”对的”培训! 》

售價:NT$ 386.0
这就是心理咨询:全球心理咨询师都在用的45项技术(第3版)
《 这就是心理咨询:全球心理咨询师都在用的45项技术(第3版) 》

售價:NT$ 717.0
正说清朝十二帝(修订珍藏版)
《 正说清朝十二帝(修订珍藏版) 》

售價:NT$ 493.0
黑海史:从历史涟漪到时代巨浪
《 黑海史:从历史涟漪到时代巨浪 》

售價:NT$ 538.0
我,毕加索
《 我,毕加索 》

售價:NT$ 280.0

建議一齊購買:

+

NT$ 656
《 数据科学中的R语言(R语言应用系列) 》
+

NT$ 891
《 深入浅出MySQL:数据库开发、优化与管理维护(第2版) 》
+

NT$ 495
《 Access 2010中文版入门与提高(配光盘)(软件入门与提高丛书) 》
+

NT$ 539
《 分布式云数据中心的建设与管理(华为第一线团队亲力撰写最新分布式云数据精品力作) 》
+

NT$ 466
《 Access2010数据库应用(第二版)(配光盘)(学以致用系列丛书) 》
+

NT$ 931
《 Head First PHP & MySQL(中文版) 》
編輯推薦:
《数据挖掘中的集成方法—通过集成预测来提升精度》可供计算机科学技术、控制科学与工程、信息科学与技术、机电工程、管理科学与工程等专业的教师、研究生、高年级本科生参考。
內容簡介:
《数据挖掘中的集成方法—通过集成预测来提升精度》讨论基于决策树的集成,分析被视为当前现代集成算法高级性能的主要原因之一的正则化问题,描述集成方法领域近年来的两个发展——重要性采样(IS)和规则集成(RE),论述新数据信息集成在复杂性和更高精度方面的悖论等重要命题。《数据挖掘中的集成方法—通过集成预测来提升精度》面向前沿、文字简练、论述充分、可读性好。
目錄
译者序
原书序一
原书序二
摘要
第1章集成发现
 1.1建立集成
 1.2正则化
 1.3现实世界中的实例:信用评分+网飞挑战
 1.4本书的组织架构
第2章预测学习和决策树
 2.1决策树归纳纵览
 2.2决策树的性能
 2.3决策树的缺陷
第3章模型复杂度?模型选择和正则化
 3.1什么是树的"合适"规模
 3.2偏差-方差分解
 3.3正则化
 3.3.1正则化与成本-复杂度树修剪
 3.3.2交叉验证
 3.3.3运用收缩的正则化
 3.3.4通过构建增量模型的正则化
 3.3.5实例
 3.3.6正则化综述
第4章重要性采样和经典集成方法
 4.1重要性采样
 4.1.1参数重要性测度
 4.1.2扰动采样
 4.2泛化集成生成
 4.3Bagging
 4.3.1实例
 4.3.2为什么Bagging有用
 4.4随机森林
 4.5AdaBoost
 4.5.1实例
 4.5.2为什么使用指数损失
 4.5.3AdaBoost的总体最小值
 4.6梯度Boosting
 4.7MART
 4.8并行集成与顺序集成的比较
第5章规则集成和解释统计
 5.1规则集成
 5.2解释
 5.2.1仿真数据实例
 5.2.2变量重要性
 5.2.3偏相关
 5.2.4交互统计
 5.3制造业数据实例
 5.4总结
第6章集成复杂性
 6.1复杂性
 6.2广义自由度
 6.3实例:带有噪声的决策树表面
 6.4广义自由度的R代码和实例
 6.5总结与讨论
参考文献
附录AAdaBoost与FSF程序的等价性
附录B梯度Boosting和鲁棒损失函数
內容試閱
第1章集成发现
And in a multitude of counselors there is safety
Proverbs24:6b
从数据中归纳模型,可找到大量经典方法,而且其处理能力各具特色?流行算法的精度依赖所处理问题的细节,如图1.1所示Elder和Lee1997,该图揭示了五种算法用于六个公共领域问题的样本外相对误差?总体来说,神经网络模型对这些问题表现最优,但需指出,每种算法都在六个数据集中的至少两个上表现最优或次优?
图1.1五种算法用于六个公共领域问题的非样本外相对误差基于Elder和Lee1997
对于给定问题哪种算法表现优异?Michie等1994对该问题展开了研究,他们开展了与前述问题相似但更多的工作——23种算法用于22个数据集,并且基于给定的数据集性能构建决策树来预测最优算法?虽然该研究侧重于树——在23个算法中占9个,而且几个数据集对树易产生不可控阈值但仍然为算法选择提供了有益指导?
然而,还有一种提高模型精度的方式比选择单一模型更容易且效果更显著:将诸模型集成?图1.2展示了图1.1中模型以四种不同方式集成的非样本精度,这些集成方式包括平均法?投票法和顾问感知器Elder和Lee,1997?对于每个问题,顾问感知器集成技术都优于简单的平均法,而与集成和单一模型相比,其差别很小?这里每种集成方法都比单一算法更有效?
图1.2四种集成方法在图1.1问题上的非样本相对误差基于Elder和Lee1997
这一现象被少数人分别同时发现,他们应用决策树Ho,Hull和Srihari,1990?神经网络Hansen和Salamon,1990或数学理论Kleinberg,1990来改善分类?最具影响的早期发展是Breiman1996的Bagging,Freund和Shapire1996的AdaBoost,这些将在第4章予以描述?
在努力从回声定位信号特征中预测蝙蝠分类时我们偶然见识了集成当时称为“模型融合”或“捆拢”的威力Elder,1996b?用几个非常不同的算法,如决策树?神经网络?多项式网络和最近邻见Nisbet等2009对算法的描述中的每一个都建立了最优模型?这些方法使用不同的基函数和训练程序,使它们具有不同的表现形式图1.3,还常产生意想不到的不同预测向量即使在集成性能非常相似时?
图1.3五种建模算法的估计表面实例
该计划是只用蝙蝠的叫声来非侵害性地对其物种分类?伊利诺伊大学香槟分校UIUC的生物学家捕捉了19只蝙蝠,将其分别标注为6个物种之一,然后记录了98个信号,UIUC的工程师从信号中计算出35个时频特征?图1.4例证了数据的二维投影,其中每一类都由一个不同颜色和符号表征?数据展示了有用的聚类,但也有大量的类别重叠待处理?
图1.4六类不同蝙蝠物种的信号样本投影
每个蝙蝠有3~8种信号,我们意识到源于特定蝙蝠的信号集都须放在一起在训练集中或在评价集中以公平地测试模型对未知蝙蝠所属物种的预测能力?即任何具有评价数据中一种信号的蝙蝠不得有在训练数据中的信号?因此,对一种模型类别性能的评价由建立和交叉检验19种模型以及积累样本外结果一种遗漏一只蝙蝠作为测试样本的方法构成?
关于评价,基准精度通常选择相对多的数量为27%?决策树的精度为46%,一种分析选择分支前看两步的树的改进算法Elder,1996b精度为58%?多项式网络的精度则为64%?最先尝试的神经网络只有52%?然而,不同于其他方法,神经网络不选择变量:当输入被剪枝至一半以减少冗余及共线性时,神经网络的精度提高到63%?当输入进一步被剪枝到只剩树所用的8个变量时,样本外精度提高到69%?如第3章所描述,该结果是为避免过拟合而需要正则化的一个清楚例证?最后,采用同样八维变量的最近邻法,其精度和神经网络一样,都为69%?
虽然最好的两种模型——神经网络与最近邻总体得分相同,但是它们在13时间上不同;也就是说,它们在非常不同的数据区域出错?我们观测到,两种方法中越肯定的结论正确率越高对于一给定类,其估计值为0~1,估计值越靠近极值通常越正确?因此,我们尝试一并平均这些方法中的四种两步决策树?多项式网络?神经网络?最近邻估计值,得到74%的精度,这是所有里面最好的?每种算法的进一步改进例如,何时要因为输入明显越界于算法训练域而忽略估计值导致结果提高到80%?简言之,人们发现应用多种算法的估计值而突破单个算法的渐近性能上限是可能的?下面介绍什么是所要认知的集成?
1.1建立集成
建立一个集成由两步构成:①建立不同的模型;②组合其估计见4.2节?人们可以通过如改变案例权重?数据值?引导参数?变量子集或输入空间的划分来产生成员模型?组合可由投票完成,然而主要还是通过带门限和作为特例的顾问感知器的模型估计权来完成?例如,由后验证据加权的可能模型——贝叶斯模型进行平均和估计?Baggingbootsrapaggregating;Breiman1996自助训练数据集通常建立不同的决策树并采集多数投票或采取估计平均见4.3节?随机森林Ho,1995;Breiman,2001在被组合的树间增加了一个创造更多分散度的随机成员见4.4节?AdaBoostFreund和Shapire,1996和ARCingBreiman,1996通过变换例子的权重对具有较大当前错误的例子提升权重,并对精确估计者降低权重递推地构建模型并采用模型序列估计的加权和形式见4.5节?梯度BoostingFriedman,1999,2001则面向回归和分类问题将AdaBoost算法推广到多种误差函数见4.6节?
数据处理的群方法GMDHIvakhenko,1968及其后裔——多项式网络Barron等,1984;Elder和Brown,2000可被视为早期的集成技术?他们建立了多层适当阶的多项式,由线性回归拟合,其中种类源于各节点使用的不同变量集合?其组合是非线性的,因为子序列层中内部节点的输出是多项式节点的输入?网络构建由一个简单的交叉检验测试GMDH或复杂性惩罚终止?一种早期的流行方法——StackingWolpert,1992使用神经网络作为其成员其种类可源于简单地采用如初始化权重等引导参数的神经网络,子网训练采用留一法,集成采用子网络估计的线性回归?
个体模型必须有益于集成,并需要知悉何时当停,即知悉如何规避本章1.2节所讨论的模型归纳中的主要风险——过拟合?
1.2正则化
在统计与机器学习模型推断中广泛持有的一项原则是精度和简单性兼顾?但两者之间却存在制衡:为了赢得更高的精度,往往需要一个灵活的更复杂的模型,但就过拟合而言它更易受影响且可能泛化能力更差?正则化技术通过增加一项惩罚模型复杂性到误差函数而“降低”模型拟合进程的灵活性?最小化该项增加了误差指标要求以精度上的某种提升来补偿模型复杂性的增加例如,增加另一项到模型中?如今正则化被视为获得现代集成算法高级性能的一个关键因素?
Tibshirani的关于线性模型的Lasso正则化介绍是一篇有影响力的论文Tibshirani,1996?Lasso正则化使用模型中参考绝对值之和作为惩罚函数,并且它源于Breiman所作的关于参数后处理的工作Breiman称为GarotteBreiman等,1993?
另一重要发展是Efron等2004的LARS,它可进行Lasso解的有效迭代计算?Friedman发表了一项称为PathSeekerPS的技术,它可以组合Lasso惩罚与许多损失误差函数Friedman和Popescu,2004,从而扩展了原来限于最小平方损失的Lasso论文?
仔细比较Lasso惩罚和替代的惩罚函数如采用系数的平方和引发了对惩罚函数的探索:它有两种作用——控制解的“稀疏”非零系数的数目和控制解的数值收缩?这促进了ElasticNet惩罚函数族的发展Zou和Hastie,2005,

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.