登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』深度强化学习实践(原书第2版)

書城自編碼: 3670816
分類: 簡體書→大陸圖書→計算機/網絡人工智能
作者: [俄]马克西姆·拉潘[Maxim Lapan]
國際書號(ISBN): 9787111687382
出版社: 机械工业出版社
出版日期: 2021-08-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 820

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
银元时代生活史
《 银元时代生活史 》

售價:NT$ 493.0
大唐兴衰三百年3:从女主当国到开元盛世
《 大唐兴衰三百年3:从女主当国到开元盛世 》

售價:NT$ 325.0
直击核心:通向卓越教练之路的革命性方法
《 直击核心:通向卓越教练之路的革命性方法 》

售價:NT$ 549.0
高性能储能器件电解质:设计、制备与应用
《 高性能储能器件电解质:设计、制备与应用 》

售價:NT$ 493.0
四时如意 国风纹样线描涂色集
《 四时如意 国风纹样线描涂色集 》

售價:NT$ 279.0
活下去才是硬道理:华为的36条生存法则
《 活下去才是硬道理:华为的36条生存法则 》

售價:NT$ 437.0
森林:保护6万种树木的家
《 森林:保护6万种树木的家 》

售價:NT$ 403.0
数字经济:“数字中国”顶层规划与实践路径
《 数字经济:“数字中国”顶层规划与实践路径 》

售價:NT$ 386.0

建議一齊購買:

+

NT$ 545
《 实战机器学习 》
+

NT$ 466
《 手把手构建人工智能产品:产品经理的AI实操手册 》
+

NT$ 534
《 落地之路:硅谷无人驾驶产品心经 》
+

NT$ 632
《 Python机器学习算法与实战 》
+

NT$ 709
《 AI实战 全球50家知名企业人工智能应用实例 》
+

NT$ 474
《 KUKA(库卡)工业机器人编程与操作 》
編輯推薦:
本书包括新的强化学习工具和技术,介绍了强化学习的基础知识,以及如何动手编写智能体以执行一系列实际任务。 本书较上一版新增6章,专门介绍了强化学习的新发展,包括离散优化(解决魔方问题)、多智能体方法、Microsoft的TextWorld环境、高级探索技术等。学完本书,你将对这个新兴领域的前沿技术有深刻的理解。 此外,你将获得对深度Q-network、策略梯度方法、连续控制问题以及高度可扩展的非梯度方法等领域的可行洞见,还将学会如何构建一个经过强化学习训练、价格低廉的真实硬件机器人,并通过逐步代码优化在短短30分钟的训练后解决Pong环境问题。 简而言之,本书将帮助你探索强化学习中令人兴奋的复杂主题,让你通过实例获得经验和知识。
內容簡介:
本书理论与实践相结合,系统阐述强化学习的基础知识,以及如何动手编写智能体以执行一系列实际任务。通过阅读本书,读者将获得深层Q网络、策略梯度方法、连续控制问题以及高度可扩展的非梯度方法等主题领域的可行洞见,还将学会如何构建一个经过强化学习训练、价格低廉的真实硬件机器人,并通过一步步代码优化在短短30分钟的训练后解决Pong环境。此外,本书还专门介绍了强化学习的新发展,包括离散优化(解决魔方问题)、多智能体方法、Microsoft的TextWorld环境、高级探索技术等。
目錄
译者序前言作者简介审校者简介第1章 什么是强化学习11.1 机器学习分类21.1.1 监督学习21.1.2 非监督学习21.1.3 强化学习21.2 强化学习的复杂性41.3 强化学习的形式41.3.1 奖励51.3.2 智能体61.3.3 环境61.3.4 动作71.3.5 观察71.4 强化学习的理论基础91.4.1 马尔可夫决策过程91.4.2 策略171.5 总结18第2章 OpenAI Gym192.1 剖析智能体192.2 硬件和软件要求212.3 OpenAI Gym API232.3.1 动作空间232.3.2 观察空间232.3.3 环境252.3.4 创建环境262.3.5 车摆系统282.4 随机CartPole智能体302.5 Gym的额外功能:包装器和监控器302.5.1 包装器312.5.2 监控器332.6 总结35第3章 使用PyTorch进行深度学习363.1 张量363.1.1 创建张量373.1.2 零维张量393.1.3 张量操作393.1.4 GPU张量403.2 梯度413.3 NN构建块443.4 自定义层453.5 终黏合剂:损失函数和优化器473.5.1 损失函数483.5.2 优化器483.6 使用TensorBoard进行监控503.6.1 TensorBoard 101503.6.2 绘图523.7 示例:将GAN应用于Atari图像533.8 PyTorch Ignite573.9 总结61第4章 交叉熵方法624.1 RL方法的分类624.2 交叉熵方法的实践634.3 交叉熵方法在CartPole中的应用654.4 交叉熵方法在FrozenLake中的应用724.5 交叉熵方法的理论背景784.6 总结79第5章 表格学习和Bellman方程805.1 价值、状态和性805.2 Bellman方程825.3 动作的价值845.4 价值迭代法865.5 价值迭代实践875.6 Q-learning在FrozenLake中的应用925.7 总结94第6章 深度Q-network956.1 现实的价值迭代956.2 表格Q-learning966.3 深度Q-learning1006.3.1 与环境交互1026.3.2 SGD优化1026.3.3 步骤之间的相关性1036.3.4 马尔可夫性质1036.3.5 DQN训练的终形式1036.4 DQN应用于Pong游戏1046.4.1 包装器1056.4.2 DQN模型1096.4.3 训练1106.4.4 运行和性能1186.4.5 模型实战1206.5 可以尝试的事情1226.6 总结123第7章 高级强化学习库1247.1 为什么使用强化学习库1247.2 PTAN库1257.2.1 动作选择器1267.2.2 智能体1277.2.3 经验源1317.2.4 经验回放缓冲区1367.2.5 TargetNet类1377.2.6 Ignite帮助类1397.3 PTAN版本的CartPole解决方案1397.4 其他强化学习库1417.5 总结141第8章 DQN扩展1428.1 基础DQN1438.1.1 通用库1438.1.2 实现1478.1.3 结果1488.2 N步DQN1508.2.1 实现1528.2.2 结果1528.3 Double DQN1538.3.1 实现1548.3.2 结果1558.4 噪声网络1568.4.1 实现1578.4.2 结果1598.5 带优先级的回放缓冲区1608.5.1 实现1618.5.2 结果1648.6 Dueling DQN1658.6.1 实现1668.6.2 结果1678.7 Categorical DQN1688.7.1 实现1718.7.2 结果1758.8 组合所有方法1788.9 总结1808.10 参考文献180第9章 加速强化学习训练的方法1829.1 为什么速度很重要1829.2 基线1849.3 PyTorch中的计算图1869.4 多个环境1889.5 在不同进程中分别交互和训练1909.6 调整包装器1949.7 基准测试总结1989.8 硬核CuLE1999.9 总结1999.10 参考文献199第10章 使用强化学习进行股票交易20010.1 交易20010.2 数据20110.3 问题陈述和关键决策20210.4 交易环境20310.5 模型21010.6 训练代码21110.7 结果21110.7.1 前馈模型21210.7.2 卷积模型21710.8 可以尝试的事情21810.9 总结219第11章 策略梯度:一种替代方法22011.1 价值与策略22011.1.1 为什么需要策略22111.1.2 策略表示22111.1.3 策略梯度22211.2 REINFORCE方法22211.2.1 CartPole示例22311.2.2 结果22711.2.3 基于策略的方法与基于价值的方法22811.3 REINFORCE的问题22911.3.1 需要完整片段22911.3.2 高梯度方差22911.3.3 探索23011.3.4 样本相关性23011.4 用于CartPole的策略梯度方法23011.4.1 实现23111.4.2 结果23311.5 用于Pong的策略梯度方法23711.5.1 实现23811.5.2 结果23911.6 总结240第12章 actor-critic方法24112.1 减小方差24112.2 CartPole的方差24312.3 actor-crit
內容試閱
本书的主题是强化学习(Reinforcement Learning,RL),它是机器学习(Machine Learning,ML)的一个分支,强调如何解决在复杂环境中选择动作时产生的通用且极具挑战的问题。学习过程仅由奖励值和从环境中获得的观察驱动。该模型非常通用,能应用于多个真实场景,从玩游戏到优化复杂制造过程都能涵盖。由于它的灵活性和通用性,RL领域在快速发展的同时,吸引了很多人的关注。其中,既包括试图改进现有方法或创造新方法的研究人员,也包括专注于用有效的方式解决问题的从业人员。写本书的目的写本书的目的是填补RL理论系统和实际应用之间的巨大空白。目前全世界有很多研究活动,基本上每天都有新的相关论文发表,并且有很多深度学习的会议,例如神经信息处理系统(Neural Information Processing Systems,NeurIPS)大会和国际学习表征会议(International Conference on Learning Representations,ICLR)。同时,有好几个大型研究组织致力于将RL应用于机器人、医学、多智能体系统等领域。的相关研究资料虽然很容易获得,却都过于专业和抽象,难以理解。RL的实践落地则显得更为困难,因为将论文中由数学公式堆砌的大量抽象理论转换成解决实际问题的实现方式并不总是显而易见的。这使得一些对该领域感兴趣的人很难理解隐含在论文或学术会议背后的方法与思想。虽然针对RL的各个方面有很多非常棒的博客用生动的例子来解释,但博客的形式限制让作者们只能阐述一两种方法,而不是构建一个完整的全景图来将不同的方法联系起来。本书就是为了解决这个问题而写的。教学方法本书的另一个关注点是实际应用。每个方法针对非常简单到非常复杂的情况都进行了实现。我试图让例子简洁易懂,PyTorch的易读与强大使之成为可能。另外,例子的复杂度是针对RL业余爱好者而设计的,不需要大量的计算资源,比如图形处理器(GPU)集群或很强大的工作站。我相信,这将使充满乐趣和令人兴奋的RL领域不仅限于研究小组或大型人工智能公司,还可以让更广泛的受众涉足。但毕竟本书有关内容还是“深度”RL,因此强烈建议大家使用GPU。除了Atari游戏或连续控制问题等RL中一些经典的中等规模例子外,本书还有好几章(第10、14、15、16和18章)介绍大型项目,说明RL方法能应用到更复杂的环境和任务中。这些例子不是现实场景中的完整项目,但也足以说明,除了精心设计的基准测试外,RL能在更大的范围内应用。本书从结构上看分为四个部分,其中第1~4章为部分,第5~10章为第二部分,第11~16为第三部分,第17~25章为第四部分。关于本书前三个部分的例子,值得注意的另一件事是我试图使它们成为独立的,会完整地显示所有代码。有时这会导致代码片段的重复(例如,大多数方法中的训练迭代都很相似),但是我认为,让大家学到想学的函数比刻意避免一些重复更重要,你可以自行跳转到需要的代码。本书中的所有例子都能在GitHub上找到,网址为https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-Second-Edition。欢迎你来获取、实验并贡献代码。读者对象本书面向已经有机器学习基础而想对RL领域进行实践的读者。阅读本书前,读者应该熟悉Python并且有一定的深度学习和机器学习基础。具有统计学和概率论知识会大有帮助,但对于理解本书的大部分内容都不是必要的。本书内容第1章介绍了RL的思想和模型。第2章使用开源库Gym介绍了RL实践。第3章概述了PyTorch库。第4章用简单的RL方法对RL的方法和问题进行了初步介绍。第5章介绍了基于价值的RL方法。第6章描述了深度Q-network(DQN),是对基础的基于价值的方法的扩展,能解决复杂环境下的问题。第7章描述了PTAN库,它可以简化RL方法的实现。第8章详细介绍了DQN的扩展方法,以提升在复杂环境下的稳定性和收敛性。第9章概述了使RL代码加速执行的办法。第10章给出了个练习项目,重点是将DQN方法应用于股票交易。第11章介绍了另一类RL方法,即基于策略学习的方法。第12章描述了RL中使用非常广泛的方法之一。第13章用并行环境交互的方式扩展了actor-critic方法,从而提高了稳定性和收敛性。第14章给出了第二个项目,展示了如何将RL方法应用于自然语言处理问题。第15章介绍了RL方法在文字冒险游戏中的应用。第16章给出了另一个大项目,使用MiniWoB任务集将RL应用于Web导航。第17章介绍了连续动作空间的环境特性以及各种方法。第18章介绍了RL方法在机器人问题中的应用,描述了如何用RL方法来构建和训练小型机器人。第19章仍是有关连续动作空间的章节,描述了一组置信域方法在其中的应用。第20章展示了另一组不显式使用梯度的方法。第21章介绍了能更好地进行环境探索的方法。第22章介绍了RL的基于模型的方法,并使用了将想象力应用于RL的研究结果。第23章描述了AlphaGo Zero方法并将其应用于四子连横棋游戏中。第24章使用魔方作为环境,描述了RL方法在离散优化领域的应用。第25章介绍了一个相对较新的RL方法应用方向,即在多智能体情境下的应用。阅读指导本书的所有章节都采用同样的结构来描述RL方法:首先讨论方法的动机、理论基础以及背后的思想;然后,给出几个不同环境下的带完整源代码的例子。你可以通过不同的方式来阅读本书:1. 若要快速熟悉某些方法,可以只阅读相关章节的简介部分。2. 若要深入理解某个方法是如何实现的,可以阅读代码和相关注释。3. 若要深度熟悉某个方法(我认为是好的学习方式),可以尝试借助提供的代码重新实现该方法并使之有效。无论如何,我希望这本书对你有帮助!下载示例代码及彩色图片本书的示例代码及所有截图和样图,可以从http://www.packtpub.com通过个人账号下载,也可以访问华章图书官网http://www.hzbook.com,通过注册并登录个人账号下载。本书的代码也托管在GitHub上(https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-Second-Edition)。如果代码有更新,GitHub上的代码会同步更新。本书所有彩色版屏幕截图/图表的PDF文件也可以从https://static.packt-cdn.com/downloads/ 9781838826994_ColorImages.pdf下载。排版约定文中的代码体:表示出现在文中的代码、数据库表名、目录名、文件名、文件扩展名、路径、用户输入、Twitter句柄。代码块示例:命令行输入或输出示例:黑体:表示新的术语、重要的词或会在屏幕中显示的词(例如,菜单或对话框中的内容)。表示警告或重要的提示。表示提示和技巧。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.