登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2025年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2026年01月出版新書

2025年12月出版新書

2025年11月出版新書

2025年10月出版新書

2025年09月出版新書

2025年08月出版新書

2025年07月出版新書

2025年06月出版新書

2025年05月出版新書

2025年04月出版新書

2025年03月出版新書

2025年02月出版新書

2025年01月出版新書

2024年12月出版新書

『簡體書』异策略安全约束强化学习

書城自編碼: 4138732
分類: 簡體書→大陸圖書→工業技術武器工业
作者: 杨奇松,常燕,武健,李邦杰,王顺宏,赵久奋 著,
國際書號(ISBN): 9787118137071
出版社: 国防工业出版社
出版日期: 2025-07-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 449

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
武王墩:亲历2020—2024楚王墓发掘
《 武王墩:亲历2020—2024楚王墓发掘 》

售價:NT$ 449
异化
《 异化 》

售價:NT$ 439
你的脆弱很正常
《 你的脆弱很正常 》

售價:NT$ 275
鸟墙——康奈尔鸟类学实验室巨幅壁画诞生记
《 鸟墙——康奈尔鸟类学实验室巨幅壁画诞生记 》

售價:NT$ 908
政治人--政治的社会基础(东方编译所译丛)
《 政治人--政治的社会基础(东方编译所译丛) 》

售價:NT$ 602
大国崛起战略论:地理与世界霸权+海权论+陆权论+空权论+战争论(全译足本无任何删节-同人阁)
《 大国崛起战略论:地理与世界霸权+海权论+陆权论+空权论+战争论(全译足本无任何删节-同人阁) 》

售價:NT$ 1310
故宫藏影—西洋镜里的宫廷人物
《 故宫藏影—西洋镜里的宫廷人物 》

售價:NT$ 1836
伊利亚特 : 希腊语、汉语对照
《 伊利亚特 : 希腊语、汉语对照 》

售價:NT$ 959

建議一齊購買:

+

NT$ 449
《帆式船舶自主航行制导与控制 》
+

NT$ 857
《新概念武器材料 武器装备材料系列教材》
+

NT$ 1673
《超材料概论(第2版)》
+

NT$ 347
《经典坦克与装甲车鉴赏指南(精华版)》
+

NT$ 653
《军事与安全领域的颠覆性技术》
+

NT$ 388
《装备维修保障仿真实验理论与方法》
內容簡介:
本书聚焦强化学习应用安全性,深入探讨强化学习框架内安全风险控制与训练安全。介绍 Worst - Case Soft Actor Critic(WCSAC)算法,分析累积安全成本分布、引入条件风险值平衡奖励与安全;讲解估计安全成本分布的高斯近似法和分位数回归法及其实验效果;阐述 Constrained Entropy Maximization(CEM)算法,学习安全前提下均匀访问状态的探索策略;介绍 Safe Guide(SaGui)框架,通过正则化快速迁移安全策略、促进目标任务学习。研究为强化学习现实应用提供新视角方法,适合强化学习、人工智能安全等领域研究人员、工程师及高校师生,对关注复杂环境安全决策与优化者有参考价值 。
目錄
目录第一部分 绪 论第 1 章 引言
1.1 安全定义及算法
1.1.1 安全约束强化学习
1.1.2 安全强化学习分类
1.1.3 测试基准环境
1.2 安全风险规避
1.3 训练安全保证
1.4 关键问题
1.5 全书概览
1.6 参考文献
第 2 章 背景
2.1 约束马尔可夫决策过程
2.2 约束最大熵强化学习
2.3 值分布强化学习
2.4 无模型状态熵估计
2.5 参考文献
第二部分 安全风险规避第 3 章 安全强化学习
3.1 引言
3.2 风险规避问题定义
3.3 WCSAC 强化学习算法
3.3.1 值分布安全评估
3.3.2 策略更新
3.3.3 完整算法
3.4 实证分析
3.5 结论
3.6 参考文献
第 4 章 安全风险控制
4.1 引言
4.2 分位数回归安全成本分布
4.2.1 基于 IQN 的安全评估
4.2.2 基于样本均值的 CVaR 安全度量
4.2.3 完整算法
4.3 实证分析
4.3.1 SpyGame 环境
4.3.2 Safety Gym 环境
4.4 相关工作
4.5 结论
4.6 参考文献
第三部分 训练安全保证第 5 章 安全迁移强化学习
5.1 引言
5.2 源任务先验获取
5.2.1 迁移问题设置
5.2.2 迁移度量
5.2.3 方法概览
5.3 引导式安全探索
5.3.1 训练安全向导
5.3.2 安全向导中的策略提炼
5.3.3 复合采样
5.4 实证分析
5.4.1 超参数
5.4.2 消融试验
5.4.3 基线算法对比试验
5.5 相关工作
5.6 结论
5.7 参考文献
第 6 章 安全无监督探索
6.1 引言
6.2 任务不可知安全探索
6.3 约束熵最大化方法
6.3.1 传统方法可行性分析
6.3.2 约束熵最大化的对偶性
6.3.3 CEM 算法
6.3.4 收敛保证
6.4 实证分析
6.4.1 安全探索能力评估
6.4.2 参数敏感性
6.4.3 安全迁移学习的评估
6.5 相关工作
6.6 结论
6.7 参考文献
第四部分 结 语第 7 章 结论
7.1 关键结论
7.2 局限和未来工作
7.3 其他应用难题
7.4 参考文献

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2026 (香港)大書城有限公司 All Rights Reserved.