《图强化学习--原理与实践入门》 - 386.0新台幣 - 谢文杰、周炜星 - HongKong Book Store

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新註冊 \|　新用戶登記

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / EMS，時效：出貨後2-3日

『簡體書』图强化学习--原理与实践入门

書城自編碼： 3971187
分類：簡體書→大陸圖書→計算機/網絡→圖形圖像/多媒體
作者：谢文杰、周炜星
國際書號(ISBN)： 9787302655992
出版社：清华大学出版社
出版日期： 2024-03-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 386

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《美国史：理想与现实（区域国别史丛书）》
售價：NT$ 1377.0

《裙子的宣言：重新定义二十世纪女性气质》
售價：NT$ 481.0

《敦煌壁画中的儿童生活》
售價：NT$ 475.0

《中国历史的智慧与细节：读史有智慧+观风》
售價：NT$ 1064.0

《病毒下层社会：疾病与不平等在美国的碰撞》
售價：NT$ 481.0

《日本学研究.第二辑》
售價：NT$ 518.0

《甲骨文丛书·波希米亚人：第三帝国柏林地下抵抗运动中的爱情与牺牲》
售價：NT$ 481.0

《小儿发热》
售價：NT$ 265.0

編輯推薦：

本书从算法原理出发，详细介绍了图强化学习的算法、原理和实践，与各领域实际问题相结合。

內容簡介：

图强化学习是深度强化学习的重要分支领域。本书作为该领域的入门教材，在内容上尽可能覆
盖图强化学习的基础知识，并提供应用实践案例。全书共 10章，大致分为三部分：第一部分（第 1～
3章）介绍图强化学习研究对象（复杂系统、图和复杂网络）；第二部分（第 4～7章）介绍图强化
学习基础知识（图嵌入、图神经网络和深度强化学习）；第三部分（第 8～10章）介绍图强化学习
模型框架和应用实践案例，并进行总结和展望。每章都附有习题并介绍了相关阅读材料，以便有兴
趣的读者进一步深入探索。
本书可作为高等院校计算机、图数据挖掘及相关专业的本科生或研究生教材，也可供对图强化
学习感兴趣的研究人员和工程技术人员阅读参考。

關於作者：

谢文杰，男，湖南浏阳人，应用数学博士，上海市晨光学者。现任职华东理工大学商学院金融学系副教授、硕士研究生导师、金融物理研究中心成员，主要研究复杂金融网络、机器学习、深度强化学习、金融风险管理等。获2016年度上海市自然科学奖二等奖（4/5），主持完成4项国家或省部级科研项目。
周炜星，男，浙江诸暨人。青年长江学者、上海领军人才、新世纪优秀人才、上海市曙光学者、上海市青年科技启明星。现任职于华东理工大学商学院、数学学院，二级教授，博士生导师，金融物理研究中心主任。现兼任中国优选法统筹法与经济数学研究会理事、风险管理分会副理事长，中国系统工程学会理事、金融系统工程专业委员会副主任，管理科学与工程学会理事、金融计量与风险管理分会副理事长，中国工业统计教学研究会金融科技与大数据技术分会副理事长，中国数量经济学会经济复杂性专业委员会副理事长，中国复杂性科学学会副理事长。主要从事金融物理学、经济物理学和社会经济系统复杂性研究，以及相关领域大数据分析。

第一部分图强化学习研究对象
第1章图与复杂系统 3
1.1 为什么是图 3
1.1.1 图的普遍性 3
1.1.2 图的表示性 4
1.1.3 图的抽象性 4
1.2 图与复杂系统 5
1.2.1 复杂系统定义 5
1.2.2 复杂系统的图表示 6
1.2.3 复杂系统问题与图 7
1.3 复杂系统与强化学习 7
1.3.1 强化学习 8
1.3.2 智能决策 8
1.3.3 基于强化学习的智能决策 9
1.4 复杂系统与智能决策 9
1.4.1 复杂金融系统风险管理问题 10
1.4.2 复杂社会系统舆情传播和虚假信息防控问题 12
1.5 应用实践 12
1.5.1 图数据集 13
1.5.2 图可视化和分析工具 13
第1章习题 14
第2章图论基础 15
2.1 图论的起源 15
2.1.1 提出问题 16
2.1.2 形式化问题 16
2.1.3 求解问题 16
2.2 图论的发展 17
2.2.1 随机图理论 17
2.2.2 拓扑图论 17
2.2.3 几何图论 18
2.2.4 代数图论 18
2.3 图论的概念 18
2.3.1 图定义 19
2.3.2 节点 19
2.3.3 连边 19
2.3.4 邻接矩阵 20
2.3.5 度 20
2.3.6 邻域 20
2.3.7 途径 21
2.3.8 最短路 22
2.3.9 带自环图 23
2.3.10 圈 23
2.3.11 子图 24
2.3.12 连通分量 24
2.3.13 最大连通子图 25
2.3.14 简单图 25
2.3.15 平面图 26
2.3.16 对偶图 26
2.3.17 树 28
2.4 经典图示例 29
2.4.1 完全图 29
2.4.2 二部图 30
2.4.3 彼得森图 31
2.4.4 星状图 31
2.4.5 网格图 32
2.4.6 正十二面体图 33
2.5 经典问题示例 33
2.5.1 图同构 33
2.5.2 TSP问题 34
2.5.3 最小点覆盖问题 35
2.5.4 最大割问题 35
2.5.5 最大独立集问题 35
2.6 可视图 35
2.6.1 可视图算法 36
2.6.2 水平可视图算法 36
2.6.3 水平可视图度分布 37
2.6.4 有向水平可视图度分布 39
2.7 应用实践 41
第2章习题 42
第3章图与复杂网络 44
3.1 复杂网络背景 44
3.1.1 复杂网络简介 44
3.1.2 复杂网络简史 45
3.1.3 复杂网络应用 45
3.1.4 复杂网络分析概述 46
3.1.5 网络表示 47
3.2 节点指标 48
3.2.1 节点的度 48
3.2.2 节点的强度 49
3.2.3 聚簇系数 49
3.2.4 接近中心性 50
3.2.5 介数中心性 50
3.2.6 特性向量中心性 50
3.2.7 PageRank中心性 51
3.2.8 权威值得分和枢纽值得分 51
3.2.9 k核中心性 52
3.3 网络连边指标 53
3.3.1 连边权重 53
3.3.2 显著性测度 53
3.3.3 边介数中心性 55
3.3.4 共同邻居数 55
3.3.5 网络关系Adamic/Adar量 56
3.3.6 网络关系Resource Allocation量 56
3.4 网络模体结构 56
3.4.1 模体的定义 56
3.4.2 无向网络的四元模体 56
3.4.3 有向网络的三元模体 57
3.4.4 有向网络三元模体与节点位置结构 58
3.5 网络模块结构 59
3.5.1 网络模块定义 60
3.5.2 模块内度 60
3.5.3 参与系数 61
3.5.4 模块外度 61
3.5.5 模块稳定性 61
3.6 网络全局结构 62
3.6.1 网络密度 62
3.6.2 网络同配性和异配性 63
3.6.3 网络稳健性 63
3.6.4 网络效率 64
3.7 复杂网络分类 65
3.7.1 异质网络 65
3.7.2 多层网络 66
3.7.3 多重网络 66
3.7.4 超图网络 66
3.7.5 动态网络 67
3.8 复杂网络任务 68
3.8.1 节点任务 68
3.8.2 网络连边任务 68
3.8.3 全局网络任务 69
3.9 复杂网络生成 69
3.9.1 随机网络模型 69
3.9.2 随机模块模型 70
3.9.3 优先连接模型 72
3.9.4 同质性偏好连接模型 73
3.9.5 异质性或互补性偏好连接模型 74
3.9.6 机器学习或智能算法类模型 74
3.10 网络建模实例 74
3.10.1 效用函数 75
3.10.2 成本函数 76
3.10.3 决策函数 77
3.11 应用实践 79
第3章习题 81
第二部分图强化学习基础知识
第4章图嵌入与网络嵌入 85
4.1 图的特征表示 85
4.1.1 多尺度图特征表示 85
4.1.2 如何表示复杂系统 86
4.1.3 如何表示复杂图或复杂网络 86
4.1.4 如何表示图节点 86
4.1.5 如何表示图连边 87
4.1.6 多层次的图特征表示方法 87
4.2 图与机器学习 88
4.2.1 机器学习简介 88
4.2.2 机器学习分类 88
4.3 机器学习框架 89
4.3.1 框架简介 89
4.3.2 目标函数 89
4.3.3 优化参数 90
4.4 自编码器框架 90
4.4.1 自编码器模型介绍 90
4.4.2 简单应用 91
4.5 机器学习模型 91
4.5.1 典型的数据类型 92
4.5.2 多层感知机网络 92
4.5.3 卷积神经网络 92
4.5.4 循环神经网络 94
4.6 图表示学习 94
4.6.1 图表示学习的一般框架 94
4.6.2 编码-解码框架 95
4.6.3 编码器 95
4.6.4 解码器 96
4.6.5 模型优化 97
4.7 基于矩阵分解的图嵌入 97
4.7.1 图分解方法 98
4.7.2 GraRep方法 98
4.7.3 HOPE方法 99
4.8 基于随机游走的图嵌入 99
4.8.1 DeepWalk算法 99
4.8.2 Node2Vec方法 102
4.9 可解释性图嵌入 104
4.9.1 问题背景介绍 105
4.9.2 天然气贸易决策模型 105
4.9.3 效用函数 106
4.9.4 收益函数 106
4.9.5 成本函数 106
4.9.6 机器学习模型损失函数 107
4.9.7 模型优化 108
4.10 应用实践 108
第4章习题 109
第5章图神经网络 110
5.1 图神经网络介绍 110
5.2 图神经网络特征 111
5.2.1 图数据特征 111
5.2.2 端到端学习特征 112
5.2.3 归纳学习特征 112
5.3 图神经网络框架 113
5.3.1 图神经网络框架简介 113
5.3.2 消息传递神经网络框架 113
5.3.3 邻域信息汇聚函数 114
5.3.4 信息更新函数 114
5.3.5 图信息池化函数 115
5.4 图卷积神经网络 115
5.4.1 谱图理论介绍 115
5.4.2 拉普拉斯矩阵定义 116
5.4.3 随机游走归一化拉普拉斯矩阵 116
5.4.4 对称归一化拉普拉斯矩阵 116
5.4.5 拉普拉斯矩阵简单应用 117
5.4.6 图信号处理 118
5.4.7 图傅里叶变换 118
5.4.8 图傅里叶逆变换 119
5.4.9 图滤波器 120
5.4.10 图谱滤波 121
5.4.11 K阶截断多项式滤波算子 123
5.4.12 切比雪夫多项式滤波算子 124
5.4.13 图卷积神经网络 125
5.5 图注意力神经网络 127
5.5.1 注意力机制简介 127
5.5.2 基于注意力机制的信息汇聚函数 127
5.5.3 多头注意力模型框架 129
5.6 图网络 129
5.6.1 更新连边信息 130
5.6.2 汇聚连边信息 130
5.6.3 更新节点信息 130
5.6.4 汇聚全局信息 130
5.7 应用实践 131
第5章习题 133
第6章强化学习基础 134
6.1 强化学习背景 134
6.1.1 强化学习与图神经网络 135
6.1.2 强化学习与序贯决策问题 135
6.1.3 强化学习求解序贯决策问题 135
6.1.4 强化学习特征 136
6.2 强化学习与图 136
6.2.1 图上决策问题 136
6.2.2 强化学习与图上决策问题 137
6.3 强化学习概念 138
6.3.1 马尔可夫决策过程 138
6.3.2 状态和状态空间 139
6.3.3 动作和动作空间 139
6.3.4 状态转移函数 140
6.3.5 即时回报函数 140
6.3.6 回报折扣系数 140
6.3.7 策略函数 141
6.3.8 状态值函数 141
6.3.9 状态--动作值函数 142
6.4 蒙特卡洛方法 142
6.4.1 蒙特卡洛采样 143
6.4.2 状态值函数估计 143
6.4.3 状态--动作值函数估计 143
6.4.4 值函数增量更新方法 144
6.4.5 蒙特卡洛强化学习伪代码 146
6.5 时序差分学习 147
6.5.1 时序差分简介 148
6.5.2 Q--learning算法简介 149
6.5.3 Q--learning算法伪代码 150
6.5.4 SARSA算法简介 151
6.5.5 SARSA算法伪代码 151
6.5.6 SARSA与Q--learning对比分析 152
6.6 策略梯度方法 153
6.6.1 轨迹概率 153
6.6.2 策略梯度 154
6.6.3 目标函数 154
6.6.4 蒙特卡洛策略梯度算法 155
6.6.5 REINFORCE算法伪代码 156
6.7 强化学习分类 156
6.7.1 值函数方法和策略函数方法 157
6.7.2 On-policy 和 Off-policy强化学习 157
6.7.3 Online 和 Offline强化学习 157
6.7.4 Model-based 和 Model-free强化学习 157
6.8 应用实践 158
6.8.1 状态空间 158
6.8.2 动作空间 159
6.8.3 状态转换 159
6.8.4 即时奖励 159
6.8.5 折扣系数 160
6.8.6 状态价值函数 160
6.8.7 最优策略函数 161
第6章习题 161
第7章深度强化学习 163
7.1 深度强化学习背景 163
7.1.1 深度学习 163
7.1.2 深度强化学习 164
7.2 深度Q网络方法 165
7.2.1 Q表格 165
7.2.2 轨迹采样 165
7.2.3 深度神经网络近似策略函数 166
7.2.4 TD目标 167
7.2.5 TD误差 167
7.2.6 目标函数 167
7.2.7 目标函数梯度 168
7.2.8 深度神经网络参数更新 168
7.2.9 最优策略 169
7.3 深度Q网络算法关键技术 169
7.3.1 -贪心策略 169
7.3.2 目标网络 170
7.3.3 经验回放 170
7.3.4 DQN算法伪代码 170
7.4 深度Q网络算法面临的挑战 171
7.4.1 离策略 172
7.4.2 自举 172
7.4.3 函数近似 172
7.5 深度策略梯度方法 172
7.5.1 深度Q神经网络算法的局限 172
7.5.2 深度策略梯度算法简介 173
7.6 深度策略梯度算法关键技术 174
7.6.1 策略梯度估计 174
7.6.2 策略函数参数更新 175
7.6.3 优势函数估计 175
7.6.4 状态值函数估计 176
7.6.5 深度策略梯度算法伪代码 177
7.7 行动者--评论家方法 178
7.7.1 AC（Actor--Critic）算法简介 178
7.7.2 A2C算法简介 178
7.7.3 A2C算法伪代码 179
7.8 应用与实践的通用框架 180
7.8.1 马尔可夫决策过程模型 180
7.8.2 状态空间 181
7.8.3 动作空间 181
7.8.4 状态转移函数 181
7.8.5 即时奖励函数 181
7.8.6 折扣系数 182
7.9 基于策略梯度算法的应用与实践 182
7.9.1 复杂环境模型 182
7.9.2 深度学习模型 182
7.9.3 深度强化学习算法 183
7.9.4 智能体模型 185
7.9.5 深度强化学习模型训练结果 186
7.10 基于深度Q网络算法的应用与实践 187
7.10.1 游戏环境状态空间 187
7.10.2 智能体动作空间 188
7.10.3 游戏即时奖励 188
7.10.4 游戏状态转移模型 189
7.10.5 游戏环境模型 189
7.10.6 游戏策略模型 189
7.10.7 深度强化学习算法 189
7.10.8 模型训练分析 190
7.10.9 模型结果分析 191
7.10.10 模型改进分析 192
第7章习题 194
第三部分图强化学习模型框架和应用实践
第8章图强化学习基础 197
8.1 图强化学习背景 197
8.1.1 多学科交叉融合 197
8.1.2 多学科关联关系图 198
8.1.3 图与网络的基础理论和方法 199
8.1.4 图与机器学习的基础理论和方法 199
8.1.5 图神经网络的基础理论和方法 199
8.1.6 深度强化学习的基础理论和方法 199
8.2 图神经网络和强化学习 200
8.2.1 图神经网络和强化学习的融合 200
8.2.2 图强化学习和强化学习的区别 201
8.2.3 图神经网络提升强化学习性能 201
8.2.4 强化学习提升图神经网络性能 202
8.3 图强化学习模型概要 202
8.3.1 复杂系统 203
8.3.2 环境模型 203
8.3.3 图和网络 203
8.3.4 深度神经网络 203
8.3.5 深度强化学习 204
8.3.6 优化算法 204
8.3.7 图强化学习框架概要 205
8.4 图强化学习框架硬件层 206
8.4.1 中央处理器 206
8.4.2 图形处理器 206
8.4.3 张量处理器 206
8.4.4 其他处理器 207
8.5 图强化学习框架平台层 207
8.5.1 深度学习平台简介 207
8.5.2 深度学习平台：TensorFlow 207
8.5.3 深度学习平台：PyTorch 208
8.5.4 深度学习其他平台 208
8.6 图强化学习框架算法层 208
8.6.1 深度强化学习框架简介 209
8.6.2 深度强化学习框架：Stable--baselines 209
8.6.3 深度强化学习框架：Reinforcement Learning Coach 210
8.6.4 深度图神经网络框架简介 210
8.6.5 深度图神经网络框架：PyTorch Geometric 210
8.6.6 深度图神经网络框架：Deep Graph Library 211
8.7 图强化学习框架应用层 211
8.8 图强化学习建模 211
8.8.1 图强化学习与马尔可夫决策过程 211
8.8.2 图强化学习建模流程 212
8.8.3 问题提出 212
8.8.4 环境建模 213
8.8.5 智能体建模 213
8.8.6 模型训练 214
8.8.7 模型测试 214
8.9 应用实践 214
8.9.1 深度强化学习模块 214
8.9.2 图神经网络模块 215
8.9.3 其他图神经网络模块 217
第8章习题 218
第9章图强化学习应用 219
9.1 图强化学习模型框架 219
9.2 图强化学习模块概述 220
9.2.1 复杂环境模块 221
9.2.2 图神经网络模块 221
9.2.3 强化学习模块 221
9.2.4 智能体模块 221
9.2.5 工具类模块 222
9.2.6 其他模块 222
9.3 复杂环境模块 222
9.3.1 环境模块定义 222
9.3.2 环境模块定义代码 222
9.3.3 基于图的环境模块定义 224
9.3.4 基于图的环境模块重置定义 224
9.3.5 基于图的环境状态转移定义 224
9.4 图神经网络模块 225
9.4.1 图神经网络模型选择 225
9.4.2 图神经网络模块代码示例 225
9.4.3 图神经网络模块代码解析 226
9.5 强化学习模块 227
9.5.1 强化学习算法选择 227
9.5.2 强化学习算法示例代码 227
9.5.3 强化学习算法示例代码解析 228
9.6 智能体模块 229
9.6.1 智能体模块示例代码 229
9.6.2 智能体模块示例代码解析 230
9.6.3 模型训练结果 231
9.7 工具类模块 232
9.8 图强化学习模型改进 232
9.8.1 模型改进目标 233
9.8.2 模型改进方向 233
9.8.3 图神经网络模型改进代码示例 234
9.8.4 图神经网络模块代码解析 234
9.8.5 强化学习算法改进 234
第9章习题 235
第10章图强化学习展望 237
10.1 图强化学习概括 237
10.1.1 方法的起源 237
10.1.2 方法的发展 238
10.1.3 层次关系 238
10.2 图强化学习特色 238
10.2.1 学科交叉性 239
10.2.2 系统复杂性 239
10.2.3 框架普适性 239
10.3 图数据分析方法 239
10.3.1 数值分析方法 240
10.3.2 仿真模拟方法 240
10.3.3 优化方法 241
10.3.4 数据驱动方法 241
10.3.5 图强化学习方法 241
10.4 图强化学习应用 242
10.4.1 网络关键节点识别 242
10.4.2 网络关键连边识别 242
10.4.3 知识图谱 243
10.4.4 组合优化 243
10.5 图神经网络展望 243
10.5.1 人工智能的新引擎 243
10.5.2 图神经网络进展 244
10.5.3 图神经网络的可解释性 244
10.6 深度强化学习展望 245
10.6.1 自动强化学习 246
10.6.2 分层强化学习 246
10.6.3 多智能体强化学习 246
10.7 图强化学习前沿领域 247
10.7.1 图上的组合优化 247
10.7.2 图理论应用的前沿 247
10.7.3 交叉研究的前沿 248
10.8 人工智能三大学派融合 248
10.8.1 人工智能的三大学派 248
10.8.2 图强化学习融合三大学派 249
第10章习题 250

內容試閱：

在现实世界和虚拟世界中，图无处不在，网络也无处不在。例如，人类社会关系图、蛋白质作用关系图和化学分子图等。在微观尺度、介观尺度和宏观尺度上，图和网络都直接影响着人类的生活、工作和学习，如与人类息息相关的社会网络、交通网络、贸易网络和信息网络等。人体包括生物神经网络和血液循环网络等，这些网络是人类身体的直接组成部分。因此，人类既是图或网络的集合体，也是其他网络或系统的组成部分。从复杂系统角度看，人类本身就是一个极其复杂的系统，或者是复杂系统的系统。同时，人类处在复杂系统之中，或处在系统的系统之中。换而言之，人类处在网络之中，或处在网络的网络之中。
图或网络作为复杂系统的有效表示，也是复杂系统的常用分析工具和研究方法。图数据和图方法可以度量、预警、预测和控制复杂系统的脆弱性和稳健性。新冠疫情和局部战争等不确定事件的频频发生，使人们的日常生活、学习和工作都受到了不同程度的冲击。在信息社会中，网络化和系统化为人类提供了基础的生存设施和便利的生活环境，也使人类社会系统处在各种事件冲击之中和灾难爆发的边缘。在复杂系统中，一些微小的扰动可以通过网络进行扩散和放大，加剧系统脆弱性以及突发事件的危害和不确定性，正如人们所熟知的“蝴蝶效应”和“黑天鹅”事件等。
2013年，深度强化学习算法初露锋芒，在Atari游戏中取得了惊人的成果，到2015年，深度强化学习智能体达到了人类的游戏控制水平。深度强化学习算法从原始图像的像素信息中学习游戏控制的智能策略，其游戏控制水平在一些视频游戏中超过了人类玩家。深度强化学习算法在智力游戏领域展现了强大的决策能力和学习能力。2016年，Google公司DeepMind团队的研究人员在顶级期刊Nature推出AlphaGo，该智能程序战胜了围棋世界冠军，震撼了全世界。2022年，人工智能公司OpenAI通过自然语言处理工具和深度强化学习算法，学习和理解人类语言，研发的聊天机器人程序ChatGPT（Chat Generative Pre-trained Transformer）震惊了世界。ChatGPT能像人类一样聊天交流、撰写邮件、翻译语言、编写代码、撰写论文等。人类为了处理所面对的诸多复杂系统问题，寄希望于深度强化学习，并设计出强大的决策智能体，辅助人类完成复杂智能决策，适应多变、动态且随机的复杂环境。
近年来，人工智能技术和算法的蓬勃发展极大拓展了智能算法的应用范围。人们能够更加便捷地分析和研究图数据和网络数据，特别是机器学习算法能有效地挖掘图数据和网络数据的结构信息和语义信息。图嵌入、网络嵌入、图机器学习和图深度学习等机器学习算法为复杂图和复杂网络相关的问题和智能决策任务提供了强大的技术支持。图神经网络算法融合诸多图机器学习和图深度学习技术，是分析图数据和网络数据的高效且通用框架，是提取图结构信息和图语义信息的有效工具，是探索复杂智能决策的重要工具和方法。图神经网络模型针对图数据专门设计了很多操作算子，处理和分析不同类型的图数据和网络动力学过程，为度量、预警、预测和控制复杂系统结构特征和演化特征提供新思路和新方法。图强化学习融合图神经网络模型和深度强化学习模型，拓展图或网络相关复杂问题的求解思路和分析方法，具有较大的发展前景和应用价值。
本书内容安排
图强化学习涵盖了很多人工智能、机器学习和深度学习相关理论、方法和技术。本书用三大部分简要介绍图强化学习相关的理论、方法和应用。
第一部分：图强化学习研究对象
复杂系统、图和网络是图强化学习的主要研究对象。复杂系统是复杂决策问题的背景和来源。图强化学习主要解决复杂系统中图相关的决策问题。一般而言，复杂问题背后都有一个复杂系统。复杂系统相关的理论和方法对图强化学习方法具有引导和启示作用。
复杂图和复杂网络方法是表示和研究复杂系统的常用方法。图论作为古老的数学学科，一直以来都是专业人员的研究领域，科学家们积累了大量的图理论和方法。图论相关的理论和方法为复杂社会系统、复杂物理系统和复杂生物系统的研究提供了思想源泉。
近年来，复杂网络方法飞速发展，在不同学科和领域取得了耀眼的成绩。在一些复杂问题和复杂系统中，复杂网络分析占据重要地位，是大数据时代中多源异构数据分析的有效方法，是各个领域专家学者审视各自领域内问题的新工具和新视角。在现实世界中，图相关和网络相关的问题很多，如网络关键节点识别、网络免疫、传染病防控等，都能用图或网络方法高效地求解。
第二部分：图强化学习的基础知识
图机器学习和强化学习方法是图强化学习的基础方法。我们介绍图嵌入、图神经网络、强化学习和深度强化学习方法。图强化学习方法并非一个全新的研究范式和研究方法，是深度强化学习方法在图数据或图问题中的拓展应用。图强化学习融合图神经网络模型和深度强化学习模型，在复杂智能决策任务中表现出了巨大潜力。
图神经网络方法是图嵌入和网络嵌入方法的拓展，深度强化学习方法是强化学习的拓展。图神经网络模型和深度强化学习模型作为机器学习领域两大热门研究领域，是人工智能和机器学习的前沿技术，具有较大的发展潜力。深刻理解和掌握图神经网络和深度强化学习方法，是入门图强化学习方法的基础。
一般而言，图嵌入和网络嵌入是浅层学习，是理解图神经网络模型的基础。图神经网络模型具有可扩展性和普适性，是图数据和网络数据分析最具潜力的研究方向。图嵌入和网络嵌入是图机器学习的研究内容，将学习机制引入图上的搜索问题或其他问题。相较于经典的图理论和复杂网络分析方法，图机器学习算法更适用于大规模图数据和复杂图或复杂网络决策问题。
在图强化学习中，图神经网络模型作为特征提取和表示学习的主要模块，是智能决策优劣的关键。图神经网络模型具有大量的参数，强化学习算法的主要任务是更新和学习模型参数。如何有效地融合两者的优势，解决复杂图或复杂网络相关决策问题，是图强化学习的核心内容。
第三部分：图强化学习模型框架和应用实践案例
图强化学习方法融合图神经网络模型和深度强化学习模型。第三部分包括图强化学习模型构建框架和实现细节。图和网络作为图强化学习的研究对象，是图强化学习的基础。一些图相关的组合优化问题因为“组合爆炸”，属于NP难问题。因此，如何找到有效的解决办法具有重要的研究价值和实用价值。
我们将图或网络数据分析看作5个层层进阶的过程，依次为图理论方法、复杂网络分析方法、图嵌入和网络嵌入方法、图神经网络方法、图强化学习方法。在图数据或网络数据相关的决策问题上，图强化学习融合图神经网络模型的表示学习能力和深度强化学习的决策优化能力，具有非常大的研究价值和应用潜力。
本书适合人群
* 高年级本科生
* 专业硕士研究生
* 机器学习爱好者
* 强化学习爱好者
关于作者
谢文杰，男，湖南浏阳人，应用数学博士，上海市晨光学者。现任华东理工大学商学院金融学系副教授、硕士研究生导师、金融物理研究中心成员，主要研究复杂金融网络、图强化学习、深度强化学习、系统风险管理，发表SCI/SSCI收录论文40多篇，被引800余次。2016年获上海市自然科学奖二等奖（4/5），主持完成4项国家或省部级科研项目。
周炜星，男，浙江诸暨人。青年长江学者、上海领军人才、新世纪优秀人才、上海市曙光学者、上海市青年科技启明星。现任职华东理工大学商学院、数学学院，二级教授，博士生导师，金融物理研究中心主任，兼任中国管理科学与工程学会理事、金融计量与风险管理分会副理事长，中国系统工程学会理事、金融系统工程专业委员会副主任，中国工业统计教学研究会金融科技大数据分会副理事长，中国数量经济学会经济复杂性专业委员会副理事长，中国“双法”研究会理事、能源经济与管理研究分会常务理事，中国复杂性科学学会副理事长。担任《计量经济学报》、Journal of International Financial Markets， Institutions & Money（JIFMIM）、Financial Innovation、Fractals、Frontiers in Physics、 Fluctuation and Noise Letters、Entropy、Journal of Network Theory in Finance、Reports in Advances of Physical Sciences等国内外期刊的编委。主要从事金融物理学、经济物理学和社会经济系统复杂性研究，以及相关领域的大数据分析。先后主持包括4项国家自然科学基金在内的10余项国家级和省部级项目。出版学术专著《金融物理学导论》1部，发表SCI/SSCI收录论文210多篇，他引7000余次，11篇论文入选ESI高被引论文，H指数47，连续8年进入爱思唯尔发布的中国高被引学者（数学）榜单。论文主要发表在JIFMIM、JEBO和QF等主流金融经济期刊及PNAS、Rep. Prog. Phys.等重要交叉学科期刊上。获2016年度上海市自然科学二等奖（1/5）。
致谢
本书模板来源于ElegantBook，感谢制作者的辛苦付出！感谢Open AI Baselines社区，感谢Stable-Baselines社区，感谢NetworkX社区，感谢PyTorch-Geometric社区。感谢清华大学出版社编辑申美莹老师和相关工作人员。
本书的参考资料和参考文献可扫描下方二维码获取。

谢文杰周炜星
2023.09

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.