新書推薦:

《
齐鲁世族与魏晋政治
》
售價:NT$
755

《
团队教练 : 释放团队的力量和潜能(修订版)
》
售價:NT$
347

《
汗青堂丛书165·中世纪城堡生活
》
售價:NT$
449

《
强者心法
》
售價:NT$
286

《
新兴产业发展报告(2024―2025)
》
售價:NT$
704

《
别让相爱败给相处
》
售價:NT$
239

《
解读日本:古往今来的文明流脉
》
售價:NT$
434

《
语言帝国:世界语言史
》
售價:NT$
602
|
| 內容簡介: |
前言
实体匹配(Entity Matching,又称为记录链接、对象共指或本体对齐)是数据集成、语义互操作和人工智能中几乎所有现代研究与应用的核心问题。其本质任务是判断来自不同数据源、模式或本体的两个实体描述是否指向同一个现实世界对象。尽管这一目标看似直观,却蕴含着高度复杂性。例如,在电子商务中,同一件商品可能由不同供应商以各自的专有编码、翻译后的品牌名称或特定地区的包装信息加以描述;在生物医学信息学中,一个疾病概念可能表现为电子病历中的 ICD 编码、统一医学语言系统(UMLS)中的本体类,或临床文本中的自由表述;在物联网(IoT)中,传感器系统生成的半结构化数据流,其设备标识、计量单位及上下文元数据也可能随时间而变化。在这些场景中,准确的实体匹配不仅有益,而且是必不可少的,因为它直接支撑着知识图谱集成、联合查询、电子病历聚合以及开放数据生态下的大规模分析等下游任务。
实体匹配的挑战主要源于现实数据中至少三类异构性。
(1)词汇异构:当语义等价的实体以拼写变体、缩写、同义词、音译或语境相关的表达方式出现时产生;
(2)结构异构:当信息组织方式存在差异时产生,例如,属性集不兼容、层次嵌套程度不同,或本体层级范围与抽象程度不一致;
(3)语义异构:最具挑战性,即属性或关系的含义在不同来源间发生偏移。例如,“价格” 在不同数据源中可能表示标价、折扣价,或包含税费与运费的最终价格。
此外,实体描述往往不完整、不一致,或包含噪声甚至过时信息;在动态或大规模环境下,实时应用更对延迟、准确率和可扩展性提出了额外要求。要解决这些多重挑战,需要提出鲁棒、自适应且可解释的方法。这类方法不仅要能够整合多维度的相似性证据(如表层字符串相似度、结构关联、语义嵌入及领域启发),还需具备在最少人工干预下推广到新领域的能力。本书正是基于这一需求而展开研究。
本书首次对遗传规划(Genetic Programming,GP)在实体匹配中的应用进行了端到端系统性研究,推动 GP 从一种通用优化工具演进为能够同时实现相似性特征(Similarity Feature,SF)的发现、选择、加权与聚合的领域专用框架。GP 的树型个体能够编码丰富的符号表达式,其中叶节点表示基础相似度度量,内部节点实现逻辑或算术运算,而高层子树则体现对齐规则与集成策略。通过交叉、变异和精英选择等进化算子,GP 框架能够自动探索极其庞大的设计空间,这在人为手工方式下几乎不可能完成。与传统流程(手工构造特征、调参与启发式拼接)相比,GP 方法具有三大优势:
(1)可解释性:生成的模型既具表现力又可读,能够明确揭示每个 SF 与算子的贡献,满足当前对透明性和可解释性的需求;
(2)多目标优化:种群搜索原生支持维护帕累托前沿,能够在精确率、召回率与计算成本之间平衡,而非压缩为单一脆弱的指标;
(3)领域鲁棒性:GP 的多样性机制使系统能够在稀疏的商品目录与复杂的生物医学本体间迁移,仅通过重组构件即可适配,而无须从零开始新的特征工程。
综上,这些特性使 GP 不再是 “又一个匹配器”,而是一个统一的进化框架,连接了低层相似度计算与高层决策制定,推动了可扩展、可解释且高性能的实体匹配前沿。
本书内容共分为 4 章,每章均围绕 GP 在实体匹配中的一个关键维度展开方法创新与实证研究:
(1)第 1 章主要讨论本体匹配中的遗传规划。第 1.2 节介绍了本体匹配的基本概念,并对相似性特征进行了分类,包括语法特征、语言特征、结构特征和基于实例的特征。第 1.3 节提出了一种多层混合遗传规划(MLHGP)方法,通过多层树表示联合优化特征构造、实体分类和对齐聚合。第 1.4 节介绍了多任务–多树 GP 模型,支持跨任务同时构建多样化的匹配模型。第 1.5 节阐述了结合代理辅助局部搜索的紧凑线性 GP,通过模型引导的探索提升效率和局部优化能力。第 1.6 节总结了遗传规划在本体匹配中的见解与未来方向。
(2)第 2 章聚焦于知识图谱对齐。第 2.2 节提出了一种自适应设计的 GP 框架,能够自动进化算子、选择准则与匹配逻辑以应对图对齐任务。第 2.3 节提出了两阶段相似特征构造框架,结合高层特征聚合与多目标优化。第 2.4 节重点探讨 GP 与大语言模型(LLMs)的融合,提出了一种显式与隐式实体集成的混合模型,其中 GP 用于进化符号规则并引导表示学习。
(3)第 3 章研究人工物联网(AIoT)中的传感器实体匹配。第 3.2 节提出了一种多表示协同进化 GP 框架,通过树型与线性 GP 模型的联合进化来捕捉传感器本体的异构性。第 3.3 节提出了一种轻量级 GP 方法,用于资源受限环境下的语义匹配,适合边缘计算场景。第 3.4 节介绍了一种多目标 GP 辅助深度强化学习框架,通过强化学习策略动态选择相似性特征,从而实现交通网络中的智能知识集成。
(4)第 4 章探讨生物医学知识集成。第 4.2 节提出了一种紧凑几何语义 GP,专为利用锚点划分和近似度量的大规模生物医学本体匹配而设计。第 4.3 节提出了一种自适应 GP 框架,用于基于符号表示进化和组合大语言模型组件。第 4.4 节介绍了双种群混合 GP,实现相似特征的自动聚合,从而在复杂多样的生物医学数据环境中提升鲁棒性。
本书适合机器学习、知识工程、进化计算和语义技术领域的研究生、科研人员与工程师阅读。读者应具备基本的微积分、概率论与算法思维基础,并对符号学习与数据集成感兴趣。本书所介绍的方法不仅提供了先进的实体匹配工具,也为构建可解释、自适应、领域特定的人工智能模型开辟了新途径。
本书的研究工作得到了国家自然科学基金(编号 62172095、62172457)和国家重点研发计划(编号 2022YFB4703405)的支持。
薛醒思 陈俊风 朱海
2025 年 8 月
|
| 目錄:
|
目录
第 1 章 基于遗传规划的本体匹配方法
1.1 引言
1.2 基于多层混合遗传规划的自适应相似特征构建
1.2.1 算法概述
1.2.2 多层个体表示
1.2.3 基于权重的相似特征选择
1.2.4 新的初始化方法
1.2.5 新的自适应变异算子
1.2.6 适应度评估
1.2.7 两阶段父代选择
1.2.8 基于紧凑遗传算法的数值常数优化
1.2.9 实验设计
1.2.10 结论与未来工作
1.3 基于多任务多树遗传规划的本体匹配方法
1.3.1 算法概述
1.3.2 一种新的多树表示方法
1.3.3 适应度函数
1.3.4 繁殖算子
1.3.5 基于概率二叉树的知识迁移
1.3.6 实验研究
1.3.7 结论与未来工作
1.4 面向高效本体匹配的带代理局部搜索的紧凑线性遗传规划
1.4.1 预备知识
1.4.2 新的紧凑多程序编码机制
1.4.3 实验结果与分析
1.4.4 结论与未来工作
1.5 总结
第 2 章 基于遗传规划的知识图谱匹配方法
2.1 引言
2.2 面向知识图谱匹配的自设计的遗传规划
2.2.1 自动化进化算法设计
2.2.2 新型自动化算法设计框架
2.2.3 自适应设计遗传规划
2.2.4 实验研究
2.2.5 结论与未来工作
2.3 基于双阶段相似特征构建的知识图谱匹配的
2.3.1 一种新的双阶段相似特征构建框架
2.3.2 多目标相似特征选择与组合
2.3.3 单目标相似特征构建
2.3.4 实验结果与分析
2.3.5 结论与未来工作
2.4 基于遗传规划的显式与隐式信息集成及自动大语言模型构建
2.4.1 面向显式与隐式消费电子信息集成的框架
2.4.2 基于混合遗传规划的映射规则构建
2.4.3 实验研究
2.4.4 结论与未来工作
2.5 总结
第 3 章 人工物联网中用于传感器实体匹配的遗传规划
3.1 引言
3.2 基于多种个体表示的协同进化遗传规划机器在传感器本体匹配中的应用
3.2.1 面向异构传感器集成的新型协同进化相似特征构建框架
3.2.2 基于树与线性遗传规划的相似特征构建
3.2.3 自适应协同进化算法
3.2.4 实验研究
3.2.5 结论与未来工作
3.3 基于轻量级遗传规划的语义传感器本体匹配方法
3.3.1 轻量级遗传规划
3.3.2 实验研究
3.3.3 结论与未来工作
3.4 深度强化学习辅助的多目标遗传规划及其在动态交通知识集成中的应用
3.4.1 面向相似特征选择的随机深度强化学习
3.4.2 面向相似特征构建的多目标遗传规划
3.4.3 实验研究
3.4.4 结论与未来工作
3.5 总结
第 4 章 用于生物医学知识集成的遗传规划
4.1 引言
4.2 基于紧凑几何语义遗传规划的生物医学本体匹配方法
4.2.1 基于锚点的生物医学本体划分方法
4.2.2 紧凑几何语义遗传规划
4.2.3 实验结果与分析
4.2.4 结论与未来工作
4.3 通过遗传规划来自适应构建大语言模型以匹配生物医学本体
4.3.1 大语言模型构建与组合框架
4.3.2 进化式大语言模型构建
4.3.3 实验研究
4.3.4 结论与未来工作
4.4 基于双种群混合遗传规划的自动相似特征聚合及其在生物医学本体匹配中的应用
4.4.1 基于双种群的混合遗传规划
4.4.2 实验研究
4.4.3 结论与未来工作
4.5 总结
参考文献
作者简介
|
|