登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2025年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2026年04月出版新書

2026年03月出版新書

2026年02月出版新書

2026年01月出版新書

2025年12月出版新書

2025年11月出版新書

2025年10月出版新書

2025年09月出版新書

2025年08月出版新書

2025年07月出版新書

2025年06月出版新書

2025年05月出版新書

2025年04月出版新書

2025年03月出版新書

『簡體書』大模型数据:原理、技术与实战

書城自編碼: 4216909
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: 何聪辉
國際書號(ISBN): 9787121523748
出版社: 电子工业出版社
出版日期: 2026-04-01

頁數/字數: /
書度/開本: 16开

售價:NT$ 419

我要買


** 我創建的書架 **
未登入.



新書推薦:
中国城市复兴
《 中国城市复兴 》

售價:NT$ 653
踏入她们的河流
《 踏入她们的河流 》

售價:NT$ 449
七十二物候:顺时生活
《 七十二物候:顺时生活 》

售價:NT$ 398
大模型与提示词:构建AI时代高效工作流
《 大模型与提示词:构建AI时代高效工作流 》

售價:NT$ 407
绿镜头——非洲
《 绿镜头——非洲 》

售價:NT$ 449
为自己工作 我们的gap期生存游戏(一本“不务正业”的普通人访谈录,记录他们跳下轨道奔向旷野的冒险故
《 为自己工作 我们的gap期生存游戏(一本“不务正业”的普通人访谈录,记录他们跳下轨道奔向旷野的冒险故 》

售價:NT$ 316
爱的修复:伴侣咨询中的冲突、理解与接纳
《 爱的修复:伴侣咨询中的冲突、理解与接纳 》

售價:NT$ 356
新金融战:数字货币与大国博弈
《 新金融战:数字货币与大国博弈 》

售價:NT$ 449

編輯推薦:
√大模型时代,模型是门槛,数据才是壁垒
√从Model-Centric到Data-Centric,人工智能的下一阶段已经到来
√把数据,变成大模型能力
√打通从原始数据到模型能力提升的完整路径
√来自MinerU、OpenDataLab等真实数据团队的实践沉淀
√被头部企业验证的数据工程方法
內容簡介:
本书系统构建了大模型数据科学的理论框架与工程实践体系,在编写时特别注重技术深度与落地应用的结合。本书主体详细介绍了大模型数据的全生命周期管理,涵盖数据采集与获取、精细化清洗与结构化解析、专业标注体系等基础工程;重点深入剖析了数据合成与增强(包括通用、代码、全模态合成)、多维度数据质量评估等核心技术;并探讨了数据合规监管、版权保护及安全隐私等前沿议题。另外,书中包含了一个基于 PDF 数据的垂类模型微调实战案例,帮助读者打通从数据处理到模型应用的完整链路。
關於作者:
何聪辉 清华大学博士,上海人工智能实验室青年科学家、大模型数据负责人,商汤科技高级研究总监,入选第五届上海科技青年35人引领计划。深耕高性能计算与AI数据基础设施的交叉领域,致力于构建面向通用人工智能的数据基座。在计算机科学会议上发表论文200余篇,谷歌学术引用超1万次。曾获戈登?贝尔奖、ACL 2025最佳主题论文奖等多项荣誉。主导研发的智能文档解析引擎MinerU,发布一年获GitHub 5万星标,调用量超10亿次,被华为、阿里、腾讯等百家企业采用。建立的评测基准OmniDocBench被Google Gemini和OpenAI GPT官方采纳。构建大模型开放数据平台OpenDataLab,其生态服务全球超30万名开发者。


吴郦军 上海人工智能实验室青年科学家,上海交通大学、复旦大学、北京中关村学院博士生导师,入选上海市高层级青年人才计划。深耕大模型、数据智能与AI for Science前沿研究,在Nature子刊及计算机领域国际会议发表论文90余篇。曾担任ICML、NeurIPS、ICLR、ACL等国际会议领域主席,并任NeurIPS 2026 E&D Track Chair。曾获微软亚洲研究院“微软学者奖学金”,并作为核心成员斩获WMT 2019全球机器翻译大赛8项冠军,以及ACL 2024 Language+Molecule双赛道冠亚军。开发的模型与数据集累计下载量超过40万次,提出的算法被广泛应用于微软、腾讯、百度、美团等企业的业务场景。参与研发文档智能解析引擎MinerU、多模态大模型InternVL、多模态科学大模型Intern-S。发起构建OpenDataArena平台,为大模型时代的数据价值评估提供了关键技术支撑,持续推动前沿技术向产业应用转化。


张文涛 北京大学研究员、博士生导师,上海人工智能实验室研究顾问,北京大学未名青年学者,图灵班科研导师,智源学者。曾任职于腾讯机器学习平台部、Apple AIML和加拿大Mila人工智能实验室。研究兴趣为以数据为中心的人工智能、机器学习系统和AI for Science。 主持国家自然科学基金重大研究计划项目、科技部重点研发计划项目(课题)、教育部学科突破先导项目(Co-PI)。近5年,以第一作者或通讯作者的身份,在机器学习(ICML、NeurIPS、ICLR)、数据挖掘(SIGKDD、WWW)和数据管理(SIGMOD、VLDB、ICDE)等领域发表 CCF-A 类论文100余篇。截至2025年12月,谷歌学术引用超1万次。荣获WWW 2022、APWeb 2023、CIKM 2024最佳论文奖。领导或参与开源了多个机器学习系统。曾获Apple Scholar、世界人工智能大会云帆奖、ACM SIGMOD中国新星奖、世界互联网大会领先科技成果奖、华为火花奖、中国电子学会科技进步一等奖等荣誉。
目錄
第1章 大模型数据概览
1.1 数据驱动的大模型演进简史
1.1.1 大模型进化路线
1.1.2 数据的重要性变迁
1.2 大模型数据的生命周期
1.2.1 生命周期总览
1.2.2 生命周期的三大阶段
1.3 大模型数据的四大关键维度
1.3.1 知识广度
1.3.2 智能精度
1.3.3 泛化能力
1.3.4 新知洞察
1.4 大模型数据生态系统简述
1.4.1 开源数据集生态
1.4.2 工具与平台链路
1.4.3 数据治理与伦理边界
第2章 大模型训练所需数据来源
2.1 典型的数据来源
2.1.1 大模型训练所需核心数据的类型
2.1.2 网络爬取与社交媒体收集
2.1.3 数据共享平台与协作机制
2.1.4 数据来源挑战与演变
2.2 典型的公开数据集
2.2.1 预训练数据集:通用知识构建
2.2.2 微调数据集:任务与领域适配
2.2.3 对齐强化数据集:对齐与价值塑造
2.3 数据获取方式
2.3.1 公共渠道采集
2.3.2 众包采集
2.3.3 智能体式采集
2.3.4 模型与仿真生成
第3章 数据标注与清洗
3.1 从原始数据到高质量语料
3.2 数据清洗:剔除噪声与冗余
3.2.1 数据过滤
3.2.2 数据去重
3.3 数据解析:从原始信息中恢复结构与语义
3.3.1 结构化、半结构化与非结构化数据解析
3.3.2 代表性OCR工具
3.4 数据标注:从任务建模到质量保障
3.4.1 数据标注方式与策略体系
3.4.2 数据标注任务分类与体系
3.4.3 数据标注质量保障机制
3.5 小试牛刀
3.5.1 数据解析
3.5.2 数据清洗
3.5.3 数据重写与增强
第4章 数据合成与增强
4.1 数据合成与增强的整体框架
4.2 数据合成方法
4.2.1 数据合成方法概述
4.2.2 领域数据合成
4.2.3 多模态数据合成
4.2.4 全模态数据合成
4.2.5 代表性数据合成工具
4.3 数据增强技术
4.3.1 传统数据增强方法
4.3.2 大模型时代的数据增强
4.4 数据合成与增强的挑战和风险
4.4.1 数据偏见与幻觉
4.4.2 模型坍缩
4.4.3 数据隐私与安全

第5章 数据质量评估
5.1 数据质量评估体系
5.1.1 大模型时代数据质量评估的重要性
5.1.2 数据质量的多维框架
5.1.3 数据评估方法的分类
5.2 面向特定指标的评估
5.2.1 数据纯净度与品质评估
5.2.2 数据多样性评估
5.2.3 数据安全性与偏见评估
5.3 基于模型的评估
5.3.1 基于学习难度的筛选
5.3.2 指令进化与复杂性评估
5.3.3 基于模型偏好的质量排序
5.3.4 模型评估方法对比与选择
5.4 人工辅助的数据质量评估
5.4.1 人工评估的不可或缺性
5.4.2 人工评估的方法与流程
5.4.3 人工评估在大模型时代的核心角色
5.5 数据价值验证平台―― OpenDataArena
5.6 数据价值量化方法

第6章 数据前沿趋势展望
6.1 全球大模型数据合规监管趋势与挑战
6.1.1 数据合规监管的背景与现状
6.1.2 全球数据合规监管的主要趋势与实践
6.1.3 数据合规监管面临的挑战
6.2 大模型训练数据的版权争议与合规方案
6.2.1 数据版权争议焦点
6.2.2 数据版权典型案例
6.2.3 数据版权合规与技术解决方案
6.3 大模型数据安全与隐私保护
6.3.1 数据脱敏与匿名化技术
6.3.2 数据隐私攻击与防御机制
6.3.3 综合性隐私保护趋势与实践
6.4 数据与AI的协同发展关系
6.4.1 高质量数据加速垂类AI应用落地
6.4.2 AI 应用促进数据飞轮反哺AI发展
第7章 案例实操――基于PDF数据的垂类模型能力提升
7.1 案例概述
7.1.1 微调垂类模型时,数据层面的常见问题
7.1.2 从PDF到训练数据:整体处理思路
7.2 数据解析:从PDF中稳定提取结构化内容
7.2.1 解析任务与输出形式
7.2.2 文档结构解析
7.2.3 基于布局的内容精修
7.2.4 批处理调度与解析流程
7.2.5 解析结果与后续数据构建
7.3 数据治理:将解析结果转化为可训练样本
7.3.1 数据对齐
7.3.2 数据合成与增强
7.3.3 数据处理
7.3.4 可视化流水线编排与调试
7.4 数据质量评估:判断自动构建数据是否“真的可用”
7.4.1 基于大模型的质量评估方法
7.4.2 质量评估伪代码示例
7.5 微调垂类模型
7.5.1 微调:LLaMA-Factory
7.5.2 动态训练:DataFlex
参考文献

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2026 (香港)大書城有限公司 All Rights Reserved.