新書推薦:

《
孙人和文存
》
售價:NT$
784

《
南方丝绸之路史
》
售價:NT$
519

《
古罗马的公共秩序
》
售價:NT$
472

《
费斯汀格法则
》
售價:NT$
264

《
别让未来的你,后悔现在的自己 精装青春励志自我提升成长正能量人生哲学书籍
》
售價:NT$
360

《
既无净土 不如静心 丰子恺东方疗愈文集 有禅意的生活 才是最高级的生活
》
售價:NT$
292

《
汉字中国——方正之间的中华文明
》
售價:NT$
2544

《
汉文化东传与古代东北社会变迁(精) 全2册
》
售價:NT$
1049
|
| 編輯推薦: |
1.图文并茂:图解示意图辅助理解,深入浅出讲清原理。
2.模块结构:基础概念与大模型逻辑清晰,便于按需学习。
3.实战应用:覆盖金融科技多领域,全流程演练DeepSeek案例。
4.前沿集成:剖析分布式训练等趋势,跨平台部署并整合工具资源。
|
| 內容簡介: |
本书分为两大部分,从理论到实践、从基础原理到前沿技术,全方位解析了大模型的构建、训练、部署 与应用的整个流程。第一部分介绍大模型的基础概念,包括大模型的定义、发展历程和构建所需的软硬件技术栈,重点讲解神经网络、训练优化及模型调优的基本原理。第二部分聚焦大模型的内在逻辑和实际应用, 涵盖推理、记忆、数据管道、多模态处理、硬件加速以及部署和维护等,同时以基于MoE的DeepSeek多模态大模型为案例,展示从项目架构设计到在线服务的全流程。
全书内容严谨而生动,既涵盖了大模型开发的全 流程技术细节,又不乏对大模型历史演变和未来趋势的前瞻性探讨,是探索大模型底层逻辑与实现技术的指南。本书适合具备Python基础开发能力、并希望进一步深入学习大模型开发、模型优化和部署应用的读者;同时,对于证券、保险、银行等行业的从业人员以及高校师生来说,也是一本兼具理论深度与实战指导的理 想参考书和教学辅导材料。
|
| 關於作者: |
|
张治政,中国海洋大学计算机硕士,哈尔滨工业大学通信博士,百度云研发工程师,百度大模型工程师,在大规模机器学习、深度学习、数据搜索、行业垂直应用、研发管理等领域拥有丰富经验。在企业智能化转型、业务线上化经营、拥有丰富的大规模搜索架构、个性化推荐架构、机器学习系统架构经验和技术团队管理经验。现在从事城市大数据中心的开发和建设工作,将深度学习运用到数字经济等领域。
|
| 目錄:
|
目录
第1章大模型介绍
1.1 什么是大模型 002
1.1.1 大模型的第一印象 002
1.1.2 大模型的主要特点 003
1.2 大模型的发展历程 004
1.2.1 早期探索阶段 004
1.2.2 深度学习的兴起 004
1.2.3 Transformer架构的出现与普及 005
1.2.4 大规模预训练模型的爆发 006
1.2.5 跨模态与多模态融合 006
1.3 大模型的应用领域 008
第2章大模型开发技术栈
2.1 软件技术栈:构建大模型的“软件基石” 012
2.1.1 编程语言与开发工具 012
2.1.2 机器学习框架与扩展库 012
2.1.3 分布式计算与并行技术 013
2.1.4 模型部署与服务工具 014
2.2 硬件技术栈:支持大模型的“计算引擎” 016
2.2.1 GPU:大模型训练的核心动力引擎 016
2.2.2 专用AI加速芯片 017
2.2.3 计算资源与集群架构 018
2.2.4 内存与存储 019
2.3 软件与硬件协同优化:让大模型跑得更快 020
2.3.1 训练加速技术 021
2.3.2 推理加速与部署优化 021
2.3.3 能效优化与绿色AI 022
2.4 大模型技术栈的未来趋势:从算力到智力的突破 023
2.4.1 硬件发展趋势 023
2.4.2 软件技术突破 024
2.4.3 算力共享与去中心化 025
第3章大模型的构成
3.1 神经网络:大模型的“神经元” 027
3.1.1 神经网络的基本构成:模仿人类大脑 027
3.1.2 神经元与层次结构:信息传递与处理的桥梁 029
3.1.3 激活函数:神经元的“开关”与“决策器” 031
3.2 学习与训练:大模型的“成长”过程 036
3.2.1 监督学习和无监督学习:模型的自我修炼 036
3.2.2 强化学习:通过探索不断优化 036
3.2.3 训练过程中的挑战:过拟合与欠拟合的博弈 037
3.3 优化与改进:让大模型变得更聪明 041
3.3.1 梯度下降与参数优化:高效的进化之路 041
3.3.2 正则化与防止过拟合:避免模型过度“学习” 042
3.3.3 自适应优化:让大模型变得更加灵活 043
3.4 模型调优与评估 043
3.4.1 损失函数与精度评估:衡量模型的性能的“标尺”与“成绩单” 043
3.4.2 交叉验证:确保模型的“全能”表现 044
3.4.3 调优技巧:让模型最大化发挥潜力 045
第4章启动大模型
4.1 训练大模型 047
4.1.1 数据准备与预处理:大模型的“食粮” 047
4.1.2 选择合适的模型架构:如何决定模型的“大脑”? 052
4.1.3 训练算法:模型从零开始的“修炼” 052
4.1.4 训练过程中的挑战与解决方案:避免大模型“犯错” 057
4.2 大模型的推理 060
4.2.1 推理与计算:模型思考的“秘密” 060
4.2.2 生成与优化:让答案更精准 064
4.2.3 提升推理能力:从数据到智慧的跨越 066
第5章机器学习
5.1 机器学习的基本概念 073
5.1.1 什么是机器学习 073
5.1.2 数据在机器学习中的角色 074
5.1.3 机器学习的目标 075
5.2 网络模型 076
5.2.1 机器学习中的网络模型 076
5.2.2 线性回归模型 077
5.2.3 逻辑回归模型 080
5.2.4 支持向量机模型 083
5.2.5 决策树模型 085
5.2.6 随机森林模型 088
5.2.7 K近邻算法模型 091
5.3 机器学习中的数学基础 095
5.3.1 概率论与统计学:让模型读懂“不确定性” 095
5.3.2 线性代数:从数据到“形状”的语言 098
5.3.3 微积分:优化模型的“秘密武器” 100
5.3.4 矩阵分解:复杂问题简单化 103
第6章深度学习
6.1 深度学习的起源与发展 107
6.1.1 早期的人工神经网络与感知机 107
6.1.2 深度学习的突破:多层感知机与反向传播 109
6.1.3 深度学习的黄金时代:卷积神经网络与突破 110
6.2 神经网络 112
6.2.1 神经网络的基本结构 112
6.2.2 神经网络的前向传播与反向传播 113
6.2.3 神经网络的训练过程 114
6.3 激活函数与损失函数 116
6.3.1 激活函数的作用与种类 116
6.3.2 损失函数的作用与类型 117
6.3.3 激活函数与损失函数的结合 118
6.4 深度学习模型 119
6.4.1 深度学习中的网络模型 120
6.4.2 前馈神经网络 120
6.4.3 卷积神经网络 123
6.4.4 循环神经网络 129
6.4.5 长短期记忆网络 133
6.4.6 生成对抗网络 137
第7章大模型的大脑
7.1 大模型如何“思考” 145
7.1.1 模型的推理与生成过程 145
7.1.2 多模态能力的实现 149
7.1.3 概率分布与不确定性评估 152
7.2 大模型的“记忆”与知识管理 156
7.2.1 参数中的隐式记忆 156
7.2.2 知识库的集成与增强 161
7.2.3 知识的更新与持续学习 164
7.3 大模型的限制与改进方向 168
7.3.1 计算资源的瓶颈 169
7.3.2 模型的偏见与伦理问题 169
7.3.3 通用模型与专用模型的平衡 170
第8章数据管道
8.1 数据收集:大模型的“食材”来源 173
8.1.1 数据源的多样性与获取方法 173
8.1.2 数据质量控制 174
8.1.3 数据收集中的挑战与解决方案 175
8.2 数据处理:清洗、标注与增强 176
8.2.1 数据清洗 176
8.2.2 数据标注 180
8.2.3 数据增强 184
8.2.4 数据处理的挑战与优化 187
8.3 数据存储与检索 188
8.3.1 数据存储结构与选择 188
8.3.2 数据检索与索引 189
8.3.3 数据存储与检索的挑战 194
第9章大模型的语言能力
9.1 编码与解码:大模型如何理解语言 196
9.1.1 文本编码:语言的“数字化翻译” 196
9.1.2 文本解码:从数字到语言 199
9.1.3 语言理解与生成中的挑战 203
9.2 图像与声音:大模型的“看”和“听” 204
9.2.1 图像的语言化:视觉信息的编码 204
9.2.2 声音的文本化:语音的编码与生成 207
9.2.3 跨模态信息处理中的挑战 209
9.3 多模态:大模型整合不同的信息 210
9.3.1 模态融合:信息的统一表达 210
9.3.2 多模态任务:多样化的应用场景 216
9.3.3 多模态模型的优化方向与未来发展 221
第10章大模型的硬件加速
10.1 硬件加速的基本原理 224
10.1.1 计算资源的需求与挑战 224
10.1.2 硬件加速的核心理念 225
10.1.3 从传统计算到并行计算的飞跃 225
10.2 主要硬件加速平台:为大模型铺路 226
10.2.1 GPU:图形处理器的强大变身 226
10.2.2 TPU:Google公司的专属加速利器 230
10.2.3 FPGA与ASIC:定制化硬件的突破 233
10.2.4 专用硬件与通用硬件的对比与选择策略 233
10.3 硬件架构优化:让大模型“飞起来” 234
10.3.1 模型并行与数据并行:跨越计算瓶颈 235
10.3.2 内存优化与带宽管理:解决数据传输瓶颈 235
10.3.3 多层次加速架构:从芯片到系统的协同优化 236
10.4 大模型训练与推理的加速技术:加速背后的智慧 237
10.4.1 混合精度训练:高效利用计算资源 237
10.4.2 分布式训练:大规模模型的分布式加速 241
10.4.3 自动化硬件优化:智能调度与资源管理 244
10.5 FPGA加速器实战项目:加速神经网络的搜索过程 248
10.5.1 准备工作 249
10.5.2 网络架构 251
10.5.3 数据集准备 254
10.5.4 准确率预测器 259
10.5.5 在算术强度约束下进行搜索 261
10.5.6 模型转换与保存 272
第11章大模型的部署与维护
11.1 部署:让大模型进入现实世界 275
11.1.1 部署前的准备工作 275
11.1.2 部署环境搭建与优化 276
11.1.3 部署中的挑战与解决方案 277
11.2 维护:确保大模型的健康 279
11.2.1 模型监控与反馈机制 279
11.2.2 模型更新与迭代 281
11.2.3 模型安全性与合规性 282
11.3 Ollama本地部署实战 284
11.3.1 安装Ollama 284
11.3.2 在Ollama中部署DeepSeek模型 286
11.3.3 LM Studio本地可视化部署 288
11.4 大模型的远程和云端部署 293
11.4.1 在阿里云上部署ChatGLM3 293
11.4.2 使用腾讯云部署DeepSeek 298
第12章基于混合专家实现的DeepSeek多模态大模型
12.1 项目介绍 303
12.1.1 模型架构的核心模块 303
12.1.2 技术创新与亮点 304
12.1.3 模型训练 305
12.2 开源模型 306
12.3 配置文件 308
12.4 模型架构介绍 310
12.4.1 模型配置 310
12.4.2 多模态模型架构 316
12.4.3 数据处理 316
12.4.4 DeepSeek-VL2基本架构 317
12.4.5 ViT模型 323
12.4.6 DeepSeek-VL2总结 346
12.5 模型部署和在线服务 349
12.5.1 设置部署参数 349
12.5.2 工具函数 352
12.5.3 Gradio工具 363
12.5.4 模板覆盖与扩展 366
12.5.5 Web 前端 369
12.5.6 模型推理 371
12.5.7 图文对话推理 375
12.6 在线测试 379
12.6.1 Web前端实现 379
12.6.2 启动Web测试 394
|
| 內容試閱:
|
前言
当今时代,人工智能正以前所未有的速度革新各行各业。大模型作为深度学习领域的重要里程碑,正引领着智能时代的发展方向。本书旨在打破传统理论的晦涩,采用图解方式直观呈现大模型的底层原理与实际操作流程。书中既涵盖从基础概念、开发技术栈到数据处理及硬件加速的各个环节,还通过具体的实战案例带领读者了解如何构建、训练和部署具有跨模态能力的大模型。由此可见,无论是学术研究者还是行业从业者,都能从中获得系统而深入的知识,以此推动人工智能技术在更广领域的应用与突破。
随着各行业智能化转型的不断加速,企业和科研机构对大模型开发与应用的人才需求日益旺盛。当前,大模型在自然语言处理、图像识别、数据挖掘等领域展现出巨大潜力,迫切需要既懂理论又会实操的跨界人才。然而,现有的教材大多过于理论化,或者实战案例零散,这两种情况都难以实现系统整合。基于此,本书结合图解、案例和技术实战,精心打造出一本兼具深度与实用性的参考书。它不仅适合已有编程基础、希望进阶大模型开发的技术人员,还为高等院校的师生、企业研发团队等提供了易于理解、系统全面的专业指导,从而填补了当前大模型领域教材的空白,满足了迅速发展的人工智能产业对人才培养与技能更新的迫切需求。
本书的特色
图文并茂的呈现:大量图解、示意图辅助解读复杂概念,帮助读者直观理解大模型的底层原理和运作流程。
模块化内容设计:全书分为基础概念和大模型逻辑两大部分,结构清晰,便于读者按需选读,逐步深入掌握。
全面覆盖多领域应用:除理论讲解外,还延伸到金融、科技等多个行业实际应用场景,展现大模型在各领域的解决方案与实践。
前沿技术趋势剖析:针对分布式训练、自动化硬件优化、绿色人工智能等未来热点领域展开详细讨论,提供前瞻性视角。
实践案例丰富:以基于MoE的DeepSeek多模态大模型为切入点,从架构设计到数据处理,再到部署服务,全流程实战演练贯穿始终。
跨平台部署策略:涵盖本地部署、云端部署及多平台混合解决方案,满足各类用户的实际需求。
深入浅出的讲解风格:采用简洁的语言和实际案例,将复杂的理论知识转化为易于操作的实践指南,适合各层次读者。
工具与资源集成:整合了常用开发工具与技术平台(如GPU、TPU、FPGA等),为读者提供一站式技术参考和开发资源。
本书的内容
全书分为两大部分,共12章,从理论到实践、从基础原理到前沿技术,全方位解析了大模型的构建、训练、部署与应用的整个流程。
第一部分:基础概念
本部分主要聚焦大模型的基本原理、发展历程和开发技术栈,为后续深入探讨打下坚实基础。书中首先介绍了大模型的定义、特性及其从早期探索、深度学习兴起到Transformer架构革新与大规模预训练的演变历程;其次,详细阐述了构成大模型的软硬件技术栈,包括编程语言、机器学习框架、分布式计算、GPU及专用芯片等要素,并探讨了软件与硬件的协同优化策略。最后,作者剖析了大模型内部的构成机制:从神经网络的基本单元、层级结构、激活函数到训练策略、优化手段及模型调优和评估方法,为读者勾勒出大模型“思维”与“成长”的内在逻辑。此外,还专门设置章节详细介绍了大模型的训练与推理流程,以及机器学习与深度学习的基本原理和模型架构,确保读者能够从理论上理解大模型的各个组成部分与技术要点。
第二部分:大模型的逻辑
本部分主要聚焦于大模型的内部运作机制及实际应用,从整体逻辑、数据管道、跨模态交互、硬件加速到部署与维护,逐步揭示大模型如何在实际场景中“思考”“记忆”“演绎”。首先,书中解析了大模型“大脑”的工作原理,探讨了模型推理、生成过程、多模态融合及知识管理的实现方式与局限性。其次,详细介绍了数据管道建设——从数据的多样来源、质量把控、清洗、标注、增强和存储检索机制,确保数据为模型提供坚实的“养料”。在语言处理部分,作者解读了文本、图像与声音的编码解码原理及跨模态处理的技术挑战。硬件加速章节则涵盖了GPU、TPU、FPGA、ASIC等计算加速平台,以及并行计算、内存优化等关键技术,使大模型能在高效计算平台上充分发挥性能。最后,通过对模型部署与维护的全面剖析,包括本地与云端部署、自动化监控与持续迭代,书中为读者提供了一整套从模型构建到实际应用的落地方案。此外,本书还以基于MoE实现的DeepSeek多模态大模型为案例,从项目介绍、架构设计、配置与部署到在线服务演示,详细讲解了一个完整实战项目的各个环节,力图让理论与实践相得益彰。
本书的读者对象
初级至中级开发者:具备一定Python基础且对机器学习和深度学习感兴趣,渴望系统学习大模型开发与优化的工程师。
研究者与学者:从事人工智能、机器学习等领域的科研人员和高校师生,希望通过深入剖析大模型底层逻辑及实战案例来推动理论与实践研究。
行业专业人士:在金融、保险、银行、科技等领域工作的从业者,希望利用大模型技术实现业务创新、智能化转型和风险管理。
企业研发团队:需要系统参考资料来提升团队技能、快速实现大模型项目从研发到部署全流程应用的企业技术团队。
自学者与技术爱好者:对人工智能前沿技术充满好奇、自主学习意愿强烈的爱好者,可通过本书图文并茂的讲解轻松入门大模型开发。
产品经理与技术决策者:虽不专注于编码实现,但希望深入理解大模型技术原理及应用前景,为产品规划和技术决策提供支持的管理人员和咨询顾问。
跨领域技术整合者:关注大数据、物联网、区块链等技术交叉融合的从业者,希望了解如何利用大模型技术提升整体系统智能化水平。
本书在编写过程中,得到了北京大学出版社专业编辑的大力支持,正是各位专业人士的求实、耐心和效率,才使本书能够在如此短的时间内出版。同时,也十分感谢我的家人给予的巨大支持。本人水平有限,书中难免存在纰漏之处,诚请读者提出宝贵的意见与建议,以便修订完善。
最后,感谢您购买本书,希望本书能成为您编程路上的领航者,祝您阅读快乐!
|
|