登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2025年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』实战大数据（Hadoop+Spark+Flink）——从平台构建到交互式数据分析（离线/实时）第2版

書城自編碼： 4194414
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：杨俊王年明谢志刚
國際書號(ISBN)： 9787111798538
出版社：机械工业出版社
出版日期： 2026-01-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 505

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《德意志史（第3版）》
售價：NT$ 504

《明清鼎革一百年2 辽东风云》
售價：NT$ 371

《跨境风险资本联合投资研究》
售價：NT$ 466

《漫画环境科学（漫画学科系列新作地理生物化学跨学科学习帮手）》
售價：NT$ 360

《模仿的杀意》
售價：NT$ 292

《 DK战争大百科》
售價：NT$ 1155

《智能化战争：颠覆与设计》
售價：NT$ 784

《平庸之恶译文经典》
售價：NT$ 360

編輯推薦：

畅销经典全新升级，和10000+学员一起跟杨俊老师学用大数据
围绕Hadoop、Spark、Flink三大主流平台，融合离线分析、实时计算、数据仓库、推荐系统与数据可视化五大核心场景，打造“数据采集-存储-计算-应用”全链路闭环
随书配备全套数据集、安装包、配置文件、海量教学视频(近30GB )

內容簡介：

本书以一个完整的大数据项目为主线，系统性讲解Hadoop、Spark、Flink等主流大数据技术的核心原理与开发实践，融合离线分析、实时计算、数据仓库、推荐系统与数据可视化五大核心场景，打造“数据采集-存储-计算-应用”全链路闭环。全书共9章：大数据技术概述、搭建IDEA开发环境及Linux虚拟机、基于Hadoop构建大数据平台、基于HBase和Kafka构建海量数据存储与交换系统、用户行为离线分析—构建数据采集和分析平台、基于Spark的用户行为实时分析、基于Flink的用户行为实时分析、基于Flink的新闻资讯推荐系统、新闻资讯系统数据可视化。
相较第1版，本书进行了三方面的内容升级。技术版本革新：全面适配Hadoop 3生态、Spark结构化流处理及Flink流批一体架构，覆盖Exactly-Once语义、自适应调优等生产级特性；模块能力扩展：新增Hive与DataX多源异构数据仓库构建、Flink SQL流批一体化开发、机器学习融合的推荐系统开发三大实战模块；技术栈升级：数据可视化采用SpringBoot和Vue前后端分离架构，替代传统的Servlet、JSP方案，实现更高效的数据展示与交互设计。
本书既可以作为大数据工程师的开发手册，也可以作为高校大数据及相关专业的教材。

關於作者：

杨俊，大数据架构师。大数据技术达人，Hadoop源码级技术专家，擅长Hadoop、Spark、FIink等主流大数据生态技术。具有十
余年的大数据开发经验，参与过十余个重量级大数据项目。曾任广电数据咨询公司大数据高级架构师，负责大数据平台架构设计与实施，并构建企业级数据仓库。畅销书《Hadoop大数据技术基础与应用》作者。51CTO知名培训讲师，拥有40余万粉丝，具有丰富的大数据技术培训经验，为数十家企业、院校开展过大数据技术课程培训。

前言

第1章大数据技术概述 1
1.1 什么是大数据 1
1.2 大数据平台架构 1
1.2.1 数据获取 2
1.2.2 数据存储 2
1.2.3 数据处理 3
1.2.4 交互式分析 3
1.2.5 机器学习与数据挖掘 4
1.2.6 资源管理 4
1.3 大数据工程师的技能树 5
1.3.1 主流程序开发语言 5
1.3.2 大数据平台的构建 5
1.3.3 大数据采集 5
1.3.4 大数据存储与交换 5
1.3.5 大数据离线计算 6
1.3.6 大数据实时计算 6
1.3.7 大数据挖掘 6
1.4 大数据项目需求分析与架构设计 6
1.4.1 项目需求分析 6
1.4.2 系统整体架构设计 8
1.4.3 架构设计及数据流程设计 9
1.4.4 大数据平台规划 10
1.5 本章小结 11
第2章搭建IDEA开发环境及Linux虚拟机 12
2.1 搭建IDEA开发环境 12
2.1.1 JDK 的安装与配置 12
2.1.2 Maven 的安装与配置 14
2.1.3 IDEA 的安装与配置 16
2.1.4 使用IDEA构建Maven项目 21
2.2 搭建Linux虚拟机 22
2.2.1 安装Linux系统 22
2.2.2 配置Linux静态IP 23
2.2.3 Linux主机名和IP映射 23
2.2.4 关闭Linux防火墙 24
2.2.5 创建Linux用户和用户组 24
2.2.6 Linux SSH免密登录 25
2.3 本章小结 26
第3章基于Hadoop构建大数据平台 27
3.1 ZooKeeper分布式协调服务 27
3.1.1 ZooKeeper架构设计及原理 27
3.1.2 ZooKeeper集群安装前的准备工作 30
3.1.3 ZooKeeper集群的安装部署 33
3.1.4 ZooKeeper shell的操作 36
3.2 HDFS分布式文件系统 37
3.2.1 HDFS架构设计及原理 37
3.2.2 HDFS的高可用（HA）机制 45
3.2.3 HDFS联邦机制 47
3.3 YARN资源管理系统 47
3.3.1 YARN架构设计及原理 48
3.3.2 MapReduce on YARN工作流程 51
3.3.3 YARN的容错性 52
3.3.4 YARN的高可用（HA）机制 52
3.3.5 YARN的调度器及使用 53
3.4 Hadoop分布式集群的构建 56
3.4.1 HDFS分布式集群的构建 56
3.4.2 YARN分布式集群的构建 61
3.4.3 Hadoop集群运行测试 64
3.4.4 Hadoop集群调优 65
3.5 MapReduce分布式计算框架 67
3.5.1 MapReduce概述 67
3.5.2 MapReduce编程模型 69
3.5.3 MapReduce应用实例 71
3.5.4 WordCount代码实现 73
3.6 本章小结 75
第4章基于HBase和Kafka构建海量数据存储与交换系统 76
4.1 构建HBase分布式实时数据库 76
4.1.1 HBase概述 76
4.1.2 HBase架构设计 80
4.1.3 HBase分布式集群的构建 81
4.1.4 HBase性能调优 86
4.1.5 建立HBase新闻资讯业务表 89
4.2 搭建Kafka分布式消息系统 90
4.2.1 Kafka概述 90
4.2.2 Kafka架构设计 91
4.2.3 Kafka分布式集群的构建 93
4.2.4 Kafka集群监控 96
4.3 本章小结 100
第5章用户行为离线分析—构建数据采集和分析平台 101
5.1 搭建Flume数据采集系统 101
5.1.1 Flume概述 101
5.1.2 Flume架构设计 102
5.1.3 Flume环境的搭建 105
5.1.4 构建Flume集群 106
5.2 使用Flume采集用户行为数据 108
5.2.1 Flume与Kafka集成 108
5.2.2 Flume与HBase集成 110
5.2.3 Flume与Kafka、HBase集成 114
5.3 搭建Hive离线分析平台 117
5.3.1 Hive概述 117
5.3.2 Hive架构设计 118
5.3.3 Hive的安装部署 122
5.3.4 Hive与HBase集成 126
5.3.5 基于Hive的用户行为数据离线分析 127
5.4 搭建DataX业务数据采集平台 130
5.4.1 DataX简介 130
5.4.2 DataX架构原理 132
5.4.3 DataX的安装部署 134
5.4.4 DataX Web的安装部署 135
5.4.5 新闻资讯业务概述 137
5.4.6 新闻业务数据采集 140
5.5 基于Hive构建新闻资讯数据仓库 149
5.5.1 数据仓库概述 149
5.5.2 数据仓库建模理论 150
5.5.3 数据仓库设计及规范 156
5.5.4 项目需求分析及架构设计 159
5.5.5 搭建新闻资讯数据仓库 160
5.5.6 报表数据导出 174
5.6 本章小结 179
第6章基于Spark的用户行为实时分析 180
6.1 Spark快速入门 180
6.1.1 Spark概述 180
6.1.2 Spark的极简安装 181
6.1.3 Spark实现WordCount 182
6.2 Spark Core的核心功能 184
6.2.1 Spark架构的原理 184
6.2.2 弹性分布式数据集（RDD） 185
6.2.3 Spark算子 187
6.2.4 Pair RDD及算子 188
6.3 Spark分布式集群的构建 189
6.3.1 Spark的运行模式 189
6.3.2 Standalone模式集群的构建 190
6.3.3 Spark on YARN模式集群的构建 193
6.4 基于Spark Streaming的新闻资讯项目实时分析 194
6.4.1 Spark Streaming概述 194
6.4.2 Spark Streaming的运行原理 195
6.4.3 Spark Streaming编程模型 197
6.4.4 基于Spark Streaming的用户行为实时分析 198
6.5 基于Spark SQL的新闻资讯项目离线分析 204
6.5.1 Spark SQL架构原理 204
6.5.2 Spark SQL与Hive、MySQL集成 206
6.5.3 Spark SQL用户行为离线分析 209
6.6 基于Spark Structured Streaming的新闻资讯项目实时分析 213
6.6.1 Structured Streaming概述 213
6.6.2 Structured Streaming编程模型 213
6.6.3 基于Structured Streaming的用户行为实时分析 214
6.7 本章小结 219
第7章基于Flink的用户行为实时分析 220
7.1 Flink快速入门 220
7.1.1 Flink概述 220
7.1.2 Flink的极简安装 224
7.1.3 Flink实现WordCount 224
7.2 Flink架构原理 230
7.2.1 Flink常见概念 230
7.2.2 Flink运行时架构 231
7.2.3 并行度 232
7.2.4 算子链 233
7.2.5 任务槽 234
7.3 Flink分布式集群的构建 235
7.3.1 Flink部署模式 235
7.3.2 Flink Standalone运行模式 236
7.3.3 Flink YARN运行模式 240
7.4 基于Flink DataStream 的新闻资讯项目实时分析 244
7.4.1 Flink DataStream的运行原理 244
7.4.2 Flink DataStream的程序架构 245
7.4.3 基于Flink DataStream的用户行为实时分析 250
7.5 基于Flink SQL的新闻资讯项目实时分析 256
7.5.1 Flink SQL的运行原理 256
7.5.2 Flink SQL 与MySQL、Hive集成 262
7.5.3 基于Flink SQL的用户行为实时分析 267
7.6 本章小结 271
第8章基于Flink的新闻资讯推荐系统 272
8.1 推荐系统快速入门 272
8.1.1 推荐系统概述 272
8.1.2 推荐系统的主流程 273
8.1.3 推荐系统的召回路径 274
8.1.4 推荐系统通用架构 275
8.1.5 推荐系统分类 276
8.1.6 推荐算法设计实例 277
8.1.7 推荐系统评测 282
8.2 推荐系统需求分析与架构设计 285
8.2.1 推荐系统项目需求分析 285
8.2.2 推荐系统项目核心模块 285
8.2.3 推荐系统项目实现逻辑 286
8.2.4 推荐系统项目核心架构 287
8.2.5 搭建推荐系统开发环境 287
8.3 推荐系统预处理模块开发 288
8.3.1 准备数据源 288
8.3.2 预处理逻辑 290
8.3.3 预处理代码实现 291
8.4 推荐系统召回模块开发 294
8.4.1 召回原理 294
8.4.2 召回模块代码实现 298
8.5 推荐系统排序模块开发 304
8.5.1 排序算法 304
8.5.2 逻辑回归算法 305
8.5.3 排序模块代码实现 306
8.6 推荐系统调整模块开发 307
8.6.1 实现原理 307
8.6.2 调整模块代码实现 309
8.7 推荐系统结果处理模块开发 311
8.7.1 准备工作 311
8.7.2 结果处理模块代码实现 312
8.8 推荐模型优化与系统评价 313
8.8.1 推荐模型优化：让算法越学越聪明 313
8.8.2 推荐系统评价：实战检验效果 313
8.8.3 避“坑”指南：别让指标骗了你 314
8.8.4 总结：优化是永无止境的旅程 314
8.9 本章小结 314
第9章新闻资讯系统数据可视化 315
9.1 系统架构与数据接口设计 315
9.1.1 需求分析与架构设计 315
9.1.2 数据表结构与接口定义 318
9.2 后端开发：SpringBoot数据服务 319
9.2.1 SpringBoot基础框架搭建 319
9.2.2 后端核心接口开发 323
9.3 前端开发：Vue实现展示与交互 324
9.3.1 Vue基础框架搭建 324
9.3.2 前端核心代码开发 327
9.4 项目打包与轻量部署 328
9.4.1 跨域问题解决 328
9.4.2 项目打包与部署 329
9.5 新闻资讯数据展示与分析 334
9.6 本章小结 336

內容試閱：

大数据技术作为数字化转型的核心驱动力，已深度融入金融、医疗、零售、智能制造等各个领域，重构着企业的决策模式与业务形态。通过高效处理海量、多源、异构数据，大数据技术不仅为企业提供了实时洞察能力，更在用户画像、智能推荐、风险预测等场景中展现出巨大价值，成为企业构筑竞争壁垒的战略性技术资产。
本书作为一本实用的大数据技术教程，以“数据采集-存储-计算-应用”技术链路为主线，围绕一个完整的新闻资讯大数据分析项目展开，系统讲解Hadoop、Spark、Flink三大核心框架及其生态组件的实战应用。本书在第1版的基础上进行了全面的内容升级，改版升级包括以下三方面。
版本升级：Hadoop、Spark及Flink等核心技术版本升级到3.0或现行稳定版本。
项目增加：新增了大数据仓库项目及个性化推荐项目。
技术更新：数据可视化项目由Servlet技术更新为SpringBoot和Vue技术来实现。
本书延续了第1版“场景驱动式”教学的特色：从离线分析到实时计算，从数据仓库构建到推荐系统开发，最终实现数据可视化闭环。读者不仅能掌握HDFS、YARN、HBase、Kafka、Hive、Spark、Flink等技术要点，更能获得从0到1搭建企业级大数据平台的完整项目经验。
全书共9章，层层递进构建知识体系：
第 1 章大数据技术概述。解析大数据核心特征与平台架构，剖析大数据工程师技能树，并通过需求分析案例展示如何设计可扩展的大数据系统架构。
第 2 章搭建IDEA开发环境及Linux虚拟机。详解开发环境配置与虚拟化技术，为后续分布式集群搭建奠定基础，培养读者的跨平台开发能力。
第 3 章基于Hadoop构建大数据平台。深入讲解ZooKeeper、HDFS、YARN核心原理与集群部署，通过MapReduce编程实践揭示分布式计算本质。
第 4 章基于HBase和Kafka构建海量数据存储与交换系统。对比行式与列式存储差异，实现HBase集群搭建与Kafka消息队列配置，解决高并发读写与实时数据流处理难题。
第 5 章用户行为离线分析—构建数据采集和分析平台。集成Flume、DataX实现多源数据采集，基于Hive构建维度建模数据仓库，完成海量数据的ETL（抽取、转换、加载）与OLAP（在线分析处理）分析。
第 6 章基于Spark的用户行为实时分析。通过Spark Core、Spark Streaming、Spark SQL及Spark Structured Streaming四大模块，实现批流一体处理，对比微批与持续处理模式的技术选型。
第 7 章基于Flink的用户行为实时分析。深入讲解Flink核心架构、集群部署及实时计算，通过新闻资讯项目的实时分析场景，完整展现Flink在低延迟、高吞吐、精确状态管理等方面的技术特性。
第 8 章基于Flink的新闻资讯推荐系统。构建涵盖召回、排序、调整的完整推荐链路，集成协同过滤与深度学习模型，实现新闻资讯项目个性化推荐。
第 9 章新闻资讯系统数据可视化。采用SpringBoot和Vue实现前后端分离架构，通过ECharts完成多维数据可视化，并讲解轻量化部署与性能优化策略。
通过以上内容，全书实现了以下三方面目标。
项目驱动学习：以新闻资讯分析系统贯穿全书，涵盖13个核心组件部署与5大项目实战案例。
技术纵深对比：对比MapReduce、Spark和Flink三代计算引擎，Hive、Spark SQL和Flink SQL三种查询范式。
开发流程全覆盖：从数据采集、存储、计算到推荐系统与可视化展示，完整再现企业级开发流程。
除此之外，本书配套学习资源极为丰富，为读者免费提供容量高达30GB的学习资料包，包含软件安装包、实验数据集、配置文件、脚本文件及配套学习视频，可供读者更为系统、全面地学习大数据技术。读者可通过扫码关注“IT有得聊”公众号，回复获取本书配套学习资源下载链接，或添加作者微信john_1125进行技术交流。
本书由杨俊、王年明、谢志刚编著，杨俊主要负责编写第1～7章，王年明主要负责编写第9章，谢志刚主要负责编写第8章。
大数据技术生态日新月异，书中若有疏漏之处，恳请读者通过出版社或作者渠道反馈意见，我们将通过在线资源持续更新前沿技术内容。希望本书能成为您通往大数据工程师之路的明灯，助力在数据洪流中乘风破浪！
杨俊

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2026 （香港）大書城有限公司　All Rights Reserved.