登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

『簡體書』Spark大数据处理技术与实战(Scala版·微课版)

書城自編碼: 3935750
分類: 簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 曹洁 辛向军
國際書號(ISBN): 9787302644293
出版社: 清华大学出版社
出版日期: 2023-11-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 330

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
2023年《咬文嚼字》合订本(精)
《 2023年《咬文嚼字》合订本(精) 》

售價:NT$ 437.0
世界银行营商环境成熟度方法论手册
《 世界银行营商环境成熟度方法论手册 》

售價:NT$ 1501.0
观鹤笔记.全三册
《 观鹤笔记.全三册 》

售價:NT$ 837.0
Hello算法
《 Hello算法 》

售價:NT$ 727.0
变革时代的公司契约:法律能否与时俱进?
《 变革时代的公司契约:法律能否与时俱进? 》

售價:NT$ 437.0
我国城乡融合发展基本格局及典型形态研究
《 我国城乡融合发展基本格局及典型形态研究 》

售價:NT$ 386.0
写意兰竹树石课徒稿
《 写意兰竹树石课徒稿 》

售價:NT$ 515.0
不较真的心理智慧
《 不较真的心理智慧 》

售價:NT$ 279.0

編輯推薦:
l 内容系统全面:全面阐明Spark3.2生态组件
l 理论实践结合:配丰富案例实践每章知识点
l 原理浅显易懂:对操作给出示例代码和注解
l 入门门槛较低:零基础轻松快速掌握Spark
l 教材配套资源:教学课件、源代码、教学视频
內容簡介:
本书系统介绍了Spark大数据处理框架以及相应的主流开发语言Scala。全书共14章,内容包括Scala基本概念和基本用法,Scala字符串和数组,Scala控制结构,Scala列表、元组、集合和映射,Scala函数,Scala面向对象编程,Spark大数据处理框架、Spark RDD编程,Windows环境下的Spark综合编程,用Spark SQL处理结构化数据,Spark Streaming流处理,Spark Structured Streaming流处理,Spark GraphX图计算,Spark ML机器学习。 本书可作为高等院校计算机科学与技术、信息管理、软件工程、数据科学与大数据、人工智能等相关专业的大数据课程教材,也可供企业中从事大数据开发的工程师和科技工作者参考。
目錄
第1章Scala基本概念和基本用法1
1.1Scala概述1
1.1.1Scala的特性1
1.1.2安装Scala2
1.2Scala的基础语法4
1.2.1声明常量和变量4
1.2.2输出6
1.2.3输入7
1.2.4数据类型7
1.2.5运算符9
1.3拓展阅读——三次信息化浪潮的启示11
1.4习题11
第2章Scala字符串和数组12
2.1创建不可变字符串对象12
2.2编写及运行Scala脚本12
2.3不可变字符串对象的常用方法13
2.3.1字符串的基本操作13
2.3.2匹配与替换字符串15
2.3.3分割字符串16
2.3.4变换字符串16
2.4可变字符串对象的创建及其常用方法17
2.4.1创建可变字符串对象17
2.4.2可变字符串对象的常用方法18
2.5Scala数组18
2.5.1定长数组18
2.5.2变长数组19
2.5.3数组的转换19〖3〗Spark大数据处理技术与实战(Scala版·微课版)目录〖3〗2.5.4数组对象的常用方法20
2.6拓展阅读——两弹一星精神23
2.7习题23
第3章Scala控制结构24
3.1布尔表达式24
3.2选择结构24
3.2.1单向if选择语句24
3.2.2双向if…else选择语句25
3.2.3嵌套if…else选择语句25
3.3条件表达式26
3.4while循环26
3.5for循环27
3.6for推导式29
3.7块表达式的赋值30
3.8循环中的break和continue语句31
3.9习题32
第4章Scala列表、元组、集合和映射33
4.1列表33
4.1.1创建不可变列表33
4.1.2操作不可变列表34
4.1.3可变列表37
4.2元组38
4.2.1元组的常用方法39
4.2.2拉链操作40
4.3集合41
4.3.1不可变集合41
4.3.2可变集合43
4.4映射44
4.4.1创建不可变映射44
4.4.2不可变映射的常用方法45
4.4.3可变映射46
4.5习题47
第5章Scala函数48
5.1定义函数48
5.2匿名函数50
5.3高阶函数51
5.4习题52
第6章Scala面向对象编程53
6.1类与对象53
6.2构造器54
6.3Scala的value与“value_=”方法56
6.4object单例对象57
6.5App特性59
6.6样例类59
6.7模式匹配61
6.7.1匹配字符串61
6.7.2对数组和列表的元素进行模式匹配62
6.7.3匹配类型63
6.7.4在模式匹配中使用if守卫63
6.7.5使用样例类进行模式匹配64
6.8习题64
第7章Spark大数据处理框架66
7.1Spark概述66
7.1.1Spark的产生背景66
7.1.2Spark的优点67
7.1.3Spark应用场景67
7.1.4Spark生态系统67
7.2Spark的运行机制69
7.2.1Spark的基本概念69
7.2.2Spark的运行架构71
7.3Spark的安装及配置72
7.3.1下载Spark安装文件72
7.3.2单机模式配置72
7.3.3伪分布式模式配置74
7.4基于Scala的Spark交互式编程模式75
7.5基于Python的Spark交互式编程模式76
7.6拓展阅读——源自Spark诞生的启示77
7.7习题78
第8章Spark RDD编程79
8.1创建RDD的方式79
8.1.1使用程序中的数据集创建RDD79
8.1.2使用文本文件创建RDD80
8.1.3使用JSON文件创建RDD82
8.1.4使用CSV文件创建RDD84
8.2RDD的转换操作85
8.2.1映射操作85
8.2.2过滤和去重操作88
8.2.3排序操作89
8.2.4分组聚合操作91
8.2.5集合操作93
8.2.6抽样操作94
8.2.7连接操作95
8.2.8打包操作96
8.2.9获取“键值”对RDD的键和值96
8.2.10重新分区操作96
8.3RDD的行动操作97
8.3.1统计操作97
8.3.2取数据操作99
8.3.3聚合操作99
8.3.4foreach(func)操作和lookup(key: K)操作100
8.3.5saveAsTextFile(path)存储操作101
8.4RDD之间的依赖关系101
8.5RDD的持久化103
8.6项目实战: 用Spark RDD实现词频统计104
8.6.1安装sbt104
8.6.2编写词频统计的Scala应用程序105
8.6.3使用sbt打包Scala应用程序106
8.6.4通过sparksubmit运行程序107
8.7项目实战: 分析学生考试成绩108
8.8习题111
第9章Windows环境下的Spark综合编程112
9.1Windows环境下安装Spark与Hadoop112
9.1.1Windows环境下安装Spark112
9.1.2Windows环境下安装Hadoop112
9.2用IntelliJ IDEA搭建Spark开发环境113
9.2.1下载与安装IntelliJ IDEA114
9.2.2安装与使用Scala插件116
9.2.3配置全局的JDK和SDK121
9.2.4安装Maven与创建项目122
9.2.5开发本地Spark应用125
9.3从MySQL数据库中读取数据127
9.4项目实战: 分析商品订单并将分析结果保存至数据库128
9.5拓展阅读——工匠精神132
9.6习题132
第10章用Spark SQL处理结构化数据133
10.1Spark SQL概述133
10.1.1Spark SQL简介133
10.1.2DataFrame与Dataset133
10.2创建DataFrame对象的方式134
10.2.1使用Parquet文件创建DataFrame对象134
10.2.2使用JSON文件创建DataFrame对象136
10.2.3使用RDD创建DataFrame对象136
10.2.4使用SparkSession对象创建DataFrame对象136
10.2.5使用Seq对象创建DataFrame对象138
10.2.6使用MySQL数据库的数据表创建DataFrame对象138
10.3将DataFrame对象保存为不同格式的文件141
10.3.1调用DataFrame对象的write. ()方法保存数据141
10.3.2调用DataFrame对象的write.format()方法保存数据142
10.3.3先将DataFrame对象转换成RDD再保存到文件中142
10.4DataFrame对象的常用操作143
10.4.1查看数据143
10.4.2查询数据145
10.4.3排序148
10.4.4汇总与聚合149
10.4.5统计151
10.4.6连接152
10.4.7差集、交集、合集154
10.4.8更改字段名155
10.4.9基于列的新增与删除156
10.4.10修改列的数据类型158
10.4.11时间函数160
10.5Dataset对象162
10.5.1创建Dataset对象162
10.5.2RDD、Dataset、DataFrame对象的相互转换164
10.6项目实战: 分析新型冠状病毒感染数据165
10.7拓展阅读——文化自信171
10.8习题172
第11章Spark Streaming流处理173
11.1流处理概述173
11.1.1流数据概述173
11.1.2批处理与流处理173
11.2Spark Streaming的工作原理174
11.3Spark Streaming编程模型175
11.3.1编写Spark Streaming程序的步骤175
11.3.2创建StreamingContext对象175
11.4创建DStream对象176
11.4.1创建输入源为文件流的DStream对象176
11.4.2创建输入源为套接字流的DStream对象177
11.4.3创建输入源为RDD队列流的DStream对象181
11.5DStream对象的常用操作183
11.5.1无状态转换操作183
11.5.2窗口转换操作185
11.5.3有状态转换操作187
11.5.4输出操作188
11.6项目实战: 实时统计“文件流”的词频189
11.7拓展阅读——源自Spark Streaming流处理过程的启示190
11.8习题190
第12章Spark Structured Streaming流处理191
12.1Structured Streaming流处理概述191
12.2Structured Streaming编程模型192
12.2.1Structured Streaming的WordCount192
12.2.2Structured Streaming编程模型199
12.3拓展阅读——女排精神200
12.4习题201
第13章Spark GraphX图计算202
13.1GraphX图计算模型202
13.1.1属性图202
13.1.2GraphX图存储模式203
13.1.3GraphX图计算流程205
13.2GraphX属性图的创建206
13.2.1使用顶点RDD和边RDD构建属性图206
13.2.2使用边的集合的RDD构建属性图207
13.2.3使用边的两个顶点的ID所组成的二元组RDD构建属性图208
13.3属性图的操作209
13.3.1获取图的基本信息209
13.3.2图的视图操作210
13.3.3图的缓存操作213
13.3.4图顶点和边属性的变换214
13.3.5图的关联操作215
13.3.6图的结构操作216
13.4GraphX中的Pregel计算模型217
13.5项目实战: 分析《平凡的世界》中孙家人物关系图220
13.5.1在项目中添加关系图可视化组件220
13.5.2分析人物关系图221
13.6拓展阅读——社交中的六度空间理论227
13.7习题228
第14章Spark ML机器学习229
14.1Spark机器学习库概述229
14.1.1机器学习简介229
14.1.2ML和MLlib概述230
14.2Spark ML的数据类型231
14.2.1本地向量231
14.2.2带标签的点231
14.2.3本地矩阵232
14.3管道的主要概念233
14.3.1Transformer转换器类233
14.3.2Estimator评估器类234
14.3.3Pipeline管道类235
14.4基本统计236
14.4.1相关性分析236
14.4.2汇总统计239
14.4.3分层抽样240
14.4.4假设检验241
14.4.5随机数生成242
14.4.6核密度估计243
14.5TFIDF特征提取243
14.6特征变换转换器246
14.6.1将多个列合成一个VectorAssembler246
14.6.2VectorIndexer向量列类别索引转换器247
14.6.3Binarizer(二值化)转换器248
14.6.4PCA(主成分分析)数据降维转换器249
14.6.5Normalizer(范数pnorm规范化)转换器249
14.6.6数值型数据特征转换器250
14.7分类和回归算法251
14.7.1分类原理251
14.7.2朴素贝叶斯分类算法252
14.7.3决策树分类算法254
14.7.4逻辑回归算法260
14.8聚类算法265
14.8.1聚类概述265
14.8.2K均值聚类算法266
14.9推荐算法270
14.9.1推荐的原理270
14.9.2ALS交替最小二乘协同过滤电影推荐272
14.10项目实战: 识别垃圾邮件276
14.11拓展阅读——人工智能的历史现状和未来278
14.12习题279
参考文献280
內容試閱
随着数字经济在全球加速推进以及5G通信、人工智能、自动驾驶、物联网、社交媒体等相关技术的快速发展,数据已成为国家基础性战略资源,大数据以从海量数据集合中发现新知识、创造新价值、提升新能力为主要特征,正日益对全球生产、流通、分配、消费活动以及经济运行机制、国家安全、科学研究、社会生活方式和国家治理能力产生重要影响。大数据技术涉及的知识点非常多,本书从高校各专业对大数据技术需求的实际情况出发,详细阐述最流行的Spark大数据处理框架以及相应的主流开发语言Scala。
本书共14章。
第1章为Scala基本概念和基本用法,主要介绍Scala的特性、安装、基础语法。
第2章为Scala字符串和数组,主要介绍创建不可变字符串对象、编写及运行Scala脚本、不可变字符串对象的常用方法、可变字符串对象的创建及其常用方法、Scala数组。
第3章为Scala控制结构,主要介绍布尔表达式、选择结构、条件表达式、while循环、for循环、for推导式、块表达式的赋值、循环中的break和continue语句。
第4章为Scala列表、元组、集合和映射,主要介绍列表、元组、集合和映射4种数据类型及其用法。
第5章为Scala函数,主要介绍定义函数、匿名函数和高阶函数的方法。
第6章为Scala面向对象编程,主要介绍类与对象、构造器、Scala的value与“value_=”方法、object单例对象、App特性、样例类、模式匹配。
第7章为Spark大数据处理框架,主要内容包括Spark概述、Spark的运行机制、Spark的安装及配置、基于Scala的Spark交互式编程模式、基于Python的Spark交互式编程模式。
第8章为Spark RDD编程,主要介绍创建RDD的方式、RDD的转换操作、RDD的行动操作、RDD之间的依赖关系、RDD的持久化,项目实战为用Spark RDD实现词频统计和分析学生考试成绩。
第9章为Windows环境下的Spark综合编程,主要介绍Windows环境下安装Spark与Hadoop、用IntelliJ IDEA搭建Spark开发环境、从MySQL数据库中读取数据,项目实战为分析商品订单并将分析结果保存至数据库。第10章为用Spark SQL处理结构化数据,主要内容包括Spark SQL概述、创建DataFrame对象的方式、将DataFrame对象保存为不同格式的文件、DataFrame对象的常用操作、Dataset对象,项目实战为分析新型冠状病毒感染数据。
第11章为Spark Streaming流处理,主要介绍流处理概述、Spark Streaming的工作原理、Spark Streaming编程模型、创建DStream对象、DStream对象的常用操作,项目实战为实时统计“文件流”的词频。
第12章为Spark Structured Streaming流处理,主要内容包括Structured Streaming流处理概述、Structured Streaming编程模型。
第13章为Spark GraphX图计算,主要介绍GraphX图计算模型、GraphX属性图的创建、属性图的操作、GraphX中的Pregel计算模型,项目实战为分析《平凡的世界》中孙家人物关系图。
第14章为Spark ML机器学习,主要内容包括Spark机器学习库概述、Spark ML的数据类型、管道的主要概念、基本统计、TFIDF特征提取、特征变换转换器、分类和回归算法、聚类算法、推荐算法,项目实战为识别垃圾邮件。
本书由曹洁、辛向军编著,参与本书编写的还有杨许、陈明、李朝阳、郭延哺、马红娟、刘永文、王浩翔。
在本书的编写和出版过程中得到了郑州轻工业大学、清华大学出版社的大力支持和帮助,在此表示感谢。同时,在撰写过程中,参考了大量专业书籍和网络资料,在此向这些作者表示感谢。
由于编写时间仓促,编者水平有限,书中难免有缺点和不足,热切期望得到专家和读者的批评指正,在此表示感谢。您如果遇到任何问题或有宝贵意见,欢迎将其发送邮件至bailj@tup.tsinghua.edu.cn,期待能够收到您的真诚反馈。
编者2023年6月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.