《Spark基础编程》 - 252.0新台幣 - 曹如军 - HongKong Book Store

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台( 0 )　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新註冊 \|　新用戶登記

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / EMS，時效：出貨後2-3日

『簡體書』Spark基础编程

書城自編碼： 3964276
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：曹如军
國際書號(ISBN)： 9787302644668
出版社：清华大学出版社
出版日期： 2024-02-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 252

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《浅尝难止（全2册）》
售價：NT$ 364.0

《零基础制作栩栩如生的立体纸艺花》
售價：NT$ 274.0

《第三帝国图文史（修订版）：纳粹德国浮沉实录（彩色精装典藏版）》
售價：NT$ 941.0

《四大会计师事务所：历史秘辛与未来挑战》
售價：NT$ 386.0

《中国社会经济史》
售價：NT$ 498.0

《犯罪心理X档案：法医精神科医生真实办案手记（第一季）法医精神科医师心理解剖手记》
售價：NT$ 269.0

《台湾农业产业发展研究》
售價：NT$ 549.0

《流风回雪：六朝名士的庙堂与山林（论衡系列）》
售價：NT$ 381.0

編輯推薦：

（1）作为Spark开发提供编程指导书，介绍Spark开发基础知识、RDD编程、SQL编程、Streaming开发以及机器学习开发等内容。
（2）全书内容讲解循序渐进，深入浅出，符合初学者学习的认识规律，易于读者学习和掌握。
（3）从工程实践的角度深入分析，引导读者结合实际，从解决大数据应用场景实际需求的角度出发，用简单、直接、高效的方法或工具解决具体问题。
（4）本书所介绍的Spark API，基于Spark 3.3.x，涉及的其他软件，基本都选择了较新的稳定版本。
（5）全书提供配套的数据、示例代码、阅读材料及练习题。

內容簡介：

主要内容包括，大数据技术概述（或背景知识），Scala基础知识，Spark基础，RDD编程，Spark SQL开发，Spark Streaming / Structured Streaming编程，MLLib 机器学习编程等基础内容。
主要作为本科生数据科学与大数据技术、计算机科学与技术等相关专业必修或选修课程教科书，或作为相关工程技术人员的参考书。
本教材基于Spark 3.3.x等新版本所带来的开发方式、方法的变化，从工业、服务业等行业实际应用开发的角度，介绍Spark开发的基础知识，开发过程中的注意事项，并提供合理建议，从而引导学习过程更贴近大数据开发实际。
除了不同于其他教材所讲解的内容基础未基于新的软件产品或平台外，本教程更是从工业、服务行业大数据开发实际需求出发，引导学习者养成良好的开发习惯，为高效率地解决实际问题打开坚实基础。

關於作者：

曹如军，工学博士，温州大学计算机与人工智能学院副教授。主要研究方向为空间大数据。具有丰富的企业经历，开发或主持开发的项目或系统在业内有较好的口碑。

第1章大数据概述
1.1大数据的概念
1.2大数据的关键技术
1.3大数据计算模式
1.4本书内容介绍
1.5Linux虚拟机的安装与使用
1.5.1安装环境
1.5.2安装VirtualBox
1.5.3安装虚拟机系统Ubuntu
1.5.4Linux命令
1.5.5主机与虚拟机交互
第2章Scala基础
2.1Scala概述
2.1.1Scala简介
2.1.2Scala安装
2.1.3Scala使用基础
2.2Scala初步
2.2.1初识Scala REPL
2.2.2变量定义
2.2.3Scala REPL中的多行输入
2.2.4函数定义
2.3Scala基本数据类型与操作
2.3.1基本数据类型
2.3.2操作符
2.3.3运算的优先级与结合性
2.3.4富操作(Rich Operations)
2.4控制结构
2.4.1if表达式
2.4.2while循环
2.4.3for表达式
2.4.4match表达式
2.4.5try表达式(异常处理)
2.5Scala常用数据结构
2.5.1序列数
2.5.2数组
2.5.3列表
2.5.4元组
2.5.5集合
2.5.6映射
2.6函数式编程
2.7Scala类与对象
2.7.1类、字段及方法
2.7.2单例对象
2.7.3样例类
2.8Scala应用程序

第3章Spark开发基础
3.1Spark概述
3.1.1Spark简介
3.1.2Spark架构设计
3.2Spark安装及部署
3.2.1安装Spark
3.2.2Spark部署方式
3.3配置Spark访问HDFS数据源
3.3.1Hadoop部署
3.3.2配置Spark访问HDFS
3.4使用Spark shell
3.4.1启动Spark shell
3.4.2使用Spark shell
3.4.3退出Scala Spark shell
3.4.4Spark shell常用选项
3.5Spark开发环境
3.5.1SBT
3.5.2IntelliJ IDEA
第4章Spark RDD编程
4.1RDD概述
4.2RDD编程基础
4.2.1环境初始化
4.2.2交互式编程
4.2.3一个简单的应用程序
4.3RDD常用操作
4.3.1转换
4.3.2动作
4.3.3函数参数传递
4.4键/值对RDD
4.5共享变量
4.5.1广播变量
4.5.2累加器
4.6文件数据读写
4.6.1从文件创建RDD
4.6.2保存RDD
4.7RDD程序例子
4.7.1词频统计WordCount
4.7.2文件合并
4.7.3求Top值
第5章Spark SQL编程
5.1Spark SQL基础
5.1.1概述
5.1.2Spark SQL架构
5.1.3一个简单的Spark SQL开发例子
5.2数据帧DataFrame
5.2.1DataFrame结构
5.2.2创建DataFrame
5.2.3DataFrame常用操作
5.2.4保存DataFrame
5.3数据集Dataset
5.3.1创建Dataset
5.3.2Dataset常用方法
5.4数据源
5.4.1通用load/save函数
5.4.2文件数据源
5.4.3Hive数据源
5.4.4SQL数据源
5.5安装关系数据库
5.5.1PostgreSQL
5.5.2MySQL Server
第6章Streaming编程
6.1流计算概述
6.1.1流计算背景
6.1.2流计算概念
6.1.3流计算框架
6.2Spark Streaming
6.2.1概述
6.2.2Spark Streaming简单示例
6.2.3Spark Streaming开发基础
6.2.4DStream常用操作
6.3Structured Streaming
6.3.1概述
6.3.2Structured Streaming简单示例
6.3.3编程模型
6.3.4DataFrame和Dataset数据流API
6.4Structured Streaming编程实践
6.4.1Kafka数据源准备
6.4.2Structured Streaming Kafka依赖包
6.4.3在Spark shell中连接Kafka
第7章Spark MLlib实践
7.1机器学习
7.1.1机器学习概述
7.1.2机器学习常用术语
7.1.3机器学习的应用
7.1.4机器学习的方法
7.1.5大数据与机器学习
7.2Spark MLlib
7.2.1Spark机器学习概述
7.2.2MLlib概述
7.2.3MLlib机器学习管道
7.3MLlib初级实践
7.3.1数据准备
7.3.2创建训练集与测试集
7.3.3使用转换器准备特征
7.3.4使用估计器构建模型
7.3.5创建管道
7.3.6评估模型
7.4超参数调优
7.4.1基于树的模型
7.4.2k折交叉验证
7.4.3管道优化
参考文献

內容試閱：

党的二十大报告中指出：教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑。必须坚持科技是第一生产力、人才是第一资源、创新是第一动力，深入实施科教兴国战略、人才强国战略、创新驱动发展战略，这三大战略共同服务于创新型国家的建设。高等教育与经济社会发展紧密相连，对促进就业创业、助力经济社会发展、增进人民福祉具有重要意义。
当前正处于大数据时代。数据已经渗透到当今的各个行业、各个领域，成为重要的生产要素。大数据已成为近年来最热门的技术趋势之一。大数据技术相关领域获得的投资呈爆炸式增长，一些与大数据有关的项目也成为最活跃的开源项目。Apache Spark就是其中的优秀代表之一。
本书作为Spark应用开发的基础指导书，尽力将一些复杂的、难以理解的概念、原理直观化、简单化，让刚刚接触大数据开发的读者能够轻松理解并快速掌握。针对Spark应用开发中最常用、最重要的知识点，本书从工程实践的角度进行深入分析，引导读者结合实际，从解决大数据应用场景实际问题的角度，用简单、直接、高效的(思想)方法或工具解决具体问题。另外，结合作者多年的程序开发经验，本书也对Spark应用开发中的注意事项给出了合理的建议。这些内容主要以提示、建议或注意等形式呈现。这些中肯建议不仅对Spark应用开发有一定参考价值，对其他类似项目的实际开发也有借鉴意义。
由于大数据相关技术、软件平台等更新迭代较快，因此本书在介绍相关内容时，尽量选择较新的软件版本。本书所介绍的Spark API基于Spark 3．3．x，相较于Spark 2．x或其他更早版本，部分API有更新，请读者注意版本变化带来的差异。开发Spark的主要编程语言Scala，经过多年发展已经迭代更新了若干不同版本，其中不少版本存在一定的兼容性问题，也请读者注意。截至本书成稿时，Spark尚未发行基于Scala 3．x的版本。因此，本书选用了相对较新又相对成熟稳定的Scala 2．13．x版本(Spark3．3．xScala2．13．x)。关于Spark(或Scala)的运行环境JVM，本书也选用较新的长期支持版Java 17。另外，本书中涉及的其他软件，基本是成稿时最(较)新的稳定版本，如Hadoop 3．3．4、Kafka 3．3．1等。
Spark提供了Scala、Java、Python、R等编程语言的API。相对而言，基于Scala的API开发，代码的执行效率更高，并且学习过程相对容易，代码工作量也相对较少。由于Scala编程语言的用户群体数量少于C、C 、Java、Python等语言，所以本书介绍了Scala基础知识，以便读者能快速理解后续的Spark开发过程或示例代码。
本书为Spark应用开发提供编程指导，涉及的主要内容包括Spark开发基础知识、RDD编程、SQL编程、Streaming开发及机器学习开发等。Spark官方指南推荐的开发接口是基于Spark SQL引擎的Dataset/DataFrame API，而基于RDD的API大多处于维护模式(不添加新功能)，但RDD的概念对理解Spark的构架体系、理解Spark的优化过程等都很有帮助，因此本书也包括了RDD开发的部分内容。限于篇幅，本书不包括Spark图处理算法GraphX开发的部分内容，有需要的读者请参考其他相关资料。
在阅读本书之前，如果有一定的大数据基础知识(如了解一些基本概念和技术，了解部分大数据软件或框架)，那么对阅读本书是有帮助的；同时，一定的编程基础(如Java、C/C 编程知识)也有助于Spark编程的实践过程。本书作为Spark编程的基础指导书，尽量保持内容的自洽性，即使没有前述的相关知识，也可以顺利完成本书内容的阅读。
Spark应用开发作为一项编程实践活动，建议读者在阅读本书的过程中一定要亲自动手实践。如果在实践过程中遇到困难，建议多查文档、多读资料，分析问题发生的原因，从表象溯本原，然后亲自动手解决问题。当前网络上的各类资源非常多，良莠不齐，建议读者基于问题表象去阅读官方用户手册或指南。作为优秀开源项目，Spark(及类似项目，如Kafka等)的文档资料非常全面、翔实(但没有中文版手册)，也非常容易获得(随时在线，联网即可访问)。本书配套的数据、示例代码、教学大纲等可以扫描下方二维码下载。
最后，希望本书对读者学习Spark应用开发有所帮助，并恳请读者对书中存在的错误或疏漏予以批评指正，也欢迎读者对本书或大数据开发等有关内容与作者交流、讨论。

曹如军
2023年10月

教学大纲

源码

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.