登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』循序渐进学Spark

書城自編碼: 2985739
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作者: 小象学院 杨磊
國際書號(ISBN): 9787111563327
出版社: 机械工业出版社
出版日期: 2017-04-01
版次: 1 印次: 1

書度/開本: 16开 釘裝: 平装

售價:NT$ 425

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
写意兰竹树石课徒稿
《 写意兰竹树石课徒稿 》

售價:NT$ 515.0
不较真的心理智慧
《 不较真的心理智慧 》

售價:NT$ 279.0
漫画算法与数据结构(大规模数据集)
《 漫画算法与数据结构(大规模数据集) 》

售價:NT$ 447.0
欧洲的扩张1415—1789:现代世界的奠基
《 欧洲的扩张1415—1789:现代世界的奠基 》

售價:NT$ 829.0
引导的秘诀:通过团队合作获得结果的SMART指南(最新修订版)(白金版)
《 引导的秘诀:通过团队合作获得结果的SMART指南(最新修订版)(白金版) 》

售價:NT$ 554.0
文史星历:秦汉史丛稿
《 文史星历:秦汉史丛稿 》

售價:NT$ 661.0
神灵衰落:祈雨与乾隆朝的信仰危机
《 神灵衰落:祈雨与乾隆朝的信仰危机 》

售價:NT$ 498.0
深度营销:成就营销领导力的12大原则(麦肯锡年度经管好书,12大原则揭秘营销本质,带好团队就是从领导力到影响力!)
《 深度营销:成就营销领导力的12大原则(麦肯锡年度经管好书,12大原则揭秘营销本质,带好团队就是从领导力到影响力!) 》

售價:NT$ 325.0

建議一齊購買:

+

NT$ 1210
《 深度学习 》
+

NT$ 468
《 Spark:大数据集群计算的生产实践 》
+

NT$ 569
《 网络爬虫全解析——技术、原理与实践 》
+

NT$ 368
《 Spark最佳实践 》
+

NT$ 518
《 Scala函数式编程 》
+

NT$ 443
《 Spark大数据分析实战 》
內容簡介:
这是一本引导读者深度学习Spark的技术指南。它由国内具实力的大数据在线教育机构小象学院组织撰写,旨在用合理的结构和精炼的内容让读者用短的时间掌握Spark技术的核心内容。第1章和第2章分别讲解了Spark的开发环境和编程模型;第3章分析了Spark的工作机制和原理;第4章则结合源代码分析了Spark的内核架构和实现原理;第5章讲解了Spark与YARN的结合应用;第6章介绍了Spark生态中其他模块的功能和使用;第7章总结了Spark性能调优方面的技巧和方法;第8章描述了Spark2.0发布后,其模块API的变化以及新增的功能特性。
目錄
目录?Contents
前 言
第1章 Spark架构与集群环境1
1.1 Spark概述与架构1
1.1.1 Spark概述2
1.1.2 Spark生态3
1.1.3 Spark架构5
1.2 在Linux集群上部署Spark8
1.2.1 安装OpenJDK9
1.2.2 安装Scala9
1.2.3 配置SSH免密码登录10
1.2.4 Hadoop的安装配置10
1.2.5 Spark的安装部署13
1.2.6 Hadoop与Spark的集群复制14
1.3 Spark 集群试运行15
1.4 Intellij IDEA的安装与配置17
1.4.1 Intellij的安装17
1.4.2 Intellij的配置17
1.5 Eclipse IDE的安装与配置18
1.6 使用Spark Shell开发运行Spark程序19
1.7 本章小结20
第2章 Spark 编程模型21
2.1 RDD弹性分布式数据集21
2.1.1 RDD简介22
2.1.2 深入理解RDD22
2.1.3 RDD特性总结24
2.2 Spark程序模型25
2.3 Spark算子26
2.3.1 算子简介26
2.3.2 Value型Transmation算子27
2.3.3 Key-Value型Transmation算子32
2.3.4 Action算子34
2.4 本章小结37
第3章 Spark机制原理38
3.1 Spark应用执行机制分析38
3.1.1 Spark应用的基本概念38
3.1.2 Spark应用执行机制概要39
3.1.3 应用提交与执行41
3.2 Spark调度机制42
3.2.1 Application的调度42
3.2.2 job的调度43
3.2.3 stage(调度阶段)和TasksetManager的调度46
3.2.4 task的调度50
3.3 Spark存储与IO52
3.3.1 Spark存储系统概览52
3.3.2 BlockManager中的通信54
3.4 Spark通信机制54
3.4.1 分布式通信方式54
3.4.2 通信框架AKKA56
3.4.3 Client、Master和Worker之间的通信57
3.5 容错机制及依赖65
3.5.1 Lineage(血统)机制66
3.5.2 Checkpoint(检查点)机制68
3.6 Shuffle机制70
3.6.1 什么是Shuffle70
3.6.2 Shuffle历史及细节72
3.7 本章小结78
第4章 深入Spark内核79
4.1 Spark代码布局79
4.1.1 Spark源码布局简介79
4.1.2 Spark Core内模块概述80
4.1.3 Spark Core外模块概述80
4.2 Spark执行主线[RDDTask]剖析80
4.2.1 从RDD到DAGScheduler81
4.2.2 从DAGScheduler到TaskScheduler82
4.2.3 从TaskScheduler到Worker节点88
4.3 Client、Master和Worker交互过程剖析89
4.3.1 交互流程概览89
4.3.2 交互过程调用90
4.4 Shuffle触发96
4.4.1 触发Shuffle Write96
4.4.2 触发Shuffle Read98
4.5 Spark存储策略100
4.5.1 CacheManager职能101
4.5.2 BlockManager职能105
4.5.3 DiskStore与DiskBlock--Manager类113
4.5.4 MemoryStore类114
4.6 本章小结117
第5章 Spark on YARN118
5.1 YARN概述118
5.2 Spark on YARN的部署模式121
5.3 Spark on YARN的配置重点125
5.3.1 YARN的自身内存配置126
5.3.2 Spark on YARN的重要配置127
5.4 本章小结128
第6章 BDAS 生态主要模块129
6.1 Spark SQL129
6.1.1 Spark SQL概述130
6.1.2 Spark SQL的架构分析132
6.1.3 Spark SQL如何使用135
6.2 Spark Streaming140
6.2.1 Spark Streaming概述140
6.2.2 Spark Streaming的架构分析143
6.2.3 Spark Streaming编程模型145
6.2.4 数据源Data Source147
6.2.5 DStream操作149
6.3 SparkR154
6.3.1 R语言概述154
6.3.2 SparkR简介155
6.3.3 DataFrame创建156
6.3.4 DataFrame操作158
6.4 MLlib on Spark162
6.4.1 机器学习概述162
6.4.2 机器学习的研究方向与问题164
6.4.3 机器学习的常见算法167
6.4.4 MLlib概述210
6.4.5 MLlib架构212
6.4.6 MLlib使用实例电影推荐214
6.5 本章小结220
第7章 Spark调优221
7.1 参数配置221
7.2 调优技巧223
7.2.1 序列化优化223
7.2.2 内存优化224
7.2.3 数据本地化228
7.2.4 其他优化考虑229
7.3 实践中常见调优问题及思考230
7.4 本章小结231
第8章 Spark 2.0.0232
8.1 功能变化232
8.1.1 删除的功能232
8.1.2 Spark中发生变化的行为233
8.1.3 不再建议使用的功能233
8.2 Core以及Spark SQL的改变234
8.2.1 编程API234
8.2.2 多说些关于SparkSession234
8.2.3 SQL236
8.3 MLlib237
8.3.1 新功能237
8.3.2 速度扩展性237
8.4 SparkR238
8.5 Streaming238
8.5.1 初识结构化Streaming238
8.5.2 结构化Streaming编程模型239
8.5.3 结果输出240
8.6 依赖、打包242
8.7 本章小结242
內容試閱
Preface?前言Spark诞生于美国加州大学伯克利分校AMP实验室。随着大数据技术在互联网、金融等领域的突破式进展,Spark在近些年得到更为广泛的应用。这是一个核心贡献者超过一半为华人的大数据平台开源项目,且正处于飞速发展、快速成熟的阶段。
为什么写这本书Spark已经成为大数据计算、分析领域新的热点和发展方向。相对于Hadoop传统的MapReduce计算模型,Spark提供更为高效的计算框架以及更为丰富的功能,因此在大数据生产应用领域中不断攻城略地,势如破竹。
与企业不断涌现的对大数据技术的需求相比,大数据人才还存在很大缺口,对大数据技术充满期许的新人正在源源不断地加入这个领域。在小象学院的教学实践过程中,我们发现,一本能完整系统地介绍Spark各模块原理并兼顾使用实战的书,对于初入大数据领域的技术人员至关重要。于是,我们根据日常积累的经验,著成本书。
Spark作为一个高速发展的开源项目,最近也发布了全新的Spark 2.0版本。对于Spark 2.0版本的新特性,我们也专门给予描述,以期将最前沿的Spark技术奉献给读者。
本书面向的读者Spark初学者Spark应用开发人员Spark运维人员大数据技术爱好者如何阅读本书本书共分8章:
第1章介绍了Spark大数据处理框架的基本概念、主要组成部分、基本架构,以及Spark集群环境搭建和Spark开发环境的构建方法。
第2章引入Spark编程中的核心RDD弹性分布式数据集,以典型的编程范例,讲解基于RDD的算子操作。
第3章主要讲述了Spark的工作机制与原理,剖析了Spark的提交和执行时的具体机制,重点强调了Spark程序的宏观执行过程。此外,更深入地剖析了Spark的存储及IO、通信机制、容错机制和Shuffle机制。
第4章对Spark的代码布局做了宏观介绍,并对Spark的执行主线进行详细剖析,从代码层面详细讲述RDD是如何落地到Worker上执行的。同时,本章从另一个角度分析了Client、Master与Worker之间的交互过程,深入讲述了Spark的两个重要功能点及Spark Shuffle与Spark存储机制。
第5章介绍了YARN的基本原理及基于YARN的Spark程序提交,并结合从程序提交到落地执行的过程,详细介绍了各个阶段的资源管理和调度职能。在本章的后半部分,主要从资源配置的角度对YARN及基于YARN的Spark做了较为详细的介绍。
第6章一一讲解了BDAS中的主要模块。由Spark SQL开始,介绍了Spark SQL及其编程模型和DataFrame。接着深入讲解Spark生态中用于流式计算的模块Spark Streaming。之后,讲解了Spark R的基本概念及操作。 最后针对机器学习的流行趋势,重点介绍了Spark MLlib的架构及编程应用,以及机器学习的基本概念和基本算法。
第7章首先详细叙述了Spark调优的几个重要方面,接着给出了工业实践中常见的一些问题,以及解决问题的常用策略,最后启发读者在此基础上进一步思考和探索。
第8章描述了Spark 2.0.0发布之后,Spark Core、Spark SQL、MLlib、Spark Streaming、Spark R等模块API的变化以及新增的功能特性等。对于变化较大的Spark SQL,书中用实际的代码样例更详细地说明和讲解了SparkSession、结构化Streaming等新特性。
对于Spark的初学者或希望从零开始详细了解Spark技术的读者,请从第1章开始通读全书;对于有一定Spark基础的研究者,可从第4章开始阅读;如果只想了解Spark最基本的原理,阅读第1~3章即可。
资源和勘误本书大量资源来源于小象学院专家团队在大数据项目开发以及Spark教学课程中的经验积累。本书内容的撰写也参考了大量官方文档(http:spark.apache.org)。
由于Spark技术正在飞速发展,加之笔者水平有限,书中难免存在谬误,也可能存在若干技术细节描述不详尽之处,恳请读者批评指正。欢迎大家关注微信服务号小象学院,把您的意见或者建议反馈给我们。
致谢首先应该感谢Apache Spark的开源贡献者们,Spark是当今大数据领域伟大的开源项目之一,没有这一开源项目,便没有本书。
本书以小象学院git项目方式管理。感谢姜冰钰、陈超、冼茂源等每一位内容贡献者,感谢他们花费大量时间,将自己对Spark的理解加上在实际工作、学习过程中的体会,融汇成丰富的内容。
感谢本书的审阅者樊明璐、杨福川、李艺,他们对本书的内容和结构提供了非常宝贵的意见。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.