Spark有哪些优点

182次阅读

共计 2794 个字符，预计需要花费 7 分钟才能阅读完成。

这篇文章主要介绍“Spark 有哪些优点”，在日常操作中，相信很多人在 Spark 有哪些优点问题上存在疑惑，丸趣 TV 小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Spark 有哪些优点”的疑惑有所帮助！接下来，请跟着丸趣 TV 小编一起来学习吧！

一、MapReduce 已死，Spark 称霸

由于 Hadoop 的 MapReduce 高延迟的死穴，导致 Hadoop 无力处理很多对时间有要求的场景，人们对其批评越来越多，Hadoop 无力改变现在而导致正在死亡。正如任何领域一样，死亡是一个过程，Hadoop 正在示例这样的一个过程，Hadoop 的死亡过程在 2012 年已经开始

1，原先支持 Hadoop 的四大商业机构纷纷宣布支持 Spark；

2，Mahout 前一阶段表示从现在起他们将不再接受任何形式的以 MapReduce 形式实现的算法，另外一方面，Mahout 宣布新的算法基于 Spark；

3，Cloudera 的机器学习框架 Oryx 的执行引擎也将由 Hadoop 的 MapReduce 替换成 Spark；

4，Google 已经开始将负载从 MapReduce 转移到 Pregel 和 Dremel 上；

5，FaceBook 则将负载转移到 Presto 上；

现在很多原来使用深度使用 Hadoop 的公司都在纷纷转向 Spark，国内的淘宝是典型的案例。在此，我们以使用世界上使用 Hadoop 最典型的公司 Yahoo！为例，大家可以看一下其数据处理的架构图：

而使用 Spark 后的架构如下：

大家可以看出，现阶段的 Yahoo！是使用 Hadoop 和 Spark 并存的架构，而随着时间的推进和 Spark 本身流处理、图技术、机器学习、NoSQL 查询的出色特性，最终 Yahoo！可能会完成 Spark 全面取代 Hadoop，而这也代表了所有做云计算大数据公司的趋势。

或许有朋友会问，Hadoop 为何不改进自己？

其实，Hadoop 社区一直在改进 Hadoop 本身，但事实是无力回天：

1，Hadoop 的改进基本停留在代码层次，也就是修修补补的事情，这就导致了 Hadoop 现在具有深度的“技术债务”，负载累累；

2，Hadoop 本身的计算模型决定了 Hadoop 上的所有工作都要转化成 Map、Shuffle 和 Reduce 等核心阶段，由于每次计算都要从磁盘读或者写数据，同时真个计算模型需要网络传输，这就导致了越来越不能忍受的延迟性，同时在前一个任务运行完之前，任何一个任务都不可以运行，这直接导致了其无力支持交互式应用；

那么，为什么不全部重新写一个更好的 Hadoop 呢? 答案是 Spark 的出现使得没有必要这样做了。

Spark 是继 Hadoop 之后，成为替代 Hadoop 的下一代云计算大数据核心技术，目前 SPARK 已经构建了自己的整个大数据处理生态系统，如流处理、图技术、机器学习、NoSQL 查询等方面都有自己的技术，并且是 Apache 顶级 Project，可以预计的是 2014 年下半年到 2015 年在社区和商业应用上会有爆发式的增长。

国外一些大型互联网公司已经部署了 Spark。甚至连 Hadoop 的早期主要贡献者 Yahoo 现在也在多个项目中部署使用 Spark；国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经使用 Spark 技术用于自己的商业生产系统中，国内外的应用开始越来越广泛。Spark 正在逐渐走向成熟，并在这个领域扮演更加重要的角色。

二、企业为什么需要 Spark；

1，现在很多原来使用深度使用 Hadoop 的公司都在纷纷转向 Spark，国内的淘宝是典型的案例。在此，我们以使用世界上使用 Hadoop 最典型的公司 Yahoo！为例，大家可以看一下其数据处理的架构图：

而使用 Spark 后的架构如下：

大家可以看出，现阶段的 Yahoo！是使用 Hadoop 和 Spark 并存的架构，而随着时间的推进和 Spark 本身流处理、图技术、机器学习、NoSQL 查询的出色特性，最终 Yahoo！可能会完成 Spark 全面取代 Hadoop，而这也代表了所有做云计算大数据公司的趋势。

2，Spark 是可以革命 Hadoop 的目前唯一替代者，能够做 Hadoop 做的一切事情，同时速度比 Hadoop 快了 100 倍以上：

Logistic regression in Hadoop and Spark

可以看出在 Spark 特别擅长的领域其速度比 Hadoop 快 120 倍以上！

,3，原先支持 Hadoop 的四大商业机构纷纷宣布支持 Spark，包含知名 Hadoop 解决方案供应商 Cloudera 和知名的 Hadoop 供应商 MapR；

4，Spark 是继 Hadoop 之后，成为替代 Hadoop 的下一代云计算大数据核心技术，目前 SPARK 已经构建了自己的整个大数据处理生态系统，如流处理、图技术、机器学习、NoSQL 查询等方面都有自己的技术，并且是 Apache 顶级 Project，可以预计的是 2014 年下半年到 2015 年在社区和商业应用上会有爆发式的增长。

5，国外一些大型互联网公司已经部署了 Spark。甚至连 Hadoop 的早期主要贡献者 Yahoo 现在也在多个项目中部署使用 Spark；国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经使用 Spark 技术用于自己的商业生产系统中，国内外的应用开始越来越广泛。Spark 正在逐渐走向成熟，并在这个领域扮演更加重要的角色。

6，不得不提的是 Spark 的“One stack to rule them all”的特性，Spark 的特点之一就是用一个技术堆栈解决云计算大数据中流处理、图技术、机器学习、交互式查询、误差查询等所有的问题

7，Mahout 前一阶段表示从现在起他们将不再接受任何形式的以 MapReduce 形式实现的算法，另外一方面，Mahout 宣布新的算法基于 Spark；

8，如果你已经使用了 Hadoop，就更加需要 Spark。Mahout 前一阶段表示从现在起他们将不再接受任何形式的以 MapReduce 形式实现的算法，另外一方面，Mahout 宣布新的算法基于 Spark，同时，这几年来，Hadoop 的改进基本停留在代码层次，也就是修修补补的事情，这就导致了 Hadoop 现在具有深度的“技术债务”，负载累累；

8，，此时我们只需要一个技术团队通过 Spark 就可以搞定一切问题，而如果基于 Hadoop 就需要分别构建实时流处理团队、数据统计分析团队、数据挖掘团队等，而且这些团队之间无论是代码还是经验都不可相互借鉴，会形成巨大的成本，而使用 Spark 就不存在这个问题；

9，百亿美元市场，教授为之辞职，学生为止辍学，大势所趋！

10，Life is short！

到此，关于“Spark 有哪些优点”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注丸趣 TV 网站，丸趣 TV 小编会继续努力为大家带来更多实用的文章！

正文完