大数据中五种开源处理技术分别是什么

125次阅读

共计 3514 个字符，预计需要花费 9 分钟才能阅读完成。

大数据中五种开源处理技术分别是什么，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

你知道么，在现在的市场上超过 25 万个开源技术出现了。围绕在我们身边，这些越来越复杂的系统，就像我们看到的这样，看如下图表：

在最少选择的情况下我们还是有很多选择的机会。哪些是你的目标? 哪些是 2000 家公司接下来的财富? 哪些项目是可以在真正的产品阶段使用的作为可靠的候选? 哪些应该受到特别关注呢? 我们做了详细的研究和测试，让我们一起看下 5 种新的撼动大数据的技术。这些是整理的几组新的工具，让我们一起来看看吧。

Storm 和 Kafka 是未来数据流处理的主要方式，它们已经在一些大公司中使用率饿，包括 Groupon, 阿里巴巴和 The Weather Channel 等。Storm, 诞生于 Twitter, 是一个分布式实时计算系统。Storm 设计用于处理实时计算,hadoop 主要用于处理批处理运算。

kafka 是由 LinkedIn 研发的一款消息系统作为一个数据处理的管道基础部分存在于系统中。当你一起使用它们，你就能实时地和线性递增的获取数据。

你为什么需要关心?

使用 Storm 和 Kafka, 使得数据流处理线性的，确保每条消息获取都是实时的，可靠的。前后布置的 Storm 和 Kafka 能每秒流畅的处理 10000 条数据。

像 Storm 和 Kafka 这样的数据流处理方案使得很多企业引起关注并想达到优秀的 ETL(抽取转换装载)的数据集成方案。Storm 和 Kafka 也很擅长内存分析和实时决策支持。企业使用批量处理的 Hadoop 方案无法也难怪对实时的业务需求。在企业的大数据解决方案中实时数据流处理是一个必要的模块，因为它很优美的处理了“3v”ndash;volume,velocity 和 variety (容量，速率和多样性)。Storm 和 Kafka 这 2 种技术是我们 (infochimps) 最推荐的技术，它们也将作为一个正式组成部分存在于我们的平台中。Drill 和 Dremel 实现了快速低负载的大规模，即席查询数据搜索。它们提供了秒级搜索 P 级别数据的可能，来应对即席查询和预测，及提供强大的虚拟化支持。

Drill 和 Dremel 提供强大的业务处理能力，不仅仅只是为数据工程师提供。业务端的大家都将喜欢 Drill 和 Dremel.Drill 是 Google 的 Dremel 的开源版本。Dremel 是 Google 提供的支持大数据查询的技术。公司将用它来开发自己的工具，这些是导致大家都密切的关注 Drill 的原因。虽然这些不是起步，但是开源社区强烈的兴趣使得它变得更成熟。

为什么你应该关心?

Drill 和 Dremel 相比 Hadoop 更好的分析即席查询。Hadoop 仅仅提供批量的数据处理工作流，这些也是缺点。

Hadoop 生态圈使得 MapReduce 作为一个很亲切有利的工具应用于广告分析。从 Sawzall 到 Pig 到 Hive, 很多接口层应用的建立使得 Hadoop 更为友好，更接近业务，但是，像 SQL 体系，这些抽象层忽略一个重要的事实 ndash;MapReduce(或 Hadoop)是为了系统化数据处理流程而存在的。如果你不担心跑的哪些任务? 如果你不关心这些产生的问题和去寻求答案，那就保持沉默, 保持洞察力。“即席探索”mdash; 如果你已经承担数据处理，你这么优化处理的速度? 你不应该运行一个新的任务或者是等待，有时候考虑的时间还不如在问个新的问题。

在堆对比的工作流基础的方法论中，很多业务驱动的 BI 和分析查询都是很基本的和临时交互的，低延时分析。写 Map/Reduce 工作流在很多业务分析中是被禁止的。等待几分钟等 Jobs 启动，在等几个小时等执行完成这些无溢于数据的交互体验，这些对比，和缩放比较最终产生了基本的新的视野。一些数据科学家早已经推测 Drill 和 Dremel 将优于 Hadoop，并达成共识，也有一些还在考虑中，还有少部分的狂热者立即拥抱变化，但是这些是主要的优点在更面向查询的和低延时的情况下。在 Infochimps 我们喜欢使用 Elasticsearch 全文索引引擎来实现数据库的数据搜索，但是真的在大数据处理中我们认为 Drill 将成为主流。

R 是开源的强大的统计编程语言。自 1997 年以来，超过 200 万的统计分析师使用 R。这是一门诞生自贝尔实验室的在统计计算领域的现代版的 S 语言并迅速地成为了新的标准的统计语言。R 使得复杂的数据科学变得更廉价。R 是 SAS 和 SPASS 的重要的领头者，并作为 *** 秀的统计师的重要工具。

为什么你应该关心?

因为它有一个非凡强大的社区在支持着，你可以找到所有的 R 的类库，创建虚拟的各类型的科学数据而不用新写代码。R 之所以令人兴奋是因为维护他的人和新的每天的创造。R 社区是大数据领域令人兴奋的地方之一。R 在大数据领域是一个超棒的不会过时的技术。在最近的几个月里，几千个新特性被日益公开的知识基础为主的分析类型的分析师们介绍. 而且，R 和 Hadoop 协同的很好，作为一个大数据的处理的部分已经被证明了。保持关注：Julia，是一个有趣的 R 的替代者，因为它不喜欢 R 的死慢死慢的解释器。Julia 的社区虽然不怎么强大现在，但是如果你不是立即使用它的话，还是可以等等的。Gremlin 和 Giraph 帮助增强图形分析，并在图数据库像 Neo4j 和 InfiniteGraph 中被使用，和与 Hadoop 协同工作的 Giraph 中被使用。Golden Orb 是另一个高层面的流处理的图基础的项目的例子。可以看看。图数据库是富有魅力的边缘化的数据库。它们和关系型数据库相比，有着很多有趣的不同点，这个是当你在开始的时候总是想用图理论而不是关系型理论。

另一个类似的图基础的理论是 Google 的 Pregel, 相比来说 Gremlin 和 Giraph 是其的开源替代。实际上，这些都是 Google 技术的山寨实现的例子。图在计算网络建模和社会化网络方面发挥着重要作用，能够连接任意的数据。另外一个经常的应用是映射和地理信息计算。从 A 到 B 的地点，计算最短的距离。图在生物计算和物理计算领域也有广泛的应用，例如，他们能绘制不寻常的分子结构。海量的图，图数据库和分析语言和框架都是一种现实世界上实现大数据中的一部分。图基础的理论是一个杀手级的应用，为什么这么说? 任何一个解决大型网络节点问题，都是通过节点和节点之间的路径来处理的。很多富有创造力的科学家和工程师们，都很明白的用正确的工具来解决对应的问题。确保他们都能运行的漂亮并能被广泛传播。

SAP Hana 是一个全内存的分析平台，它包含了一个内存数据库和一些相关的工具软件用来创建分析流程和规范正确的格式来进行数据的输入输出。

为什么应该关心?

SAP 开始反对为固化的企业用户提高强大的产品，供开发免费使用。这个不仅仅是 SAP 开始为初创着想，让其使用 Hana。他们授权培养社区解决方案，这些不寻常的做法是围绕 Hana 的结果。

Hana 假设其他的程序处理时候还不够快的解决遇到的问题，例如，金融建模和决策支持，网站个性化和欺骗检测等等。Hana*** 的缺点是”全内存“这意味着访问软状态的内存，这个是很明确的有点，但是这个也是相比磁盘存储来说很昂贵的部分。据组织者说，不用担心操作成本，Hana 是快速的地延迟的大数据处理工具。

D3 本来不在列表中，但是它的亲切感，让我们认为有提它的价值。D3 是一个 javascript 面向文档的可视化的类库，。它强大的创新性的让我们能直接看到信息和让我们进行正常的交互。它的作者是 Michael Bostock 一个纽约时报的图形界面设计师。例如，你可以使用 D3 来从任意数量的数组中创建 H trade;l 表格。你能使用任意的数据来创建交互进度条等。这里是一个 D3 的实际例子，创建 2013 年奥巴马的民意情况。使用 D3，程序员能之间创建界面，组织所有的各种类型的数据。

虽然这篇文章不长，但是也费了我一段实际来翻译，翻译不足之处希望大家指正。其实看到这篇文章的时候，我就很想把它分享给喜欢它的人，得益于一个开放的环境，所以美国在 IT 领域总是这么的让人惊喜，当然我们也得跟上了。

开始正式的使用 Hadoop 已经有近一年的时间的了，这期间从百度出来，到初见在到现在的 BitWare，在不同的公司，用不同的技术解决问题。但是本质上遇到的问题总是那么几个，当然现在很多公司也开始尝鲜的使用 Hadoop 的了。这个是大环境是如此，可以理解。

看完上述内容，你们掌握大数据中五种开源处理技术分别是什么的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注丸趣 TV 行业资讯频道，感谢各位的阅读！

正文完