怎样理解MapReduce中shuffle

102次阅读

共计 950 个字符，预计需要花费 3 分钟才能阅读完成。

怎样理解 MapReduce 中 shuffle，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

概念解释：

shuffle：简单的名称称为混洗。事实上 shuffle 是一个非常非常简单的概念。简单点来说就是洗牌。

shuffle：按照固定的规则，就【key，value】而言。

前提

由于之前一直都是使用的 Hadoop1，并未使用 Hadoop Yarn，所以有关 shuffle 的机制，还请参考最新的底层 API

1：不管是在 Map 端，还是 Reduce 端，不管是 Hadoop MapReduce 还是 Storm。对于数据的内部处理，很多时候都需要

对于是底层的内存和磁盘做出一个合理的取舍。

Map 端：

1：数据并不是简单的把他直接的写到了磁盘，这个过程比较复杂，他利用了缓冲的方式写到了内存，并且出于效率上的考虑，进行了预排序。

2：每一个默认的 Map 任务都会有一个环形的缓存区。这个缓存区用来持有 Map 的输出，我印象中是 100M 左右，一旦达到的固定的必烈，那么就会把内容写到磁盘之中，在写磁盘的过程之中，Map 输出继续被写入到缓冲区。

3：在写入到缓存区之前，会将这个数据进行一次分区和排序（这个分区和排序将会按照 reduce 的对应关系来生成）

4：关于这个分区的数据将通过 Http 的协议来传递给 Reduce 端。

Reduce 端：

Reduce 端口的第一个阶段是：copy 阶段，也就是说我们需要把数据从 Map 端口 copy 到 Reduce 端口。如果 Map 的端口输出相当的小，那么就会被复制到 Reduce 端。

其次：在拉取到数据之后，我们将进入到了：排序的阶段。 sort phase 阶段，更恰当的来说，是一个合并的阶段，因为排序的阶段已经在 Map 端口完成了。只需要在 reduce 端合并就可以了

对于 MapReduce，之前我也是能实现类 qq 圈子算法，对于算法，我也是整本算法导论的人。而，如今却忘的一干二净。记忆会消失，不需要的事物会遗忘。

看完上述内容，你们掌握怎样理解 MapReduce 中 shuffle 的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注丸趣 TV 行业资讯频道，感谢各位的阅读！

正文完

发表至：计算机运维

2023-08-25

转载说明：除特殊说明外本站除技术相关以外文章皆由网络搜集发布，转载请注明出处。

postgresql开发中可能有用的知识有哪些