Spark提供了哪些RDD

110次阅读

共计 577 个字符，预计需要花费 2 分钟才能阅读完成。

这篇文章主要介绍“Spark 提供了哪些 RDD”，在日常操作中，相信很多人在 Spark 提供了哪些 RDD 问题上存在疑惑，丸趣 TV 小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Spark 提供了哪些 RDD”的疑惑有所帮助！接下来，请跟着丸趣 TV 小编一起来学习吧！

深入 RDD

RDD 本身是一个抽象类，具有很多具体的实现子类：

RDD 都会基于 Partition 进行计算：

默认的 Partitioner 如下所示：

其中 HashPartitioner 的文档说明如下：

另外一种常用的 Partitioner 是 RangePartitioner：

RDD 在持久化的需要考虑内存策略：

Spark 提供很多 StorageLevel 可供选择：

于此同时 Spark 提供了 unpersistRDD:

对 RDD 本身还有一个非常重要的 CheckPoint 操作：

其中 doCheckpoint 的细节如下：

以 NewHadoopRDD 为例，其内部的信息如下所示：

以 WholeTextFileRDD 为例，其内部的信息如下所示：

RDD 在产生作业调用的时候，经典的过程如下所示：

到此，关于“Spark 提供了哪些 RDD”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注丸趣 TV 网站，丸趣 TV 小编会继续努力为大家带来更多实用的文章！

正文完

发表至：计算机运维

2023-08-16

转载说明：除特殊说明外本站除技术相关以外文章皆由网络搜集发布，转载请注明出处。

Spark集群如何搭建