Spark提供了哪些RDD

67次阅读
没有评论

共计 577 个字符,预计需要花费 2 分钟才能阅读完成。

这篇文章主要介绍“Spark 提供了哪些 RDD”,在日常操作中,相信很多人在 Spark 提供了哪些 RDD 问题上存在疑惑,丸趣 TV 小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Spark 提供了哪些 RDD”的疑惑有所帮助!接下来,请跟着丸趣 TV 小编一起来学习吧!

深入 RDD

RDD 本身是一个抽象类,具有很多具体的实现子类:

RDD 都会基于 Partition 进行计算:

默认的 Partitioner 如下所示:

其中 HashPartitioner 的文档说明如下:

另外一种常用的 Partitioner 是 RangePartitioner:

RDD 在持久化的需要考虑内存策略:

Spark 提供很多 StorageLevel 可供选择:

于此同时 Spark 提供了 unpersistRDD:

对 RDD 本身还有一个非常重要的 CheckPoint 操作:

其中 doCheckpoint 的细节如下:

以 NewHadoopRDD 为例,其内部的信息如下所示:

Spark 提供了哪些 RDD

以 WholeTextFileRDD 为例,其内部的信息如下所示:

Spark 提供了哪些 RDD

RDD 在产生作业调用的时候,经典的过程如下所示:

Spark 提供了哪些 RDD

到此,关于“Spark 提供了哪些 RDD”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注丸趣 TV 网站,丸趣 TV 小编会继续努力为大家带来更多实用的文章!

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-16发表,共计577字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)