共计 577 个字符,预计需要花费 2 分钟才能阅读完成。
这篇文章主要介绍“Spark 提供了哪些 RDD”,在日常操作中,相信很多人在 Spark 提供了哪些 RDD 问题上存在疑惑,丸趣 TV 小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Spark 提供了哪些 RDD”的疑惑有所帮助!接下来,请跟着丸趣 TV 小编一起来学习吧!
深入 RDD
RDD 本身是一个抽象类,具有很多具体的实现子类:
RDD 都会基于 Partition 进行计算:
默认的 Partitioner 如下所示:
其中 HashPartitioner 的文档说明如下:
另外一种常用的 Partitioner 是 RangePartitioner:
RDD 在持久化的需要考虑内存策略:
Spark 提供很多 StorageLevel 可供选择:
于此同时 Spark 提供了 unpersistRDD:
对 RDD 本身还有一个非常重要的 CheckPoint 操作:
其中 doCheckpoint 的细节如下:
以 NewHadoopRDD 为例,其内部的信息如下所示:
以 WholeTextFileRDD 为例,其内部的信息如下所示:
RDD 在产生作业调用的时候,经典的过程如下所示:
到此,关于“Spark 提供了哪些 RDD”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注丸趣 TV 网站,丸趣 TV 小编会继续努力为大家带来更多实用的文章!