TextFile分区问题怎么理解

151次阅读

共计 641 个字符，预计需要花费 2 分钟才能阅读完成。

这篇文章主要介绍“TextFile 分区问题怎么理解”，在日常操作中，相信很多人在 TextFile 分区问题怎么理解问题上存在疑惑，丸趣 TV 小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”TextFile 分区问题怎么理解”的疑惑有所帮助！接下来，请跟着丸趣 TV 小编一起来学习吧！

val rdd1 = sc.parallelize(List(2,3,4,1,7,5,6,9,8))
获取分区的个数:rdd1.partitions.length, 在 spark-shell 中没有指定分区的个数获取的是默认分区数, 除了这个外 parallelize 方法可以使用, 指定几个分区就会有几个分区出现

val rdd1 = sc.textFile(hdfs://hadoop02:8020/word.txt ,3).flatMap _.split()).map((_,1)).reduceByKey(_+_)
textFile 这个方法是有默认值就是 2 除非改变 loacl 中的即默认值这个只要这个默认值小于 2 的话会使用小于默认的值

这个默认属性是有值的 defaultMinPartitions

如果在 textfile 中传入了分区数, 那么这个分区数可能相同也可能不同需要看底层计算!