Spark RDD算子分为哪几类

159次阅读

没有评论

共计 7346 个字符，预计需要花费 19 分钟才能阅读完成。

本篇内容主要讲解“Spark RDD 算子分为哪几类”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让丸趣 TV 小编来带大家学习“Spark RDD 算子分为哪几类”吧!

RDD 算子分类，大致可以分为两类，即：

1. Transformation：转换算子，这类转换并不触发提交作业，完成作业中间过程处理。

2. Action：行动算子，这类算子会触发 SparkContext 提交 Job 作业。

一：Transformation：转换算子

1. map：

将原来 RDD 的每个数据项通过 map 中的用户自定义函数 f 映射转变为一个新的元素。源码中 map 算子相当于初始化一个 RDD，新 RDD 叫做 MappedRDD(this,sc.clean(f) )。即：

map 是对 RDD 中的每个元素都执行一个指定的函数来产生一个新的 RDD。任何原 RDD 中的元素在新 RDD 中都有且只有一个元素与之对应。

scala  val a = sc.parallelize(1 to 9, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[6] at parallelize at :27
scala  val b = a.map(x =  x*3)
b: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[7] at map at :29
scala  a.collect
res7: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) 
scala  b.collect
res8: Array[Int] = Array(3, 6, 9, 12, 15, 18, 21, 24, 27)

上述例子中把原 RDD 中每个元素都乘以 3 来产生一个新的 RDD。

2. mapPartitions：

mapPartitions 函数获取到每个分区的迭代器，在函数中通过这个分区整体的迭代器对整个分区的元素进行操作。内部实现是生成 MapPartitionsRDD。

scala  val a = sc.parallelize(1 to 9, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at :27
scala  a.collect
res11: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) 
scala  var c = a.mapPartitions( a= a.filter(_ =7) )
c: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[11] at mapPartitions at :29
scala  c.collect
res12: Array[Int] = Array(7, 8, 9)

上述例子是通过函数 filter 对分区中所有数据进行过滤。

3. mapValues

针对 (key,value) 型数据中的 Value 进行操作，而不对 Key 进行处理。即：

mapValues 顾名思义就是输入函数应用于 RDD 中 Kev-Value 的 Value，原 RDD 中的 Key 保持不变，与新的 Value 一起组成新的 RDD 中的元素。因此，该函数只适用于元素为 KV 对的 RDD。

scala  val a = sc.parallelize(List( Hadoop , HBase , Hive , Spark), 2)
a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[12] at parallelize at :27
scala  val b = a.map(x =  (x.length,x) )
b: org.apache.spark.rdd.RDD[(Int, String)] = MapPartitionsRDD[13] at map at :29
scala  b.mapValues(+_+).collect
res14: Array[(Int, String)] = Array((6,Hadoop), (5,HBase), (4,Hive), (5,Spark))

4. mapWith:

mapWith 是 map 的另外一个变种，map 只需要一个输入函数，而 mapWith 有两个输入函数。

eg: 把 partition index 乘以 10，然后加上 2 作为新的 RDD 的元素.(3 是将十个数分为三个区)

scala  val x = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10),3)
scala  x.mapWith( a =  a*10 )( (a,b)= (b+2)).collect
res16: Array[Int] = Array(2, 2, 2, 12, 12, 12, 22, 22, 22, 22)

5. flatMap：

将原来 RDD 中的每个元素通过函数 f 转换为新的元素，并将生成的 RDD 的每个集合中的元素合并为一个集合，内部创建 FlatMappedRDD(this,sc.clean() )。即：

与 map 类似，区别是原 RDD 中的元素经 map 处理后只能生成一个元素，而原 RDD 中的元素经 flatmap 处理后可生成多个元素来构建新 RDD。

eg：对原 RDD 中的每个元素 x 产生 y 个元素（从 1 到 y，y 为元素 x 的值）。

scala  val a = sc.parallelize(1 to 4,2)
scala  val b = a.flatMap(x =  1 to x )
scala  a.collect
res17: Array[Int] = Array(1, 2, 3, 4) 
scala  b.collect
res18: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4)

6. flatMapWith：

flatMapWith 与 mapWith 很类似，都是接收两个函数，一个函数把 partitionIndex 作为输入，输出是一个新类型 A；另外一个函数是以二元组（T,A）作为输入，输出为一个序列，这些序列里面的元素组成了新的 RDD。

scala  val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9),3)
scala  a.collect
res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) 
scala  a.flatMapWith(x =  x,true)((x,y)= List(y,x)).collect
res1: Array[Int] = Array(0, 1, 0, 2, 0, 3, 1, 4, 1, 5, 1, 6, 2, 7, 2, 8, 2, 9)

7. flatMapWithValues：

flatMapValues 类似于 mapValues，不同的在于 flatMapValues 应用于元素为 KV 对的 RDD 中 Value。每个一元素的 Value 被输入函数映射为一系列的值，然后这些值再与原 RDD 中的 Key 组成一系列新的 KV 对。

scala  val a = sc.parallelize( List((1,2),(3,4),(3,6)) )
scala  a.collect
res2: Array[(Int, Int)] = Array((1,2), (3,4), (3,6))
scala  val b = a.flatMapValues( x =  x.to(5))
scala  b.collect
res3: Array[(Int, Int)] = Array((1,2), (1,3), (1,4), (1,5), (3,4), (3,5))

上述例子中原 RDD 中每个元素的值被转换为一个序列（从其当前值到 5），比如第一个 KV 对(1,2), 其值 2 被转换为 2，3，4，5。然后其再与原 KV 对中 Key 组成一系列新的 KV 对(1,2),(1,3),(1,4),(1,5)。

8. reduce：

reduce 将 RDD 中元素两两传递给输入函数，同时产生一个新的值，新产生的值与 RDD 中下一个元素再被传递给输入函数直到最后只有一个值为止。

eg：对元素求和。

scala  val a = sc.parallelize(1 to 10 )
scala  a.reduce( (x,y) =  x + y )
res5: Int = 55

9. reduceByKey

顾名思义，reduceByKey 就是对元素为 KV 对的 RDD 中 Key 相同的元素的 Value 进行 reduce，因此，Key 相同的多个元素的值被 reduce 为一个值，然后与原 RDD 中的 Key 组成一个新的 KV 对。

eg：对 Key 相同的元素的值求和，因此 Key 为 3 的两个元素被转为了(3,10)。

scala  val a = sc.parallelize(List((1,2),(3,4),(3,6)))
scala  a.reduceByKey((x,y)= x+y).collect
res6: Array[(Int, Int)] = Array((1,2), (3,10))

10. cartesian：

对两个 RDD 内的所有元素进行笛卡尔积操作(耗内存)，内部实现返回 CartesianRDD。

scala  val a = sc.parallelize(List(1,2,3))
scala  val b = sc.parallelize(List(4,5,6))
scala  val c = a.cartesian(b)
scala  c.collect
res15: Array[(Int, Int)] = Array((1,4), (1,5), (1,6), (2,4), (3,4), (2,5), (2,6), (3,5), (3,6))

11. Sample：

sample 将 RDD 这个集合内的元素进行采样，获取所有元素的子集。用户可以设定是否有有放回的抽样，百分比，随机种子，进而决定采样方式。

内部实现：SampledRDD(withReplacement,fraction,seed)。
函数参数设置：
withReplacement=true，表示有放回的抽样。
withReplacement=false，表示无放回的抽样。

根据 fraction 指定的比例，对数据进行采样，可以选择是否用随机数进行替换，seed 用于指定随机数生成器种子。

scala  val a = sc.parallelize(1 to 100,3)
scala  a.sample(false,0.1,0).count
res16: Long = 12
scala  a.sample(false,0.1,0).collect
res17: Array[Int] = Array(10, 47, 55, 73, 76, 84, 87, 88, 91, 92, 95, 98)
scala  a.sample(true,0.7,scala.util.Random.nextInt(10000)).count
res19: Long = 75
scala  a.sample(true,0.7,scala.util.Random.nextInt(10000)).collect
res20: Array[Int] = Array(1, 3, 3, 3, 5, 6, 9, 9, 9, 9, 10, 10, 15, 17, 20, 23, 23, 27, 28, 31, 32, 32, 34, 35, 36, 36, 36, 36, 38, 39, 41, 42, 42, 43, 45, 47, 49, 49, 50, 50, 51, 51, 54, 55, 55, 57, 57, 57, 57, 57, 59, 59, 61, 61, 63, 67, 72, 74, 76, 76, 80, 80, 81, 81, 81, 82, 83, 85, 87, 88, 90, 93, 95, 96, 97, 97, 99, 100)

12. union:

使用 union 函数时需要保证两个 RDD 元素的数据类型相同，返回的 RDD 数据类型和被合并的 RDD 元素数据类型相同。并不进行去重操作，保存所有的元素，如果想去重，可以使用 distinct()。同时，spark 还提供更为简洁的使用 union 的 API，即通过 ++ 符号相当于 union 函数操作。

eg：a 与 b 的联合

scala  val a = sc.parallelize(List(( A ,1),(B ,2),(c ,3),(A ,4),(C ,5) ))
scala  val b = sc.parallelize(List(( A ,5),(B ,6),(A ,4),(C ,9) ))
scala  a.union(b).collect
res22: Array[(String, Int)] = Array((A,1), (B,2), (c,3), (A,4), (C,5), (A,5), (B,6), (A,4), (C,9))

去重复：

scala  val d = sc.parallelize(List(( A ,5),(B ,6),(A ,5) ))
scala  d.distinct.collect
res25: Array[(String, Int)] = Array((B,6), (A,5))

13. groupBy：

将元素通过函数生成相应的 Key，数据就转化为 Key-Value 格式，之后将 Key 相同的元素分为一组。

eg：根据数据集中的每个元素的 K 值对数据分组

scala  val a = sc.parallelize(List(( A ,1),(B ,2),(c ,3),(A ,4),(C ,5) ))
scala  a.groupByKey().collect
res21: Array[(String, Iterable[Int])] = Array((B,CompactBuffer(2)), (A,CompactBuffer(1, 4)), (C,CompactBuffer(5)), (c,CompactBuffer(3)))

14. join：

join 对两个需要连接的 RDD 进行 cogroup 函数操作，将相同 key 的数据能偶放到一个分区，在 cgroup 操作之后形成新 RDD 对每个 key 下的元素进行笛卡尔积的操作，返回的结果在展平，对应 key 下的所有元组形成一个集合。最后返回 RDD[(K，(V，W))]。

eg：a 与 b 两个数据连接，相当于表的关联

scala  val a = sc.parallelize(List(( A ,1),(B ,2),(c ,3),(A ,4),(C ,5) ))
scala  val b = sc.parallelize(List(( A ,5),(B ,6),(A ,4),(C ,9) ))
scala  a.join(b).collect
res23: Array[(String, (Int, Int))] = Array((B,(2,6)), (A,(1,5)), (A,(1,4)), (A,(4,5)), (A,(4,4)), (C,(5,9)))

15. cache：

cache 将 RDD 元素从磁盘缓存到内存。相当于 persist(MEMORY_ONLY) 函数的
功能。

16. persist：

persist 函数对 RDD 进行缓存操作，数据缓存在哪里，由 StorageLevel 这个枚举类型进行确定。DISK 代表磁盘，MEMORY 代表内存，SER 代表数据是否进行序列化存储。

函数定义： persist(newLevel:StorageLevel)

StorageLevel 是枚举类型，代表存储模式。

MEMORY_AND_DISK_SER 代表数据可以存储在内存和磁盘，并且以序列化的方式存储，其他同理。

二：Action：行动算子

1. foreach：

foreach 对 RDD 中的每个元素都应用 f 函数操作，不返回 RDD 和 Array，而是返回 Uint。

scala  val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9),3)
scala  a.foreach(println(_))
3

2. saveAsTextFile：

函数将数据输出，存储到 HDFS 的指定目录。

函数的内部实现，其内部通过调用 saveAsHadoopFile 进行实现：

this.map(x = (NullWritable.get(), new Text(x.toString)))

.saveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path)

将 RDD 中的每个元素映射转变为 (null，x.toString)，然后再将其写入 HDFS。

3. collect：

collect 相当于 toArray，不过已经过时不推荐使用，collect 将分布式的 RDD 返回为一个单机的 scala Array 数据，在这个数组上运用 scala 的函数式操作。

4. count：

count 返回整个 RDD 的元素个数。

scala  val a = sc.parallelize(1 to 10 )
scala  a.collect
res9: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 
scala  a.count
res10: Long = 10

到此，相信大家对“Spark RDD 算子分为哪几类”有了更深的了解，不妨来实际操作一番吧！这里是丸趣 TV 网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

正文完

发表至：计算机运维

2023-08-16

转载说明：除特殊说明外本站除技术相关以外文章皆由网络搜集发布，转载请注明出处。

win7如何设置开机密码

win11声卡驱动如何安装

怎样理解MapReduce中shuffle

ceph中mds与cephx有什么用

Spark结构化流处理机制之容错机制的示例分析