Spark RDD算子分为哪几类

68次阅读
没有评论

共计 7346 个字符,预计需要花费 19 分钟才能阅读完成。

本篇内容主要讲解“Spark RDD 算子分为哪几类”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让丸趣 TV 小编来带大家学习“Spark RDD 算子分为哪几类”吧!

RDD 算子分类,大致可以分为两类,即:

1.  Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。

2.  Action:行动算子,这类算子会触发 SparkContext 提交 Job 作业。

一:Transformation:转换算子

1.  map:

    将原来 RDD 的每个数据项通过 map 中的用户自定义函数 f 映射转变为一个新的元素。源码中 map 算子相当于初始化一个 RDD,新 RDD 叫做 MappedRDD(this,sc.clean(f) )。即:

 map 是对 RDD 中的每个元素都执行一个指定的函数来产生一个新的 RDD。  任何原 RDD 中的元素在新 RDD 中都有且只有一个元素与之对应。

scala  val a = sc.parallelize(1 to 9, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[6] at parallelize at :27
scala  val b = a.map(x =  x*3)
b: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[7] at map at :29
scala  a.collect
res7: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) 
scala  b.collect
res8: Array[Int] = Array(3, 6, 9, 12, 15, 18, 21, 24, 27)

  上述例子中把原 RDD 中每个元素都乘以 3 来产生一个新的 RDD。

2.  mapPartitions:

    mapPartitions 函数获取到每个分区的迭代器,在函数中通过这个分区整体的迭代器对整个分区的元素进行操作。内部实现是生成 MapPartitionsRDD。

scala  val a = sc.parallelize(1 to 9, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[10] at parallelize at :27
scala  a.collect
res11: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) 
scala  var c = a.mapPartitions( a= a.filter(_ =7) )
c: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[11] at mapPartitions at :29
scala  c.collect
res12: Array[Int] = Array(7, 8, 9)

上述例子是通过函数 filter 对分区中所有数据进行过滤。

3.  mapValues

    针对 (key,value) 型数据中的 Value 进行操作,而不对 Key 进行处理。即:

 mapValues 顾名思义就是输入函数应用于 RDD 中 Kev-Value 的 Value,原 RDD 中的 Key 保持不变,与新的 Value 一起组成新的 RDD 中的元素。因此,该函数只适用于元素为 KV 对的 RDD。

scala  val a = sc.parallelize(List( Hadoop , HBase , Hive , Spark), 2)
a: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[12] at parallelize at :27
scala  val b = a.map(x =  (x.length,x) )
b: org.apache.spark.rdd.RDD[(Int, String)] = MapPartitionsRDD[13] at map at :29
scala  b.mapValues(+_+).collect
res14: Array[(Int, String)] = Array((6,Hadoop), (5,HBase), (4,Hive), (5,Spark))

4.  mapWith:

 mapWith 是 map 的另外一个变种,map 只需要一个输入函数,而 mapWith 有两个输入函数。

eg:  把 partition index 乘以 10,然后加上 2 作为新的 RDD 的元素.(3 是将十个数分为三个区)

scala  val x = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10),3)
scala  x.mapWith( a =  a*10 )( (a,b)= (b+2)).collect
res16: Array[Int] = Array(2, 2, 2, 12, 12, 12, 22, 22, 22, 22)

5.  flatMap:

    将原来 RDD 中的每个元素通过函数 f 转换为新的元素,并将生成的 RDD 的每个集合中的元素合并为一个集合,内部创建 FlatMappedRDD(this,sc.clean() )。即:

  与 map 类似,区别是原 RDD 中的元素经 map 处理后只能生成一个元素,而原 RDD 中的元素经 flatmap 处理后可生成多个元素来构建新 RDD。

eg:对原 RDD 中的每个元素 x 产生 y 个元素(从 1 到 y,y 为元素 x 的值)。

scala  val a = sc.parallelize(1 to 4,2)
scala  val b = a.flatMap(x =  1 to x )
scala  a.collect
res17: Array[Int] = Array(1, 2, 3, 4) 
scala  b.collect
res18: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4)

6.  flatMapWith:

 flatMapWith 与 mapWith 很类似,都是接收两个函数,一个函数把 partitionIndex 作为输入,输出是一个新类型 A;另外一个函数是以二元组(T,A)作为输入,输出为一个序列,这些序列里面的元素组成了新的 RDD。

scala  val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9),3)
scala  a.collect
res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) 
scala  a.flatMapWith(x =  x,true)((x,y)= List(y,x)).collect
res1: Array[Int] = Array(0, 1, 0, 2, 0, 3, 1, 4, 1, 5, 1, 6, 2, 7, 2, 8, 2, 9)

7.  flatMapWithValues:

 flatMapValues 类似于 mapValues,不同的在于 flatMapValues 应用于元素为 KV 对的 RDD 中 Value。每个一元素的 Value 被输入函数映射为一系列的值,然后这些值再与原 RDD 中的 Key 组成一系列新的 KV 对。

scala  val a = sc.parallelize( List((1,2),(3,4),(3,6)) )
scala  a.collect
res2: Array[(Int, Int)] = Array((1,2), (3,4), (3,6))
scala  val b = a.flatMapValues( x =  x.to(5))
scala  b.collect
res3: Array[(Int, Int)] = Array((1,2), (1,3), (1,4), (1,5), (3,4), (3,5))

上述例子中原 RDD 中每个元素的值被转换为一个序列(从其当前值到 5),比如第一个 KV 对(1,2), 其值 2 被转换为 2,3,4,5。然后其再与原 KV 对中 Key 组成一系列新的 KV 对(1,2),(1,3),(1,4),(1,5)。

8.  reduce:

 reduce 将 RDD 中元素两两传递给输入函数,同时产生一个新的值,新产生的值与 RDD 中下一个元素再被传递给输入函数直到最后只有一个值为止。

eg:对元素求和。

scala  val a = sc.parallelize(1 to 10 )
scala  a.reduce( (x,y) =  x + y )
res5: Int = 55

9.  reduceByKey

  顾名思义,reduceByKey 就是对元素为 KV 对的 RDD 中 Key 相同的元素的 Value 进行 reduce,因此,Key 相同的多个元素的值被 reduce 为一个值,然后与原 RDD 中的 Key 组成一个新的 KV 对。

eg:对 Key 相同的元素的值求和,因此 Key 为 3 的两个元素被转为了(3,10)。

scala  val a = sc.parallelize(List((1,2),(3,4),(3,6)))
scala  a.reduceByKey((x,y)= x+y).collect
res6: Array[(Int, Int)] = Array((1,2), (3,10))

10.  cartesian:

    对两个 RDD 内的所有元素进行笛卡尔积操作(耗内存),内部实现返回 CartesianRDD。

scala  val a = sc.parallelize(List(1,2,3))
scala  val b = sc.parallelize(List(4,5,6))
scala  val c = a.cartesian(b)
scala  c.collect
res15: Array[(Int, Int)] = Array((1,4), (1,5), (1,6), (2,4), (3,4), (2,5), (2,6), (3,5), (3,6))

11.  Sample:

    sample 将 RDD 这个集合内的元素进行采样,获取所有元素的子集。用户可以设定是否有有放回的抽样,百分比,随机种子,进而决定采样方式。

    内部实现:SampledRDD(withReplacement,fraction,seed)。
  函数参数设置:
‰  withReplacement=true,表示有放回的抽样。
‰  withReplacement=false,表示无放回的抽样。

    根据 fraction 指定的比例,对数据进行采样,可以选择是否用随机数进行替换,seed 用于指定随机数生成器种子。

scala  val a = sc.parallelize(1 to 100,3)
scala  a.sample(false,0.1,0).count
res16: Long = 12
scala  a.sample(false,0.1,0).collect
res17: Array[Int] = Array(10, 47, 55, 73, 76, 84, 87, 88, 91, 92, 95, 98)
scala  a.sample(true,0.7,scala.util.Random.nextInt(10000)).count
res19: Long = 75
scala  a.sample(true,0.7,scala.util.Random.nextInt(10000)).collect
res20: Array[Int] = Array(1, 3, 3, 3, 5, 6, 9, 9, 9, 9, 10, 10, 15, 17, 20, 23, 23, 27, 28, 31, 32, 32, 34, 35, 36, 36, 36, 36, 38, 39, 41, 42, 42, 43, 45, 47, 49, 49, 50, 50, 51, 51, 54, 55, 55, 57, 57, 57, 57, 57, 59, 59, 61, 61, 63, 67, 72, 74, 76, 76, 80, 80, 81, 81, 81, 82, 83, 85, 87, 88, 90, 93, 95, 96, 97, 97, 99, 100)

12.  union:

    使用 union 函数时需要保证两个 RDD 元素的数据类型相同,返回的 RDD 数据类型和被合并的 RDD 元素数据类型相同。并不进行去重操作,保存所有的元素,如果想去重,可以使用 distinct()。同时,spark 还提供更为简洁的使用 union 的 API,即通过 ++ 符号相当于 union 函数操作。

eg:a 与 b 的联合

scala  val a = sc.parallelize(List(( A ,1),(B ,2),(c ,3),(A ,4),(C ,5) ))
scala  val b = sc.parallelize(List(( A ,5),(B ,6),(A ,4),(C ,9) ))
scala  a.union(b).collect
res22: Array[(String, Int)] = Array((A,1), (B,2), (c,3), (A,4), (C,5), (A,5), (B,6), (A,4), (C,9))

去重复:

scala  val d = sc.parallelize(List(( A ,5),(B ,6),(A ,5) ))
scala  d.distinct.collect
res25: Array[(String, Int)] = Array((B,6), (A,5))

 13.  groupBy:

    将元素通过函数生成相应的 Key,数据就转化为 Key-Value 格式,之后将 Key 相同的元素分为一组。

    eg:根据数据集中的每个元素的 K 值对数据分组

scala  val a = sc.parallelize(List(( A ,1),(B ,2),(c ,3),(A ,4),(C ,5) ))
scala  a.groupByKey().collect
res21: Array[(String, Iterable[Int])] = Array((B,CompactBuffer(2)), (A,CompactBuffer(1, 4)), (C,CompactBuffer(5)), (c,CompactBuffer(3)))

14.  join:

    join 对两个需要连接的 RDD 进行 cogroup 函数操作,将相同 key 的数据能偶放到一个分区,在 cgroup 操作之后形成新 RDD 对每个 key 下的元素进行笛卡尔积的操作,返回的结果在展平,对应 key 下的所有元组形成一个集合。最后返回 RDD[(K,(V,W))]。

    eg:a 与 b 两个数据连接,相当于表的关联

scala  val a = sc.parallelize(List(( A ,1),(B ,2),(c ,3),(A ,4),(C ,5) ))
scala  val b = sc.parallelize(List(( A ,5),(B ,6),(A ,4),(C ,9) ))
scala  a.join(b).collect
res23: Array[(String, (Int, Int))] = Array((B,(2,6)), (A,(1,5)), (A,(1,4)), (A,(4,5)), (A,(4,4)), (C,(5,9)))

15.  cache:

    cache 将 RDD 元素从磁盘缓存到内存。相当于 persist(MEMORY_ONLY) 函数的
功能。

16.  persist:

    persist 函数对 RDD 进行缓存操作,数据缓存在哪里,由 StorageLevel 这个枚举类型进行确定。DISK 代表磁盘,MEMORY 代表内存,SER 代表数据是否进行序列化存储。

  函数定义: persist(newLevel:StorageLevel)

  StorageLevel 是枚举类型,代表存储模式。

MEMORY_AND_DISK_SER 代表数据可以存储在内存和磁盘,并且以序列化的方式存储,其他同理。

二:Action:行动算子

1.  foreach:

 foreach 对 RDD 中的每个元素都应用 f 函数操作,不返回 RDD 和 Array,而是返回 Uint。

scala  val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9),3)
scala  a.foreach(println(_))
3

2.  saveAsTextFile:

  函数将数据输出,存储到 HDFS 的指定目录。

  函数的内 部实现,其内部通过调用 saveAsHadoopFile 进行实现:

 this.map(x = (NullWritable.get(), new Text(x.toString)))

 .saveAsHadoopFile[TextOutputFormat[NullWritable, Text]](path)

  将 RDD 中的每个元素映射转变为 (null,x.toString),然后再将其写入 HDFS。

3.  collect:

    collect 相当于 toArray,不过已经过时不推荐使用,collect 将分布式的 RDD 返回为一个单机的 scala Array 数据,在这个数组上运用 scala 的函数式操作。

4.  count:

    count 返回整个 RDD 的元素个数。

scala  val a = sc.parallelize(1 to 10 )
scala  a.collect
res9: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 
scala  a.count
res10: Long = 10

到此,相信大家对“Spark RDD 算子分为哪几类”有了更深的了解,不妨来实际操作一番吧!这里是丸趣 TV 网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-16发表,共计7346字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)