DStreams上的输出操作是怎样的

73次阅读
没有评论

共计 1977 个字符,预计需要花费 5 分钟才能阅读完成。

本篇文章给大家分享的是有关 DStreams 上的输出操作是怎样的,丸趣 TV 小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着丸趣 TV 小编一起来看看吧。

dstream.foreachRDD 是一个强大的原语,发送数据到外部系统中。然而,明白怎样正确地、有效地用这个原语是非常重要的。下面几点介绍了如何避免一般错误。

经常写数据到外部系统需要建一个连接对象(例如到远程服务器的 TCP 连接),用它发送数据到远程系统。为了达到这个目的,开发人员可能不经意的在 Spark 驱动中创建一个连接对象,但是在 Spark worker 中 尝试调用这个连接对象保存记录到 RDD 中,如下:

 dstream.foreachRDD(rdd =  { val connection = createNewConnection() // executed at the driver
 rdd.foreach(record =  { connection.send(record) // executed at the worker
 })
 })

这是不正确的,因为这需要先序列化连接对象,然后将它从 driver 发送到 worker 中。这样的连接对象在机器之间不能传送。它可能表现为序列化错误(连接对象不可序列化)或者初始化错误(连接对象应该 在 worker 中初始化)等等。正确的解决办法是在 worker 中创建连接对象。

然而,这会造成另外一个常见的错误 - 为每一个记录创建了一个连接对象。例如:

dstream.foreachRDD(rdd =  {
 rdd.foreach(record =  { val connection = createNewConnection()
 connection.send(record)
 connection.close()
 })
 })

通常,创建一个连接对象有资源和时间的开支。因此,为每个记录创建和销毁连接对象会导致非常高的开支,明显的减少系统的整体吞吐量。一个更好的解决办法是利用 rdd.foreachPartition 方法。为 RDD 的 partition 创建一个连接对象,用这个两件对象发送 partition 中的所有记录。

dstream.foreachRDD(rdd =  {
 rdd.foreachPartition(partitionOfRecords =  { val connection = createNewConnection()
 partitionOfRecords.foreach(record =  connection.send(record))
 connection.close()
 })
 })

这就将连接对象的创建开销分摊到了 partition 的所有记录上了。

最后,可以通过在多个 RDD 或者批数据间重用连接对象做更进一步的优化。开发者可以保有一个静态的连接对象池,重复使用池中的对象将多批次的 RDD 推送到外部系统,以进一步节省开支。

dstream.foreachRDD(rdd =  {
 rdd.foreachPartition(partitionOfRecords =  {
 // ConnectionPool is a static, lazily initialized pool of connections
 val connection = ConnectionPool.getConnection()
 partitionOfRecords.foreach(record =  connection.send(record))
 ConnectionPool.returnConnection(connection) // return to the pool for future reuse
 })
 })

需要注意的是,池中的连接对象应该根据需要延迟创建,并且在空闲一段时间后自动超时。这样就获取了最有效的方式发生数据到外部系统。

其它需要注意的地方:

输出操作通过懒执行的方式操作 DStreams,正如 RDD action 通过懒执行的方式操作 RDD。具体地看,RDD actions 和 DStreams 输出操作接收数据的处理。因此,如果你的应用程序没有任何输出操作或者 用于输出操作 dstream.foreachRDD(),但是没有任何 RDD action 操作在 dstream.foreachRDD() 里面,那么什么也不会执行。系统仅仅会接收输入,然后丢弃它们。

默认情况下,DStreams 输出操作是分时执行的,它们按照应用程序的定义顺序按序执行。

以上就是 DStreams 上的输出操作是怎样的,丸趣 TV 小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注丸趣 TV 行业资讯频道。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-04发表,共计1977字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)