Linux块层多队列中如何引入内核

78次阅读
没有评论

共计 2324 个字符,预计需要花费 6 分钟才能阅读完成。

本篇内容主要讲解“Linux 块层多队列中如何引入内核”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让丸趣 TV 小编来带大家学习“Linux 块层多队列中如何引入内核”吧!

首先过目一下多队列架构:

以读 IO 为例,单队列和多队列相同的执行路径:

read_pages() { ... blk_start_plug() /*  进程准备蓄流  */ mapping- a_ops- readpages() /*  蓄流  */ blk_finish_plug() /*  进程开始泄流  */ ... } io_schedule()  进程蓄流之后等待 io 完成  (在 blk_mq_make_request()函数中 request 的数目大于或者等于 16 request_count  = BLK_MAX_REQUEST_COUNT  不需要调用 io_schedule(), 直接泄流到块设备驱动)

mapping- a_ops- readpages() 会一直调用 q - make_request_fn()

generic_make_request() q- make_request_fn()  调用 blk_queue_bio()或者   多队列 blk_queue_make_request() __elv_add_request()

为什么引入多队列:多队列相对与单队列来说,每个 cpu 上都有一个软队列 (使用 blk_mq_ctx 结构表示) 避免插入 request 的时候使用 spinlock 锁,而且如今的高速存储设备,比如支持 nvme 的 ssd(小弟刚买了一块,速度确实快), 访问延迟非常小,而且本身硬件就支持多队列,(引入的多队列使用每个硬件队列 hctx- delayed_work 替换了 request_queue- delay_work)   以前的单队列架构已经不能榨干它的性能,而且成为了它的累赘, 单队列在插入 request 和泄流到块设备驱动时,一直有 request_queue 上的全局 spinlock 锁,搞得人们都想直接 bypass 块层的冲动。

单队列插入 request 时会使用 request_queue 上的全局 spinlock 锁

blk_queue_bio() { ... spin_lock_irq(q- queue_lock); elv_merge() spin_lock_irq(q- queue_lock); ... }

单队列泄流到块设备驱动时也是使用 request_queue 上的全局 spinlock 锁:

struct request_queue *blk_alloc_queue_node() INIT_DELAYED_WORK(q- delay_work, blk_delay_work); blk_delay_work() __blk_run_queue() q- request_fn(q);

__blk_run_queue()函数必须在队列锁中,也就是 spin_lock_irq(q- queue_lock);

281 * __blk_run_queue - run a single device queue 282 * @q: The queue to run 283 * 284 * Description: 285 * See @blk_run_queue. This variant must be called with the queue lock 286 * held and interrupts disabled. 287 */ 288 void __blk_run_queue(struct request_queue *q) 289 { 290 if (unlikely(blk_queue_stopped(q))) 291 return; 292 293 __blk_run_queue_uncond(q); 294 }

多队列插入 request 时没有使用 spinlock 锁:

blk_mq_insert_requests() __blk_mq_insert_request() struct blk_mq_ctx *ctx = rq- mq_ctx; (每 cpu 上的 blk_mq_ctx) list_add_tail(rq- queuelist,  ctx- rq_list)

多队列泄流到块设备驱动也没有使用 spinlock 锁:

static int blk_mq_init_hw_queues() INIT_DELAYED_WORK( hctx- delayed_work, blk_mq_work_fn); 708 static void blk_mq_work_fn(struct work_struct *work) 709 { 710 struct blk_mq_hw_ctx *hctx; 711 712 hctx = container_of(work, struct blk_mq_hw_ctx, delayed_work.work); 713 __blk_mq_run_hw_queue(hctx); 714 } __blk_mq_run_hw_queue()  没有 spinlock 锁  q- mq_ops- queue_rq(hctx, rq);  执行多队列上的 - queue_rq()回调函数

从下图可以看出系统使用多队列之后的性能提升:

(我自己没测试过性能,凭客观想象应该与下列图相符:) )

到此,相信大家对“Linux 块层多队列中如何引入内核”有了更深的了解,不妨来实际操作一番吧!这里是丸趣 TV 网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-17发表,共计2324字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)