linux io是什么

93次阅读
没有评论

共计 3184 个字符,预计需要花费 8 分钟才能阅读完成。

本篇内容主要讲解“linux io 是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让丸趣 TV 小编来带大家学习“linux io 是什么”吧!

linux io 指的是一种文件操作;在 Linux 中,文件就是一串二进制流,那么在信息的交换过程中,我们都是对这些流进行数据收发操作,这些操作简称为 I / O 操作;由于 Linux 使用的是虚拟内存机制,所以必须通过系统调用请求内核来完成 IO 动作。

linux io 指的是什么?

我们都知道在 Linux 的世界,一切皆文件。

而文件就是一串二进制流,不管 Socket、FIFO、管道还是终端,对我们来说,一切都是流。

在信息的交换过程中,我们都是对这些流进行数据收发操作,简称为 I / O 操作。

往流中读取数据,系统调用 Read,写入数据,系统调用 Write。

通常用户进程的一个完整的 IO 分为两个阶段:

磁盘 IO:

网络 IO:

操作系统和驱动程序运行在内核空间,应用程序运行在用户空间,两者不能使用指针传递数据,因为 Linux 使用的虚拟内存机制,必须通过系统调用请求内核来完成 IO 动作。

IO 有内存 IO、网络 IO 和磁盘 IO 三种,通常我们说的 IO 指的是后两者!

为什么需要 IO 模型

如果使用同步的方式来通信的话,所有的操作都在一个线程内顺序执行完成,这么做缺点是很明显的:

因为同步的通信操作会阻塞同一个线程的其他任何操作,只有这个操作完成了之后,后续的操作才可以完成,所以出现了同步阻塞 + 多线程(每个 Socket 都创建一个线程对应),但是系统内线程数量是有限制的,同时线程切换很浪费时间,适合 Socket 少的情况。

因该需要出现 IO 模型。

Linux 的 IO 模型

在描述 Linux IO 模型之前,我们先来了解一下 Linux 系统数据读取的过程:

以用户请求 index.html 文件为例子说明

基本概念

用户空间和内核空间

操作系统的核心是内核,独立于普通的应用程序,可以访问受保护的内存空间,也有访问底层硬件设备的所有权限。

为了保证内核的安全,用户进程不能直接操作内核,操作系统将虚拟空间划分为两部分,一部分为内核空间,一部分为用户空间。

进程切换

为了控制进程的执行,内核必须有能力挂起正在 CPU 上运行的进程,并恢复以前挂起的某个进程的执行。

这种行为被称为进程切换。

因此可以说,任何进程都是在操作系统内核的支持下运行的,是与内核紧密相关的。

进程的阻塞

正在执行的进程,由于期待的某些事件未发生,如请求系统资源失败、等待某种操作的完成、新数据尚未到达或无新工作做等,则由系统自动执行阻塞原语 (Block),使自己由运行状态变为阻塞状态。

可见,进程的阻塞是进程自身的一种主动行为,也因此只有处于运行态的进程(获得 CPU),才可能将其转为阻塞状态。

当进程进入阻塞状态,是不占用 CPU 资源的。

文件描述符

文件描述符(File Descriptor)是计算机科学中的一个术语,是一个用于表述指向文件的引用的抽象化概念。

文件描述符在形式上是一个非负整数,实际上,它是一个索引值,指向内核为每一个进程所维护的该进程打开文件的记录表。

当程序打开一个现有文件或者创建一个新文件时,内核向进程返回一个文件描述符。

缓存 IO

大多数文件系统的默认 IO 操作都是缓存 IO。

其读写过程如下:

读操作:操作系统检查内核的缓冲区有没有需要的数据,如果已经缓存了,那么就直接从缓存中返回;否则从磁盘、网卡等中读取,然后缓存在操作系统的缓存中;

写操作:将数据从用户空间复制到内核空间的缓存中。这时对用户程序来说写操作就已经完成,至于什么时候再写到磁盘、网卡等中由操作系统决定,除非显示地调用了 sync 同步命令。

假设内核空间缓存无需要的数据,用户进程从磁盘或网络读数据分两个阶段:

阶段一:内核程序从磁盘、网卡等读取数据到内核空间缓存区;

阶段二:用户程序从内核空间缓存拷贝数据到用户空间。

缓存 IO 的缺点:

数据在传输过程中需要在应用程序地址空间和内核空间进行多次数据拷贝操作,这些数据拷贝操作所带来的 CPU 以及内存开销非常大。

同步阻塞

用户空间的应用程序执行一个系统调用,这会导致应用程序阻塞,什么也不干,直到数据准备好,并且将数据从内核复制到用户进程,最后进程再处理数据,在等待数据到处理数据的两个阶段,整个进程都被阻塞,不能处理别的网络 IO。

调用应用程序处于一种不再消费 CPU 而只是简单等待响应的状态,因此从处理的角度来看,这是非常有效的。

这也是最简单的 IO 模型,在通常 FD 较少、就绪很快的情况下使用是没有问题的。

同步非阻塞

非阻塞的系统调用调用之后,进程并没有被阻塞,内核马上返回给进程,如果数据还没准备好,此时会返回一个 error。

进程在返回之后,可以干点别的事情,然后再发起系统调用。

重复上面的过程,循环往复的进行系统调用。这个过程通常被称之为轮询。

轮询检查内核数据,直到数据准备好,再拷贝数据到进程,进行数据处理。

需要注意,拷贝数据整个过程,进程仍然是属于阻塞的状态。

这种方式在编程中对 Socket 设置 O_NONBLOCK 即可。

IO 多路复用

IO 多路复用,这是一种进程预先告知内核的能力,让内核发现进程指定的一个或多个 IO 条件就绪了,就通知进程。

使得一个进程能在一连串的事件上等待。

IO 复用的实现方式目前主要有 Select、Poll 和 Epoll。

伪代码描述 IO 多路复用:

while(status == OK) {// 不断轮询 ready_fd_list = io_wait(fd_list); // 内核缓冲区是否有准备好的数据 for(fd in ready_fd_list) { data = read(fd) // 有准备好的数据读取到用户缓冲区  process(data) }}

信号驱动

首先我们允许 Socket 进行信号驱动 IO,并安装一个信号处理函数,进程继续运行并不阻塞。

当数据准备好时,进程会收到一个 SIGIO 信号,可以在信号处理函数中调用 I / O 操作函数处理数据。

流程如下:

开启套接字信号驱动 IO 功能

系统调用 Sigaction 执行信号处理函数(非阻塞,立刻返回)

数据就绪,生成 Sigio 信号,通过信号回调通知应用来读取数据

此种 IO 方式存在的一个很大的问题:Linux 中信号队列是有限制的,如果超过这个数字问题就无法读取数据

异步非阻塞

异步 IO 流程如下所示:

当用户线程调用了 aio_read 系统调用,立刻就可以开始去做其它的事,用户线程不阻塞

内核就开始了 IO 的第一个阶段:准备数据。当内核一直等到数据准备好了,它就会将数据从内核内核缓冲区,拷贝到用户缓冲区

内核会给用户线程发送一个信号,或者回调用户线程注册的回调接口,告诉用户线程 Read 操作完成了

用户线程读取用户缓冲区的数据,完成后续的业务操作

相对于同步 IO,异步 IO 不是顺序执行。

用户进程进行 aio_read 系统调用之后,无论内核数据是否准备好,都会直接返回给用户进程,然后用户态进程可以去做别的事情。

等到数据准备好了,内核直接复制数据给进程,然后从内核向进程发送通知。

对比信号驱动 IO,异步 IO 的主要区别在于:

信号驱动由内核告诉我们何时可以开始一个 IO 操作 (数据在内核缓冲区中),而异步 IO 则由内核通知 IO 操作何时已经完成 (数据已经在用户空间中)。

异步 IO 又叫做事件驱动 IO,在 Unix 中,为异步方式访问文件定义了一套库函数,定义了 AIO 的一系列接口。

使用 aio_read 或者 aio_write 发起异步 IO 操作,使用 aio_error 检查正在运行的 IO 操作的状态。

目前 Linux 中 AIO 的内核实现只对文件 IO 有效,如果要实现真正的 AIO,需要用户自己来实现。

目前有很多开源的异步 IO 库,例如 libevent、libev、libuv。

到此,相信大家对“linux io 是什么”有了更深的了解,不妨来实际操作一番吧!这里是丸趣 TV 网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-07-12发表,共计3184字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)