前言:最近研究了一下Linux的高性能异步IO框架io_uring,并尝试引入Node.js中应用起来。所以本文打算介绍一下io_uring在内核的实现,因为io_uring实现代码量大,逻辑复杂,所以只能慢慢分析。这一篇介绍io_uring初始化接口io_uring_setup的实现。
- static long io_uring_setup(u32 entries, struct io_uring_params __user *params){
- struct io_uring_params p;
- int i;
-
- if (copy_from_user(&p, params, sizeof(p)))
- return -EFAULT;
- // 支持的flag
- if (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |
- IORING_SETUP_SQ_AFF | IORING_SETUP_CQSIZE |
- IORING_SETUP_CLAMP | IORING_SETUP_ATTACH_WQ))
- return -EINVAL;
-
- return io_uring_create(entries, &p, params);
- }
io_uring_setup是对io_uring_create的封装。第一个参数entries指定请求队列的长度,第二个参数params是用于调用方和内核通信的结构体。我们看一下定义。
- struct io_uring_params {
- // 定义请求队列长度(2的sq_entries次方),调用方定义
- __u32 sq_entries;
- // 完成队列长度,默认是2 * 请求队列长度
- __u32 cq_entries;
- // 控制内核行为的标记
- __u32 flags;
- // poll模式下开启的内核线程绑定的cpu
- __u32 sq_thread_cpu;
- // poll模式下开启的内核线程空闲时间,之后会挂起。
- __u32 sq_thread_idle;
- // 内核当前支持的能力,内核设置
- __u32 features;
- __u32 wq_fd;
- __u32 resv[3];
- // 记录内核数据的结构体,调用方后续调用mmap需要用到。
- struct io_sqring_offsets sq_off;
- struct io_cqring_offsets cq_off;
- };
我们接着看io_uring_create。
- static int io_uring_create(unsigned entries, struct io_uring_params *p,
- struct io_uring_params __user *params){
- struct user_struct *user = NULL;
- struct io_ring_ctx *ctx;
- bool limit_mem;
- int ret;
-
- p->sq_entries = roundup_pow_of_two(entries);
- // 自定义完成队列长度
- if (p->flags & IORING_SETUP_CQSIZE) {
- p->cq_entries = roundup_pow_of_two(p->cq_entries);
- // 完成队列不能小于请求队列
- if (p->cq_entries < p->sq_entries)
- return -EINVAL;
- // 超过阈值则需要设置IORING_SETUP_CLAMP标记
- if (p->cq_entries > IORING_MAX_CQ_ENTRIES) {
- if (!(p->flags & IORING_SETUP_CLAMP))
- return -EINVAL;
- p->cq_entries = IORING_MAX_CQ_ENTRIES;
- }
- } else {
- // 默认是两倍的请求队列长度
- p->cq_entries = 2 * p->sq_entries;
- }
- // 用户信息
- user = get_uid(current_user());
- // 分配一个ctx记录上下文,因为调用方只能拿到fd,后续操作fd的时候会拿到关联的上下文
- ctx = io_ring_ctx_alloc(p);
- ctx->user = user;
- // 和poll模式相关的数据结构
- ctx->sqo_task = get_task_struct(current);
- // 分配一个io_rings
- ret = io_allocate_scq_urings(ctx, p);
- // 处理poll模式的逻辑
- ret = io_sq_offload_start(ctx, p);
- // 后面还有很多,一会分析
- }
io_uring_create代码比较多,我们分步分析。首先分配了一个io_ring_ctx结构体,这是核心的数据结构,用于记录io_uring实例的上下文,不过我们暂时不需要了解它具体的定义,因为实在太多,只关注本文相关的字段。
1 分配一个io_rings结构体
接着调用io_allocate_scq_urings分配一个io_rings结构体,这是非常核心的逻辑,我们看一下io_rings的定义。
- struct io_rings {
- struct io_uring sq, cq;
- u32 sq_ring_mask, cq_ring_mask;
- u32 sq_ring_entries, cq_ring_entries;
- u32 sq_dropped;
- u32 sq_flags;
- u32 cq_flags;
- u32 cq_overflow;
- struct io_uring_cqe cqes[];
- };
io_rings主要用于记录请求和完成队列的信息。我们继续看io_allocate_scq_urings。
- static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
- struct io_uring_params *p){
- struct io_rings *rings;
- size_t size, sq_array_offset;
- // 记录请求和完成队列大小到ctx
- ctx->sq_entries = p->sq_entries;
- ctx->cq_entries = p->cq_entries;
-
- size = rings_size(p->sq_entries, p->cq_entries, &sq_array_offset);
- // 分配内存
- rings = io_mem_alloc(size);
- // ...
- }
io_allocate_scq_urings细节比较多,我们分开分析,我们看一下rings_size的逻辑。
- static unsigned long rings_size(unsigned sq_entries, unsigned cq_entries,
- size_t *sq_offset){
- struct io_rings *rings;
- size_t off, sq_array_size;
- // 计算结构体和格外数组的大小,见io_rings定义
- off = struct_size(rings, cqes, cq_entries);
- // sq_offset记录结构体大小
- if (sq_offset)
- *sq_offset = off;
- // 计算多个u32元素的数组的大小
- sq_array_size = array_size(sizeof(u32), sq_entries);
- // 计算结构体大小 + sq_array_size的大小保存到off
- if (check_add_overflow(off, sq_array_size, &off))
- return SIZE_MAX;
- return off;
- }
struct_size是计算结构体和额外字段大小的宏,我们刚才看到io_rings结构体的定义中,最后一个字段是struct io_uring_cqe cqes[],看起来是个空数组,其实他的内存是紧跟着结构体后面分配的,结构如下。
下面我们看struct_size是如何计算的。
- #define struct_size(p, member, count) \
- __ab_c_size(count, \
- sizeof(*(p)->member) + __must_be_array((p)->member),\
- sizeof(*(p)))
-
- static inline __must_check size_t __ab_c_size(size_t a, size_t b, size_t c){
- size_t bytes;
- // 计算a * b保存到bytes
- if (check_mul_overflow(a, b, &bytes))
- return SIZE_MAX;
- // 计算bytes + c保存搭配bytes
- if (check_add_overflow(bytes, c, &bytes))
- return SIZE_MAX;
-
- return bytes;
- }
我们看到计算方式就是数组元素大小*元素个数+结构体本身的大小。计算完结构体大小后又通过array_size计算了另一个数组的大小并加起来,所以io_rings的结构体如下所示。
分配了io_rings之后我们继续看接下来的逻辑。
- static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
- struct io_uring_params *p){
- // ...
- // 记录到ctx中
- ctx->rings = rings;
- // sq_array记录rings结构体中,u32数组的首地址
- ctx->sq_array = (u32 *)((char *)rings + sq_array_offset);
- // 用于回环处理
- rings->sq_ring_mask = p->sq_entries - 1;
- rings->cq_ring_mask = p->cq_entries - 1;
- // 队列长度
- rings->sq_ring_entries = p->sq_entries;
- rings->cq_ring_entries = p->cq_entries;
- ctx->sq_mask = rings->sq_ring_mask;
- ctx->cq_mask = rings->cq_ring_mask;
- // 请求队列的数组大小
- size = array_size(sizeof(struct io_uring_sqe), p->sq_entries);
- // 分配内存并记录到sq_sqes
- ctx->sq_sqes = io_mem_alloc(size);
- return 0;
- }
进行了一系列设置后,架构如下。
创建完io_rings结构体后,我们继续回到io_uring_create中。
2 设置io_uring_params
内核申请完系列结构体后,需要通过io_uring_params结构体返回给调用方。
- static int io_uring_create(unsigned entries, struct io_uring_params *p,
- struct io_uring_params __user *params) {
-
- ret = io_allocate_scq_urings(ctx, p);
- // 初始化poll模式相关逻辑,如果开启了的话
- ret = io_sq_offload_start(ctx, p);
- memset(&p->sq_off, 0, sizeof(p->sq_off));
- // 记录字段在结构体的偏移
- p->sq_off.head = offsetof(struct io_rings, sq.head);
- p->sq_off.tail = offsetof(struct io_rings, sq.tail);
- p->sq_off.ring_mask = offsetof(struct io_rings, sq_ring_mask);
- p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);
- p->sq_off.flags = offsetof(struct io_rings, sq_flags);
- p->sq_off.dropped = offsetof(struct io_rings, sq_dropped);
- p->sq_off.array = (char *)ctx->sq_array - (char *)ctx->rings;
-
- memset(&p->cq_off, 0, sizeof(p->cq_off));
- p->cq_off.head = offsetof(struct io_rings, cq.head);
- p->cq_off.tail = offsetof(struct io_rings, cq.tail);
- p->cq_off.ring_mask = offsetof(struct io_rings, cq_ring_mask);
- p->cq_off.ring_entries = offsetof(struct io_rings, cq_ring_entries);
- p->cq_off.overflow = offsetof(struct io_rings, cq_overflow);
- p->cq_off.cqes = offsetof(struct io_rings, cqes);
- p->cq_off.flags = offsetof(struct io_rings, cq_flags);
- // 内核支持的属性
- p->features = IORING_FEAT_SINGLE_MMAP | IORING_FEAT_NODROP |
- IORING_FEAT_SUBMIT_STABLE | IORING_FEAT_RW_CUR_POS |
- IORING_FEAT_CUR_PERSONALITY | IORING_FEAT_FAST_POLL |
- IORING_FEAT_POLL_32BITS;
-
- copy_to_user(params, p, sizeof(*p))
- // 获取fd
- ret = io_uring_get_fd(ctx);
- return ret;
- }
io_uring_create继续进行了一系列赋值,赋值完后架构如下。
3 获取文件描述符
内核通过io_uring_get_fd获取文件描述符返回给调用方。
- static int io_uring_get_fd(struct io_ring_ctx *ctx){
- struct file *file;
- // 获取一个可用fd
- int ret = get_unused_fd_flags(O_RDWR | O_CLOEXEC);
- // 分配一个file结构体,设置函数集为io_uring_fops,并关联上下文ctx
- file = anon_inode_getfile("[io_uring]", &io_uring_fops, ctx,
- O_RDWR | O_CLOEXEC);
-
- // 关联fd和file结构体
- fd_install(ret, file);
- return ret;
- }
io_uring_get_fd申请了一个fd和file,这是遵循vfs的设计,最重要的是把io_uring的函数集挂在到file上,后续通过fd操作的io_uring实例的时候,经过vfs后就会执行对应的函数,另外还需要把ctx和file关联起来,因为后续通过fd操作io_uring时,需要拿到fd对应的io_uring上下文。至此。
io_uring_setup就分析完了,但是还不能使用。io_uring在设计中,为了减少系统调用和用户、内核数据通信的成本,实现了用户、内核共享数据结构的方式,这样用户和内核就可以操作同一份数据结构达到通信目的,而不用通过系统调用,更不需要设计来回复制。为了达到这个目的,用户拿到io_uring实例后,还需要调用mmap获取对应的内存映射。我们通过liburing库的逻辑来分析。
4 从liburing库看io_uring的使用
- int io_uring_queue_init_params(unsigned entries, struct io_uring *ring,
- struct io_uring_params *p){
- int fd, ret;
- // 调用io_uring_setup,拿到fd
- fd = __sys_io_uring_setup(entries, p);
- if (fd < 0)
- return -errno;
- // 内存映射
- ret = io_uring_queue_mmap(fd, p, ring);
- // 保存系统支持的属性
- ring->features = p->features;
- return 0;
- }
我们重点看一下io_uring_queue_mmap。
- int io_uring_queue_mmap(int fd, struct io_uring_params *p, struct io_uring *ring){
- int ret;
-
- memset(ring, 0, sizeof(*ring));
- ret = io_uring_mmap(fd, p, &ring->sq, &ring->cq);
- // 记录flags和fd
- if (!ret) {
- ring->flags = p->flags;
- ring->ring_fd = fd;
- }
- return ret;
- }
继续看io_uring_mmap。
- static int io_uring_mmap(int fd, struct io_uring_params *p,
- struct io_uring_sq *sq, struct io_uring_cq *cq){
- size_t size;
- int ret;
- // 请求队列需要映射的内存大小,即整个结构体struct io_rings结构体的大小
- sq->ring_sz = p->sq_off.array + p->sq_entries * sizeof(unsigned);
- // 请求队列和完成队列映射的内存大小一样,等于请求队列的
- cq->ring_sz = sq->ring_sz;
- // 映射并拿到虚拟地址,大小是sq->ring_sz
- sq->ring_ptr = mmap(0, sq->ring_sz, PROT_READ | PROT_WRITE,
- MAP_SHARED | MAP_POPULATE, fd, IORING_OFF_SQ_RING);
- cq->ring_ptr = sq->ring_ptr;
- // 通过首地址和偏移拿到对应字段的地址
- sq->khead = sq->ring_ptr + p->sq_off.head;
- sq->ktail = sq->ring_ptr + p->sq_off.tail;
- sq->kring_mask = sq->ring_ptr + p->sq_off.ring_mask;
- sq->kring_entries = sq->ring_ptr + p->sq_off.ring_entries;
- sq->kflags = sq->ring_ptr + p->sq_off.flags;
- sq->kdropped = sq->ring_ptr + p->sq_off.dropped;
- sq->array = sq->ring_ptr + p->sq_off.array;
- // 映射保存请求队列节点的内存
- size = p->sq_entries * sizeof(struct io_uring_sqe);
- sq->sqes = mmap(0, size, PROT_READ | PROT_WRITE,
- MAP_SHARED | MAP_POPULATE, fd,
- IORING_OFF_SQES);
- // 同上
- cq->khead = cq->ring_ptr + p->cq_off.head;
- cq->ktail = cq->ring_ptr + p->cq_off.tail;
- cq->kring_mask = cq->ring_ptr + p->cq_off.ring_mask;
- cq->kring_entries = cq->ring_ptr + p->cq_off.ring_entries;
- cq->koverflow = cq->ring_ptr + p->cq_off.overflow;
- cq->cqes = cq->ring_ptr + p->cq_off.cqes;
- if (p->cq_off.flags)
- cq->kflags = cq->ring_ptr + p->cq_off.flags;
- return 0;
- }
io_uring_mmap除了保存一些常用的字段信息外,最重要的是做了内存映射。我们看看mmap的最后一个参数分别是IORING_OFF_SQ_RING和IORING_OFF_SQES,接下来我们看看io_uring的mmap钩子的实现。
- static int io_uring_mmap(struct file *file, struct vm_area_struct *vma){
- size_t sz = vma->vm_end - vma->vm_start;
- unsigned long pfn;
- void *ptr;
-
- ptr = io_uring_validate_mmap_request(file, vma->vm_pgoff, sz);
-
- pfn = virt_to_phys(ptr) >> PAGE_SHIFT;
- return remap_pfn_range(vma, vma->vm_start, pfn, sz, vma->vm_page_prot);}static void *io_uring_validate_mmap_request(struct file *file,
- loff_t pgoff, size_t sz){
- struct io_ring_ctx *ctx = file->private_data;
- loff_t offset = pgoff << PAGE_SHIFT;
- struct page *page;
- void *ptr;
-
- switch (offset) {
- case IORING_OFF_SQ_RING:
- case IORING_OFF_CQ_RING:
- ptr = ctx->rings;
- break;
- case IORING_OFF_SQES:
- ptr = ctx->sq_sqes;
- break;
- default:
- return ERR_PTR(-EINVAL);
- }
-
- page = virt_to_head_page(ptr);
- if (sz > page_size(page))
- return ERR_PTR(-EINVAL);
-
- return ptr;
- }
这里设计的内容涉及到了复杂的内存管理,从代码中我们大概知道,返回的地址分别是ctx->rings和ctx->sq_sqes。即我们操作mmap返回的虚拟地址时,映射到内核的数据结构是ctx的字段。这样就完成了数据共享。最后形成的架构图如下。
至此,分析就告一段落,io_uring的实现实在是复杂,需要反复阅读和思考,才能慢慢理解和了解它的原理。
后记:io_uring作为新一代IO框架,未来应该会在各大软件中使用,尤其是对性能有极高要求的服务器,所以是非常值得关注和学习的。