深入理解Linux的epoll机制

作者&投稿:班浅 (若有异议请与网页底部的电邮联系)
~

在Linux系统之中有一个核心武器:epoll池,在高并发的,高吞吐的IO系统中常常见到epoll的身影。

IO多路复用

在Go里最核心的是Goroutine,也就是所谓的协程,协程最妙的一个实现就是异步的代码长的跟同步代码一样。比如在Go中,网络IO的read,write看似都是同步代码,其实底下都是异步调用,一般流程是:

write(/*IO参数*/)请求入队等待完成后台loop程序发送网络请求唤醒业务方

Go配合协程在网络IO上实现了异步流程的同步代码化。核心就是用epoll池来管理网络fd。

实现形式上,后台的程序只需要1个就可以负责管理多个fd句柄,负责应对所有的业务方的IO请求。这种一对多的IO模式我们就叫做IO多路复用。

多路是指?多个业务方(句柄)并发下来的IO。

复用是指?复用这一个后台处理程序。

站在IO系统设计人员的角度,业务方咱们没办法提要求,因为业务是上帝,只有你服从的份,他们要创建多个fd,那么你就需要负责这些fd的处理,并且最好还要并发起来。

业务方没法提要求,那么只能要求后台loop程序了!

要求什么呢?快!快!快!这就是最核心的要求,处理一定要快,要给每一个fd通道最快的感受,要让每一个fd觉得,你只在给他一个人跑腿。

那有人又问了,那我一个IO请求(比如write)对应一个线程来处理,这样所有的IO不都并发了吗?是可以,但是有瓶颈,线程数一旦多了,性能是反倒会差的。

这里不再对比多线程和IO多路复用实现高并发之间的区别,详细的可以去了解下nginx和redis高并发的秘密。

最朴实的实现方式?

我不用任何其他系统调用,能否实现IO多路复用?

可以的。那么写个for循环,每次都尝试IO一下,读/写到了就处理,读/写不到就sleep下。这样我们不就实现了1对多的IO多路复用嘛。

whileTrue:foreach句柄数组{read/write(fd,/*参数*/)}sleep(1s)

慢着,有个问题,上面的程序可能会被卡死在第三行,使得整个系统不得运行,为什么?

默认情况下,我们没有加任何参数create出的句柄是阻塞类型的。我们读数据的时候,如果数据还没准备好,是会需要等待的,当我们写数据的时候,如果还没准备好,默认也会卡住等待。所以,在上面伪代码第三行是可能被直接卡死,而导致整个线程都得到不到运行。

举个例子,现在有11,12,13这3个句柄,现在11读写都没有准备好,只要read/write(11,/*参数*/)就会被卡住,但12,13这两个句柄都准备好了,那遍历句柄数组11,12,13的时候就会卡死在前面,后面12,13则得不到运行。这不符合我们的预期,因为我们IO多路复用的loop线程是公共服务,不能因为一个fd就直接瘫痪。

那这个问题怎么解决?

只需要把fd都设置成非阻塞模式。这样read/write的时候,如果数据没准备好,返回EAGIN的错误即可,不会卡住线程,从而整个系统就运转起来了。比如上面句柄11还未就绪,那么read/write(11,/*参数*/)不会阻塞,只会报个EAGIN的错误,这种错误需要特殊处理,然后loop线程可以继续执行12,13的读写。

以上就是最朴实的IO多路复用的实现了。但是好像在生产环境没见过这种IO多路复用的实现?为什么?

因为还不够高级。for循环每次要定期sleep1s,这个会导致吞吐能力极差,因为很可能在刚好要sleep的时候,所有的fd都准备好IO数据,而这个时候却要硬生生的等待1s,可想而知。。。

那有同学又要质疑了,那for循环里面就不sleep嘛,这样不就能及时处理了吗?

及时是及时了,但是CPU估计要跑飞了。不加sleep,那在没有fd需要处理的时候,估计CPU都要跑到100%了。这个也是无法接受的。

纠结了,那sleep吞吐不行,不sleep浪费cpu,怎么办?

这种情况用户态很难有所作为,只能求助内核来提供机制协助来。因为内核才能及时的管理这些通知和调度。

我们再梳理下IO多路复用的需求和原理。IO多路复用就是1个线程处理多个fd的模式。我们的要求是:这个“1”就要尽可能的快,避免一切无效工作,要把所有的时间都用在处理句柄的IO上,不能有任何空转,sleep的时间浪费。

有没有一种工具,我们把一箩筐的fd放到里面,只要有一个fd能够读写数据,后台loop线程就要立马唤醒,全部马力跑起来。其他时间要把cpu让出去。

能做到吗?能,这种需求只能内核提供机制满足你。

这事Linux内核必须要给个说法?

是的,想要不用sleep这种辣眼睛的实现,Linux内核必须出手了,毕竟IO的处理都是内核之中,数据好没好内核最清楚。

内核一口气提供了3种工具select,poll,epoll。

为什么有3种?

历史不断改进,矬->较矬->卧槽、高效的演变而已。

Linux还有其他方式可以实现IO多路复用吗?

好像没有了!

这3种到底是做啥的?

这3种都能够管理fd的可读可写事件,在所有fd不可读不可写无所事事的时候,可以阻塞线程,切走cpu。fd有情况的时候,都要线程能够要能被唤醒。

而这三种方式以epoll池的效率最高。为什么效率最高?

其实很简单,这里不详说,其实无非就是epoll做的无用功最少,select和poll或多或少都要多余的拷贝,盲猜(遍历才知道)fd,所以效率自然就低了。

举个例子,以select和epoll来对比举例,池子里管理了1024个句柄,loop线程被唤醒的时候,select都是蒙的,都不知道这1024个fd里谁IO准备好了。这种情况怎么办?只能遍历这1024个fd,一个个测试。假如只有一个句柄准备好了,那相当于做了1千多倍的无效功。

epoll则不同,从epoll_wait醒来的时候就能精确的拿到就绪的fd数组,不需要任何测试,拿到的就是要处理的。

epoll池原理

下面我们看一下epoll池的使用和原理。

epoll涉及的系统调用

epoll的使用非常简单,只有下面3个系统调用。

epoll_createepollctlepollwait

就这?是的,就这么简单。

epollcreate负责创建一个池子,一个监控和管理句柄fd的池子;

epollctl负责管理这个池子里的fd增、删、改;

epollwait就是负责打盹的,让出CPU调度,但是只要有“事”,立马会从这里唤醒;

epoll高效的原理

Linux下,epoll一直被吹爆,作为高并发IO实现的秘密武器。其中原理其实非常朴实:epoll的实现几乎没有做任何无效功。我们从使用的角度切入来一步步分析下。

首先,epoll的第一步是创建一个池子。这个使用epoll_create来做:

原型:

intepoll_create(intsize);

示例:

epollfd=epoll_create(1024);if(epollfd==-1){perror("epoll_create");exit(EXIT_FAILURE);}

这个池子对我们来说是黑盒,这个黑盒是用来装fd的,我们暂不纠结其中细节。我们拿到了一个epollfd,这个epollfd就能唯一代表这个epoll池。

然后,我们就要往这个epoll池里放fd了,这就要用到epoll_ctl了

原型:

intepoll_ctl(intepfd,intop,intfd,structepoll_event*event);

示例:

if(epoll_ctl(epollfd,EPOLL_CTL_ADD,11,&ev)==-1){perror("epoll_ctl:listen_sock");exit(EXIT_FAILURE);}

上面,我们就把句柄11放到这个池子里了,op(EPOLL_CTL_ADD)表明操作是增加、修改、删除,event结构体可以指定监听事件类型,可读、可写。

第一个跟高效相关的问题来了,添加fd进池子也就算了,如果是修改、删除呢?怎么做到时间快?

这里就涉及到你怎么管理fd的数据结构了。

最常见的思路:用list,可以吗?功能上可以,但是性能上拉垮。list的结构来管理元素,时间复杂度都太高O(n),每次要一次次遍历链表才能找到位置。池子越大,性能会越慢。

那有简单高效的数据结构吗?

有,红黑树。Linux内核对于epoll池的内部实现就是用红黑树的结构体来管理这些注册进程来的句柄fd。红黑树是一种平衡二叉树,时间复杂度为O(logn),就算这个池子就算不断的增删改,也能保持非常稳定的查找性能。

现在思考第二个高效的秘密:怎么才能保证数据准备好之后,立马感知呢?

epoll_ctl这里会涉及到一点。秘密就是:回调的设置。在epoll_ctl的内部实现中,除了把句柄结构用红黑树管理,另一个核心步骤就是设置poll回调。

思考来了:poll回调是什么?怎么设置?

先说说file_operations->poll是什么?

在fd篇说过,Linux设计成一切皆是文件的架构,这个不是说说而已,而是随处可见。实现一个文件系统的时候,就要实现这个文件调用,这个结构体用structfile_operations来表示。这个结构体有非常多的函数,我精简了一些,如下:

structfile_operations{ssize_t(*read)(structfile*,char__user*,size_t,loff_t*);ssize_t(*write)(structfile*,constchar__user*,size_t,loff_t*);__poll_t(*poll)(structfile*,structpoll_table_struct*);int(*open)(structinode*,structfile*);int(*fsync)(structfile*,loff_t,loff_t,intdatasync);//....};

你看到了read,write,open,fsync,poll等等,这些都是对文件的定制处理操作,对于文件的操作其实都是在这个框架内实现逻辑而已,比如ext2如果有对read/write做定制化,那么就会是ext2_read,ext2_write,ext4就会是ext4_read,ext4_write。在open具体“文件”的时候会赋值对应文件系统的file_operations给到file结构体。

那我们很容易知道read是文件系统定制fd读的行为调用,write是文件系统定制fd写的行为调用,file_operations->poll呢?

这个是定制监听事件的机制实现。通过poll机制让上层能直接告诉底层,我这个fd一旦读写就绪了,请底层硬件(比如网卡)回调的时候自动把这个fd相关的结构体放到指定队列中,并且唤醒操作系统。

举个例子:网卡收发包其实走的异步流程,操作系统把数据丢到一个指定地点,网卡不断的从这个指定地点掏数据处理。请求响应通过中断回调来处理,中断一般拆分成两部分:硬中断和软中断。poll函数就是把这个软中断回来的路上再加点料,只要读写事件触发的时候,就会立马通知到上层,采用这种事件通知的形式就能把浪费的时间窗就完全消失了。

划重点:这个poll事件回调机制则是epoll池高效最核心原理。

划重点:epoll池管理的句柄只能是支持了file_operations->poll的文件fd。换句话说,如果一个“文件”所在的文件系统没有实现poll接口,那么就用不了epoll机制。

第二个问题:poll怎么设置?

在epoll_ctl下来的实现中,有一步是调用vfs_poll这个里面就会有个判断,如果fd所在的文件系统的file_operations实现了poll,那么就会直接调用,如果没有,那么就会报告响应的错误码。

staticinline__poll_tvfs_poll(structfile*file,structpoll_table_struct*pt){if(unlikely(!file->f_op->poll))returnDEFAULT_POLLMASK;returnfile->f_op->poll(file,pt);}

你肯定好奇poll调用里面究竟是实现了什么?

总结概括来说:挂了个钩子,设置了唤醒的回调路径。epoll跟底层对接的回调函数是:ep_poll_callback,这个函数其实很简单,做两件事情:

把事件就绪的fd对应的结构体放到一个特定的队列(就绪队列,readylist);

唤醒epoll,活来啦!

当fd满足可读可写的时候就会经过层层回调,最终调用到这个回调函数,把对应fd的结构体放入就绪队列中,从而把epoll从epoll_wait出唤醒。

这个对应结构体是什么?

结构体叫做epitem,每个注册到epoll池的fd都会对应一个。

就绪队列很高级吗?

就绪队列就简单了,因为没有查找的需求了呀,只要是在就绪队列中的epitem,都是事件就绪的,必须处理的。所以就绪队列就是一个最简单的双指针链表。

小结下:epoll之所以做到了高效,最关键的两点:

内部管理fd使用了高效的红黑树结构管理,做到了增删改之后性能的优化和平衡;

epoll池添加fd的时候,调用file_operations->poll,把这个fd就绪之后的回调路径安排好。通过事件通知的形式,做到最高效的运行;

epoll池核心的两个数据结构:红黑树和就绪列表。红黑树是为了应对用户的增删改需求,就绪列表是fd事件就绪之后放置的特殊地点,epoll池只需要遍历这个就绪链表,就能给用户返回所有已经就绪的fd数组;

哪些fd可以用epoll来管理?

再来思考另外一个问题:由于并不是所有的fd对应的文件系统都实现了poll接口,所以自然并不是所有的fd都可以放进epoll池,那么有哪些文件系统的file_operations实现了poll接口?

首先说,类似ext2,ext4,xfs这种常规的文件系统是没有实现的,换句话说,这些你最常见的、真的是文件的文件系统反倒是用不了epoll机制的。

那谁支持呢?

最常见的就是网络套接字:socket。网络也是epoll池最常见的应用地点。Linux下万物皆文件,socket实现了一套socket_file_operations的逻辑(net/socket.c):

staticconststructfile_operationssocket_file_ops={.read_iter=sock_read_iter,.write_iter=sock_write_iter,.poll=sock_poll,//...};

我们看到socket实现了poll调用,所以socketfd是天然可以放到epoll池管理的。

还有吗?

有的,其实Linux下还有两个很典型的fd,常常也会放到epoll池里。

eventfd:eventfd实现非常简单,故名思义就是专门用来做事件通知用的。使用系统调用eventfd创建,这种文件fd无法传输数据,只用来传输事件,常常用于生产消费者模式的事件实现;

timerfd:这是一种定时器fd,使用timerfd_create创建,到时间点触发可读事件;

小结一下:

ext2,ext4,xfs等这种真正的文件系统的fd,无法使用epoll管理;

socketfd,eventfd,timerfd这些实现了poll调用的可以放到epoll池进行管理;

其实,在Linux的模块划分中,eventfd,timerfd,epoll池都是文件系统的一种模块实现。

思考

前面我们已经思考了很多知识点,有一些简单有趣的知识点,提示给读者朋友,这里只抛砖引玉。

问题:单核CPU能实现并行吗?

不行。

问题:单线程能实现高并发吗?

可以。

问题:那并发和并行的区别是?

一个看的是时间段内的执行情况,一个看的是时间时刻的执行情况。

问题:单线程如何做到高并发?

IO多路复用呗,今天讲的epoll池就是了。

问题:单线程实现并发的有开源的例子吗?

redis,nginx都是非常好的学习例子。当然还有我们Golang的runtime实现也尽显高并发的设计思想。

总结

IO多路复用的原始实现很简单,就是一个1对多的服务模式,一个loop对应处理多个fd;

IO多路复用想要做到真正的高效,必须要内核机制提供。因为IO的处理和完成是在内核,如果内核不帮忙,用户态的程序根本无法精确的抓到处理时机;

fd记得要设置成非阻塞的哦,切记;

epoll池通过高效的内部管理结构,并且结合操作系统提供的poll事件注册机制,实现了高效的fd事件管理,为高并发的IO处理提供了前提条件;

epoll全名eventpoll,在Linux内核下以一个文件系统模块的形式实现,所以有人常说epoll其实本身就是文件系统也是对的;

socketfd,eventfd,timerfd这三种”文件“fd实现了poll接口,所以网络fd,事件fd,定时器fd都可以使用epoll_ctl注册到池子里。我们最常见的就是网络fd的多路复用;

ext2,ext4,xfs这种真正意义的文件系统反倒没有提供poll接口实现,所以不能用epoll池来管理其句柄。那文件就无法使用epoll机制了吗?不是的,有一个库叫做libaio,通过这个库我们可以间接的让文件使用epoll通知事件,以后详说,此处不表;

后记

epoll池使用很简洁,但实现不简单。还是那句话,Linux内核帮你包圆了。

今天并没有罗列源码实现,以很小的思考点为题展开,简单讲了一些epoll的思考,以后有机会可以分享下异步IO(aio)和epoll能产生什么火花?Golang是怎样使用epoll池的?敬请期待哦。

原创不易,更多干货,关注:奇伢云存储




深入理解Linux I\/O系统
深入理解Linux I\/O系统,主要关注点在于操作系统如何实现高效的文件数据读写操作。传统系统调用方式通过`write()`和`read()`函数实现数据交互,涉及两次CPU拷贝、两次DMA拷贝,共计四次拷贝及上下文切换。读操作流程:当应用程序调用`read()`系统调用读取数据时,若数据已存在于用户进程的页内存中,直接从...

深入理解Linux内核之内核抢占
深入理解Linux内核中的内核抢占机制,首先,它在arm64架构的5.11内核和Ubuntu 20.04.1环境中展开讨论。本文主要关注CFS调度类,探讨了内核抢占与抢占式内核的区别,以及其在用户态和内核态任务调度中的作用。在Linux内核中,"PREEMPT"标识了我们使用的是抢占式内核,它不仅允许用户态任务在中断时被高优先...

深入理解Linux中的exit函数linux中exit函数
void exit(int status);exit函数接受一个int参数,该参数的值用于表明程序的结果,返回0表示程序正常结束,返回非0值表示非正常结束,即发生错误。当程序未通过exit函数显式退出时,Linux的内核会自动对进程进行清除,释放它的资源和内存空间,以便重新分配给其他进程。而在函数显式位置退出时,内核调用进程...

深入理解Linux文件类型linux文件类型
标识符为(@)。通过以上介绍,我们可以发现Linux中文件类型丰富多样,而每种文件类型都有它独特的功能,因此正确理解和使用Linux文件类型对保障Linux文件系统的安全运行至关重要。用户要通过Linux文件类型来准确区分各个文件,把握好自己文件和文件夹的作用,从而更好地操作Linux文件系统。

深入理解LinuxPOST请求linuxpost请求
随着计算机技术的剧烈发展,越来越多的技术被应用到日常生活中。例如Linux,它是众所周知的算法操作系统,众多应用程序都在使用Linux。Linux提供了一种健壮的安全且有效的通信机制,也就是HTTP(Hypertest Transfer Protocol)POST请求。在本文中,我们将深入了解Linux下的POST请求的具体实现。首先,基于Linux的...

深入理解Linux系统中的命名管道linux命名管道
Linux系统中的命名管道是一种特殊的数据传输技术,可以实现一个进程将数据发送到另一个进程的管道。它允许两个不同的进程进行双向通信,并且它是Linux系统架构的很重要的一部分。本文将深入理解Linux系统中的命名管道。Linux系统中的命名管道可以使用特殊的文件名称表示,它们可以在任何地方(本地文件系统、...

深入理解Linux系统中的PATH变量linuxpath变量
这样可以大大的提高程序的执行效率,使用户能够节省一定的时间。Linux系统中的PATH变量不仅能够提高用户体验,而且还能帮助用户快速找到自己需要的程序,也能够使用户能够快速上手Linux系统。所以,掌握PATH变量的定义、结构、设置方式以及其对应的场景,是更好理解Linux系统的必备知识之一。

深入理解linux系统下proc文件系统内容
Linux系统中的\/proc文件系统是一种特殊类型的虚拟文件系统,它存储着当前内核运行时的实时状态信息。不同于常规文件系统,\/proc中的文件是动态更新且大多不可直接写入,用户可以通过这些虚拟文件获取系统硬件状态、进程详细信息以及对内核进行某些操作的权限。这些文件通常按照功能分类,如\/proc\/scsi显示SCSI...

大神的学习笔记-深入理解Linux内核(超完整版)
第九章、程序执行 a. 进程表示运行中的程序,内核需加载指令并执行。b. 可执行文件格式支持不同操作系统的二进制文件,共享库在运行时加载。c. 进程的信任状与能力捆绑用户权限,库为程序提供全局外部符号。d. 静态库与动态库各有优缺点,执行跟踪用于程序监控。e. Linux的正式可执行格式是ELF。

深入理解LINUX网络技术内幕图书目录
深入理解Linux网络技术内幕,让我们从基础背景开始探讨:第一章:简介- 基本术语:学习网络编程的基础概念,如套接字、编码模式等。- 用户空间工具:介绍如何利用实用工具浏览和理解内核源代码。- 补丁形式提供功能:了解如何处理以补丁形式引入的新功能。第二章:关键数据结构- sk-buff结构:深入剖析套接字...

大兴安岭地区19535485508: 嵌入式开发要学什么?学习嵌入式开发要学哪些? -
郟阎莱美: 入门嵌入式工程师 此阶段主要是前期的入门过程,主要针对入行没多久的新人.其实成功没有捷径,所以打好基础才是关键.嵌入式开发要学什么主要包含以下4个方面的内容:1.电路知识 首先你要学习电路、模电、数电,认识电阻、电容、三...

大兴安岭地区19535485508: 中级PHP工程师需要会哪些Linux技能 -
郟阎莱美: 1、Linux 能够流畅的使用Shell脚本来完成很多自动化的工作;awk/sed/perl 也操作的不错,能够完成很多文本处理和数据统计等工作;基本能够安装大 部分非特殊的Linux程序(包括各种库、包、第三方依赖等等,比如MongoDB/Redis/Sphinx/...

大兴安岭地区19535485508: 怎样才能成为一名优秀的程序员呢? -
郟阎莱美: 选择做程序员,是源于真正意义上的兴趣和喜欢,在做程序员的这几年,我的生活也在一步步的提升,但同样,不可否认在我个人眼里,程序员的工作就像选择其他种类的工作一样,只是一份职业,一种在社会上存身立足的手段.在校时,以及...

大兴安岭地区19535485508: 本人的电脑知识仅限于菜鸟水平. 想在接下来的5到10年时间里全面学习并学会linux,niux和 -
郟阎莱美: 不知道你说的菜鸟水平是针对哪方面,还是所有方面.要学会linux的源码达到能修改的目的是比较难的,早在2010年linux的源码量...

大兴安岭地区19535485508: 如何深入了解Linux -
郟阎莱美: 如何深入了解Linux 想深入了解Linux操作系统却找不到入手点 建议是:学会C,C语言和*UIX是一块成长起来的,所以Linux操作系统的API都是用C语言描述的.所以C语言是深入学习Linux的一个必备技能,大家可以看 那本绿皮书入门,虽然黑的...

大兴安岭地区19535485508: 说明文的说明方法及作用是什么? -
郟阎莱美: 说明文的说明方法有:举例子、分类别、列数据、作比较、画图表、下定义、作诠释、打比方、摹状貌、引资料等10种. (1)举例子:举出实际事例来说明事物,使所要说明的事物具体化,以便读者理解,这种说明方法叫举例法. (2)分类别:将...

大兴安岭地区19535485508: linux和嵌入式linux -
郟阎莱美: 为什么一说嵌入式Linux就老是想到“裁剪”、“阉割”这种修饰语呢?如果你这么理解的话,说明,你对嵌入式还是存在一定的误区的,对自己知识结构的完善是不利的... 什么叫做嵌入式呢?虽然目前没有很标准的定义,但业界普遍认为...

大兴安岭地区19535485508: linux 虚拟文件系统的作用以及工作原理~~???? -
郟阎莱美: 我的理解,虚拟文件系统其实就是 通用文件操作的统一API接口,因为LINUX支持很多文件系统,他不可能为每个文件系统都设计一个API接口,这样,LINUX累,运行在LINUX上的程序更累,所以LINUX为了简化操作,就设计的通用API接口(专业术语,就是虚拟文件系统),这样程序不必关心,运行在LINUX上的是哪个文件系统,就对程序透明了,而具体的文件系统操作,有LINUXn内核完成就说这么多了,不懂可以再问O(∩_∩)O~

大兴安岭地区19535485508: 想学习嵌入式软件开发,可以推荐一些这方面的书籍资料的吗? -
郟阎莱美: 如果你说的嵌入式软件开发是指linux下使用c做开发,那么要做到:1扎实的c基础2熟悉linux:内核,shell,环境变量,文件系统,网络/进程等3熟悉几款开发软件环境 书籍推荐: 《c程序设计语言》、《c和指针》《c陷阱与缺陷》《 unix高级环境编程》《深入理解linux内核》《linux设备驱动程序》《嵌入式linux开发完全手册》

大兴安岭地区19535485508: 学习Linux内核的经典书籍,以及学习这些书籍的顺序??? -
郟阎莱美: 学习内核不是件容易事,前面有很多前续课程要读.1.C语言,推荐 The programmgin c language被称为圣经的书,不过没有中文版,不过C语言不太难,而且读内核也不需要你对C有多深了解.学习到指针和结构体就够你用了.2.数据结构,不...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网