当前位置：首页 > web >正文

《深入理解Linux网络》笔记

web 2025/7/1 16:04:00

《深入理解Linux网络》笔记

前言
参考

前言

前段时间看了《深入理解Linux网络》这本书，虽然有些地方有以代码充篇幅的嫌疑，但总体来说还是值得一看的。在这里简单记录一下笔记，记录下对网络新的理解。

内核是如果接受网络包的？

如上图所示，整个流程基本如下：
数据包首先从网络中到达主机中的网卡设备
网卡通过DMA把数据帧运到内存中
之后网卡通过触发硬终端（触发电平变化）来通知CPU有网络包到达
CPU收到硬中断之后，会调用网络设备注册的中断处理函数。在这个函数中响应中断进行简单的处理，燃弧发出软中断（linux中整个中断过程分为上半部（硬中断）和下半部（软中断））。
内核线程（ksoftirqd线程， 内核启动的时候会专门创建一些软中断内核线程，一般来说，机器上有几个核心就会有几个ksoftirqd内核线程）响应软中断，调用网卡驱动注册的poll函数开始收包。从RingBuffer中（就是之前DMA运输的地方）摘取一个帧，然后交给上层的协议栈进行具体的处理。

tcpdump抓包和iptable过滤包的原理大概是什么？
tcpdump是一个常用的抓包工具，其原理概括来说就是通过类似一个回调的机制，将其挂到网络包传输的路径中。当有网络包到来（或者发送出去）的时候内核会调用将数据包传给tcpdump的回调函数，就可以达到抓包的效果。

iptable其实本质上也一样，只不过iptable会对经过的包进行过滤、修改。而tcpdump一般只是查看。
有一点不一样的是，tcpdump是工作在设备层的（所以tcpdump还可以查看数据链路层的一些包信息），而iptable是工作在IP层（ARP层）的。
如下图所示。

ps: netfilter可以理解就是 iptable。

top命令中hi,si代表啥意思？

如果了解了linux的中断原理，也就对top命令中hi，si有了更深的理解。hi代表硬中断的开销，si代表软中断的开销。

关于系统调用陷入内核态的一些理解
对于一个程序来说，通过系统调用（比如说write数据到网络中）陷入内核态之后，还依旧执行的是这个程序的活 （系统还依旧算着这个进程的cpu运行时间），只不过是陷入到了内核态，算是这个程序的内核态线程（并不是新建了一个内核态线程）在执行。这也就是所谓的进程的内核上下文。

如果使用的是普通的同步阻塞网络读写调用，一般来说，会进行至少两次进程的上下文切换（一个是无数据到达时阻塞、另一个是数据到达时唤醒）。一般来说，每一次进程的上下文切换都需要花费3-5微秒的时间，以CPU视角来说，这其实已经不少了，而且上下文的切换并没有干什么实质性的活，所以，很多机制都尽量减少不必要的上下文切换（比如说自旋锁、 epoll等机制。）

epoll、poll等多路复用机制高效在什么地方？
在我看来，多路复用机制高效的本质在于可以同时监听多个套接字，这样就一旦其中有需要读写的事件到来，就可以尽量减少进程的上下文切换（不像同步操作read、write那样进行频繁的阻塞），让进程更专注的处理网络请求。

整个epoll机制基本如下图所示。

通过epoll_ctl加入需要监听的多个套接字。当某一个套接字对应的网络包从网卡到来之时，通过内核的软硬件中断进行处理，然后将请求放入epoll对象的就绪列表中。

而epoll_wait就是从就绪列表中看是否有事件到达，如果有则取出进行处理。 在高并发的场景中，epoll_wait会一直处理，知道没活的时候才会让出CPU.

而红黑树只是epoll中用来快速查找、删除socket时用的数据结构，并不是epoll支持高并发的根本原因。

关于tcp分段和ip分片的一些理解
对于一般的tcp传输来说，下层的mac协议限制的帧的大小，MTU一般是1500字节。如果超过了MTU，mac层将无法传输（应该会丢弃）。对应MTU,ip层也有响应的长度限制MSS,如果超过了这个限制之后，ip层会执行分片，以避免mac层将数据丢弃。但是ip层的分片会导致一些问题：一个是额外的分片开销；另一个是如果一个分片丢失了，上层的整个包都需要重传（对于TCP来说整个包会重传，对于UDP来说，数据包就是丢失了）；

所以，tcp层为了减少ip分片，在tcp层就将数据包进行了分段，使装入ip层数据不大于MSS,这样，ip层就不会进行分片，也不会有一个分片丢失，整个数据包都得重传的尴尬。

如果想通过网络发送一个文件，会涉及到哪些内存拷贝呢？
一般来说，我们想通过网络发送一个本地的文件，会首先通过read()系统调用将文件读到内存中，然后在write()到远端。这其中涉及到磁盘-内核空间-用户空间的内存拷贝过程。
如下图所示。一共涉及到4次的用户态和内核态的上下文切换和4次的内存拷贝。

仔细分析一下其实知道，如果不需要再用户空间修改文件内容的话，完全不需要将数据拷贝到用户空间。
所以，一般来说有几种方式可以提高这种场景的内存效率。
通过 mmap + write
即通过linux提供的mmap内存映射，将内核缓冲区里的数据映射到用户空间，这样，操作系统内核与用户空间就不需要再进行任何的数据拷贝操作。
这样需要4次的用户态和内核态的上下文切换，和3次的内存拷贝。
使用sendfile系统调用
在 Linux 内核版本 2.1 中，提供了一个专门发送文件的系统调用函数 sendfile()。该系统调用，可以直接把内核缓冲区里的数据拷贝到 socket 缓冲区里，不再拷贝到用户态，这样就只有 2 次上下文切换，和 3 次数据拷贝。
sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

而且从 Linux 内核 2.4 版本开始起, 对于支持 SG-DMA 技术的网卡，sendfile还可以进一步减少cpu的干预，直接从内存缓存中拷贝到网卡，如下图所示。
算是真正做到了零拷贝。
kafka之所以性能突出，一个重要的原因就是利用了这种零拷贝技术。

关于linux路由表
linux默认情况下会丢掉不属于本机IP的数据包。将net.ipv4.ip_forward设置为1后，会开启路由功能，Linux会像路由器一样对不属于本机的IP数据包进行路由转发。

linux可以配置多个路由表，默认有三个已有的路由表：
> 1. local: 处理本地IP和广播地址路由，local路由表只由kernel维护，不能更改和删除
2. main: 处理所有非策略路由，不指定路由表名时默认使用的路由表
3. default: 所有其他路由表都没有匹配到的情况下，根据该表中的条目进行处理

关于本机网络

我们使用ifconfig可以看到一个lo的回环设备，这是内核虚拟出来的一个本机网卡设备，所有127.0.0.1的网络IO都直接通过这个lo进行传输，不需要经过实际的网络设备，所以即使拔了网线，也依然可以对127.0.0.1的网络IO进行请求。

除了127.0.0.1之外，本机ip（如上图中的10.0.20.6）也是一样的，使用本机ip也可以访问本地服务，走的也是lo回环设备。

listen系统调用本质上是在干啥？
对于我们熟知的网络系统调用Listen来说，其一个重要的作用就是在内核中建立并初始化好半队列（用来存储经过第一次握手的socket）和全队列（用来存储已经建立连接的socket， accept 其实就是从这里消费tcp连接的）的数据接口，为接下来TCP的握手连接做好准备。

关于tcp的建立过程的一些细节
tcp通过三次握手来建立连接。一般来说，
客户端通过connect来建立连接，客户端发送SYN 连接握手请求，然后启动定时器。
服务端收到请求之后，内核会发出SYN ACK，这个时候将请求放入半连接队列。 同时也会启动一个重传定时器（所以如第二次握手发出之后，迟迟收不到第三次握手，服务端会进行重传第二次握手）。
然后客户端收到SYN ACK之后，清除重传定时器，将连接置为已连接，然后发送第三次握手ACK。

服务端收到第三次握手之后，将连接冲半连接队列里删除，然后加入全连接队列。等待accept来消费连接。
整个过程如下图所示。

一般来说，建立一个tcp连接需要1.5个RTT，根据通信双方的远近一般需要几十到几百毫秒的样子。 （一般来说，同地区的不同机房一般大约是几ms，北京到广东大概30-40ms）

一条空的tcpl连接（只建立连接但是不发送数据）大概需要3-4kb的内存空间。 一条TIME_WAIT状态的连接需要消耗0.4kb的样子。所以机器上如果TIME_WAIT过多一般影响的不是内存而是端口号。

一个机器可以建立多少个连接？
要理解，一条tcp连接是有(src ip, src port, dst ip, dsp port) 四元组来构成的，所以对于一个客户端来说，说是根据16bit 的port 只能建立65536个连接，这是不正确的。限制服务器端和客户端连接的最主要的是内存和cpu，如果这些是充足的，一台服务器建立百万连接完全是可能的。