当前位置: 首页 > web >正文

《深入理解Linux网络》笔记

《深入理解Linux网络》笔记

  • 前言
  • 参考

前言

前段时间看了《深入理解Linux网络》这本书,虽然有些地方有以代码充篇幅的嫌疑,但总体来说还是值得一看的。在这里简单记录一下笔记,记录下对网络新的理解。


  • 内核是如果接受网络包的?
    在这里插入图片描述
    如上图所示,整个流程基本如下:
  • 数据包首先从网络中到达主机中的网卡设备
  • 网卡通过DMA把数据帧运到内存中
  • 之后网卡通过触发硬终端(触发电平变化)来通知CPU有网络包到达
  • CPU收到硬中断之后,会调用网络设备注册的中断处理函数。在这个函数中响应中断进行简单的处理,燃弧发出软中断(linux中整个中断过程分为上半部(硬中断)和下半部(软中断))。
  • 内核线程(ksoftirqd线程, 内核启动的时候会专门创建一些软中断内核线程,一般来说,机器上有几个核心就会有几个ksoftirqd内核线程)响应软中断,调用网卡驱动注册的poll函数开始收包。从RingBuffer中(就是之前DMA运输的地方)摘取一个帧,然后交给上层的协议栈进行具体的处理。
  • tcpdump抓包和iptable过滤包的原理大概是什么?
    tcpdump是一个常用的抓包工具,其原理概括来说就是通过类似一个回调的机制,将其挂到网络包传输的路径中。当有网络包到来(或者发送出去)的时候内核会调用将数据包传给tcpdump的回调函数,就可以达到抓包的效果。

    iptable其实本质上也一样,只不过iptable会对经过的包进行过滤、修改。而tcpdump一般只是查看。
    有一点不一样的是,tcpdump是工作在设备层的(所以tcpdump还可以查看数据链路层的一些包信息),而iptable是工作在IP层(ARP层)的。
    如下图所示。
    在这里插入图片描述
    在这里插入图片描述
    ps: netfilter可以理解就是 iptable。
  • top命令中hi,si代表啥意思?
    在这里插入图片描述
    如果了解了linux的中断原理,也就对top命令中hi,si有了更深的理解。hi代表硬中断的开销,si代表软中断的开销
  • 关于系统调用陷入内核态的一些理解
    对于一个程序来说,通过系统调用(比如说write数据到网络中)陷入内核态之后,还依旧执行的是这个程序的活系统还依旧算着这个进程的cpu运行时间),只不过是陷入到了内核态,算是这个程序的内核态线程(并不是新建了一个内核态线程)在执行。这也就是所谓的进程的内核上下文。
  • 如果使用的是普通的同步阻塞网络读写调用,一般来说,会进行至少两次进程的上下文切换(一个是无数据到达时阻塞、另一个是数据到达时唤醒)。一般来说,每一次进程的上下文切换都需要花费3-5微秒的时间,以CPU视角来说,这其实已经不少了,而且上下文的切换并没有干什么实质性的活,所以,很多机制都尽量减少不必要的上下文切换(比如说自旋锁、 epoll等机制。)
  • epoll、poll等多路复用机制高效在什么地方?
    在我看来,多路复用机制高效的本质在于可以同时监听多个套接字,这样就一旦其中有需要读写的事件到来,就可以尽量减少进程的上下文切换(不像同步操作read、write那样进行频繁的阻塞),让进程更专注的处理网络请求。

    整个epoll机制基本如下图所示。
    在这里插入图片描述
    通过epoll_ctl加入需要监听的多个套接字。当某一个套接字对应的网络包从网卡到来之时,通过内核的软硬件中断进行处理,然后将请求放入epoll对象的就绪列表中。

    epoll_wait就是从就绪列表中看是否有事件到达,如果有则取出进行处理。 在高并发的场景中,epoll_wait会一直处理,知道没活的时候才会让出CPU.

    而红黑树只是epoll中用来快速查找、删除socket时用的数据结构,并不是epoll支持高并发的根本原因。
  • 关于tcp分段和ip分片的一些理解
    对于一般的tcp传输来说,下层的mac协议限制的帧的大小,MTU一般是1500字节。如果超过了MTU,mac层将无法传输(应该会丢弃)。对应MTU,ip层也有响应的长度限制MSS,如果超过了这个限制之后,ip层会执行分片,以避免mac层将数据丢弃。但是ip层的分片会导致一些问题:一个是额外的分片开销;另一个是如果一个分片丢失了,上层的整个包都需要重传(对于TCP来说整个包会重传,对于UDP来说,数据包就是丢失了);

    所以,tcp层为了减少ip分片,在tcp层就将数据包进行了分段,使装入ip层数据不大于MSS,这样,ip层就不会进行分片,也不会有一个分片丢失,整个数据包都得重传的尴尬。
  • 如果想通过网络发送一个文件,会涉及到哪些内存拷贝呢?
    一般来说,我们想通过网络发送一个本地的文件,会首先通过read()系统调用将文件读到内存中,然后在write()到远端。这其中涉及到磁盘-内核空间-用户空间的内存拷贝过程
    如下图所示。一共涉及到4次的用户态和内核态的上下文切换和4次的内存拷贝。
    在这里插入图片描述
    仔细分析一下其实知道,如果不需要再用户空间修改文件内容的话,完全不需要将数据拷贝到用户空间。
    所以,一般来说有几种方式可以提高这种场景的内存效率。
    1. 通过 mmap + write
      即通过linux提供的mmap内存映射,将内核缓冲区里的数据映射到用户空间,这样,操作系统内核与用户空间就不需要再进行任何的数据拷贝操作。
      在这里插入图片描述这样需要4次的用户态和内核态的上下文切换,和3次的内存拷贝。
    2. 使用sendfile系统调用
      在 Linux 内核版本 2.1 中,提供了一个专门发送文件的系统调用函数 sendfile()。该系统调用,可以直接把内核缓冲区里的数据拷贝到 socket 缓冲区里,不再拷贝到用户态,这样就只有 2 次上下文切换,和 3 次数据拷贝。
      sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
      在这里插入图片描述
      而且从 Linux 内核 2.4 版本开始起, 对于支持 SG-DMA 技术的网卡,sendfile还可以进一步减少cpu的干预,直接从内存缓存中拷贝到网卡,如下图所示。
      在这里插入图片描述算是真正做到了零拷贝。
      kafka之所以性能突出,一个重要的原因就是利用了这种零拷贝技术。
  • 关于linux路由表
    linux默认情况下会丢掉不属于本机IP的数据包。将net.ipv4.ip_forward设置为1后,会开启路由功能,Linux会像路由器一样对不属于本机的IP数据包进行路由转发。

    linux可以配置多个路由表,默认有三个已有的路由表:
    在这里插入图片描述> 1. local: 处理本地IP和广播地址路由,local路由表只由kernel维护,不能更改和删除
    2. main: 处理所有非策略路由,不指定路由表名时默认使用的路由表
    3. default: 所有其他路由表都没有匹配到的情况下,根据该表中的条目进行处理
  • 关于本机网络
    在这里插入图片描述
    我们使用ifconfig可以看到一个lo的回环设备,这是内核虚拟出来的一个本机网卡设备,所有127.0.0.1的网络IO都直接通过这个lo进行传输,不需要经过实际的网络设备,所以即使拔了网线,也依然可以对127.0.0.1的网络IO进行请求。

    除了127.0.0.1之外,本机ip(如上图中的10.0.20.6)也是一样的,使用本机ip也可以访问本地服务,走的也是lo回环设备。
  • listen系统调用本质上是在干啥?
    对于我们熟知的网络系统调用Listen来说,其一个重要的作用就是在内核中建立并初始化好半队列(用来存储经过第一次握手的socket)和全队列(用来存储已经建立连接的socket, accept 其实就是从这里消费tcp连接的)的数据接口,为接下来TCP的握手连接做好准备。
  • 关于tcp的建立过程的一些细节
    tcp通过三次握手来建立连接。 一般来说,
    1. 客户端通过connect来建立连接,客户端发送SYN 连接握手请求,然后启动定时器
    2. 服务端收到请求之后,内核会发出SYN ACK, 这个时候将请求放入半连接队列。 同时也会启动一个重传定时器(所以如第二次握手发出之后,迟迟收不到第三次握手, 服务端会进行重传第二次握手)。
    3. 然后客户端收到SYN ACK之后,清除重传定时器,将连接置为已连接,然后发送第三次握手ACK。
  1. 服务端收到第三次握手之后,将连接冲半连接队列里删除,然后加入全连接队列。等待accept来消费连接
    整个过程如下图所示。
    在这里插入图片描述
    一般来说,建立一个tcp连接需要1.5个RTT, 根据通信双方的远近一般需要几十到几百毫秒的样子。 (一般来说,同地区的不同机房一般大约是几ms,北京到广东大概30-40ms)
  • 一条空的tcpl连接(只建立连接但是不发送数据)大概需要3-4kb的内存空间。 一条TIME_WAIT状态的连接需要消耗0.4kb的样子。所以机器上如果TIME_WAIT过多一般影响的不是内存而是端口号。
  • 一个机器可以建立多少个连接?
    要理解,一条tcp连接是有(src ip, src port, dst ip, dsp port) 四元组来构成的,所以对于一个客户端来说,说是根据16bit 的port 只能建立65536个连接,这是不正确的。 限制服务器端和客户端连接的最主要的是内存和cpu,如果这些是充足的,一台服务器建立百万连接完全是可能的。

参考

【1】《深入理解Linux网络》
【2】为什么 TCP/IP 协议会拆分数据
【3】Linux 内存拷贝

http://www.xdnf.cn/news/5186.html

相关文章:

  • MySQL的Order by与Group by优化详解!
  • [docker基础四]容器虚拟化基础之 LXC
  • Visual Studio Code 前端项目开发规范合集【推荐插件】
  • 单片机-STM32部分:10-1、485
  • 【AI提示词】漏斗思维优化专家
  • RocketMQ Kafka区别
  • upload-labs靶场通关详解:第四关
  • zdir3个人网盘dockerfile打包
  • 202534 | KafKa简介+应用场景+集群搭建+快速入门
  • 大模型微调终极方案:LoRA、QLoRA原理详解与LLaMA-Factory、Xtuner实战对比
  • 绑定 SSH key(macos)
  • uniapp-商城-49-后台 分类数据的生成(方法加精)
  • 【计算机视觉】OpenCV实战项目:FunnyMirrors:基于OpenCV的实时哈哈镜效果实现技术解析
  • Checkmk实战指南:从零构建企业级监控系统
  • 字节:增强LLM角色区分能力
  • 第十八章,入侵检测/防御系统(IDS/IPS)
  • mysql-8.0.30-winx64 Install/Remove of the Service Denied!
  • 互联网大厂Java求职面试实战:Spring Boot微服务与数据库优化详解
  • Java云原生到底是啥,有哪些技术
  • DA14585墨水屏学习
  • 电子电器架构 --- 新能源高压上下电那点事一文通
  • 浅谈装饰模式
  • 旅游推荐数据分析可视化系统算法
  • 数据结构中的栈与队列:原理、实现与应用
  • C++学习-入门到精通-【6】指针
  • 【AI智能推荐系统】第七篇:跨领域推荐系统的技术突破与应用场景
  • [RoarCTF 2019]Easy Calc1
  • 【许可证】Open Source Licenses
  • 异地多活单元化架构下的微服务体系
  • 某某文KU下载工具,请低调再低调使用!