当前位置：首页 > news >正文

【JavaEE】TCP/IP协议（模型）

news 2025/7/4 4:53:14

在上篇文章，我们已经讲解了【TCP协议】，这里就不进行讲解了。这两篇文章共同解释了TCP/IP协议。大家在学习TCP/IP协议时，一定要将两篇文章都看一遍

TCP协议

在讲解TCP/IP协议（模型）之前，我们最好先去学习一下【网络技术的发展史】

网络技术发展史

TCP/IP分层模型

TCP/IP协议（模型）与七层OSI模型的对应关系

由图我们可知：

TCP/IP协议的应用层的主要协议有HTTP、FTP、SMTP、Telnet等，是用来读取来自传输层的数据或者将数据传输写入传输层

传输层的主要协议有TCP、UDP，是用来实现端对端的数据传输

网络层（互联网层）的主要协议有ICMP、IP、IGMP，主要负责网络中数据包的传送等

链路层（网卡层和硬件层）有时也称作数据链路层或网络接口层，主要协议有ARP、RARP，通常包括操作系统中的设备驱动程序和计算机中对应的网络接口卡，它们一起处理与传输媒介（如电缆或其他物理设备）的物理接口细节

我们接下来针对 TCP/IP模型的各个层进行讲解

应用层

我们之前编写完了基本的java socket，要知道，我们之前所写的代码都在应用层，都是为了完成某项业务，如翻译等。关于应用层，我们在讲解完基本的TCP/IP协议之后，再进行单独的讲解

传输层

负责数据能够从发送端传输到接收端

传输层主要是TCP、UDP。我们之前文章已经讲解。可跳转到下面两篇文章进行学习。

TCP协议

UDP

网络层

在复杂的网络环境中确定一个合适的路径

IP协议

基本概念

主机：配有IP地址，但是不进行路由控制的设备

路由器：既配有IP地址，又能进行路由控制

节点：主机和路由器的统称

IP协议头格式

4位版本号：指定IP协议的版本，对于IPv4来说，就是4
4位首部长度（header length）：IP头部的长度是多少个32bit，也就是length*4的字节数。4bit表示最大的数字位15，因此IP首部最大长度为60字节
8位服务类型：其中有3位是优先权字段（已弃用），4位TOS字段，和1位保留字段（必须置为0）。4位TOS分别表示：最小延时，最大吞吐量，最高可靠性，最小成本。这四者相互冲突，只能选择一个。对于ssh/telnet这样的应用程序，最小延时比较重要；对于ftp这样的程序，最大吞吐量比较重要
16位总长度：IP数据报整体占多少个字节
16位标识（id）：唯一的标识主机发送的报文。如果IP报文在数据链路层被分片了，那么每一个片里面的这个id都是相同的
3位标志字段：第一位保留（保留的意思是现在不用，但是还没想好说不定以后要用到）。第二位置为1表示禁止分片，这时候如果报文长度超过MTU，IP模块就会丢弃报文。第三位表示“更多分片”，如果分片了话，最后一个分片置为1，其他是0。类似于一个结束标记
13位分片偏移：是分片相对于原始IP报文开始处的偏移。其实就是在表示当前分片在原报文中处在哪个位置。实际偏移的字节数是这个值*8得到的。因此，除了最后一个报文之外，其他报文的长度必须是8的整数倍（否则报文就不连续了）
8位生存时间（TTL）：数据报到达目的地的最大报文跳数。一般是64。每次经过一个路由，TTL-=1，一直减到0，如果还没到达，那么就丢弃了。这个字段主要是用来防止出现路由循环
8位协议：表示上层协议的类型
16位头部校验和：使用CRC进行校验，来鉴别头部是否损坏。
32位源地址和32位目标地址：表示发送端和接收端
选项字段（不定长，最多40字节）：略

地址管理

网段划分

IP地址分为两个部分，网络号和主机号

通过前面的学习，我们已知IP地址的结构。

IP地址的结构：

·IP地址由32位二进制数组成，通常表示为4个十进制数，如192.168.1.1

·IP地址分为网络号和主机号。网络号用于标识网络，主机号用于标识网络中的设备

网络号：保证相互连接的两个网段具有不同的表示

主机号：在同一网段内，主机之间具有相同的网络号，但是必须有不同的主机号

同时，我们会有子网掩码来进行子网划分（这里先不追究子网掩码是什么，后续在讲解网段划分时会进行讲解。我们现在只需要知道，一串数字中，哪一部分是子网掩码即可）

如下图的 192.168.128.10/24 这里的 /24 表示子网掩码

下图所说的网络标识即为网络号，主机标识即为主机号

不同的子网其实就是把网络号相同的主机放到一起
如果在子网中新增一台主机，则这台主机的网络号和这个子网的网络号一致，但是主机号必须不能和子网中的其他主机重复

通过合理设置主机号和网络号，就可以保证在相互连接的网络中，每台主机的IP地址都不相同

那么，问题来了：手动管理子网内的IP，是一个相当麻烦的事情

有一种技术叫做DHCP，能够自动的给子网内新增主机节点分配IP地址，避免了手动管理IP的不便
一般的路由器都带有DHCP功能。因此路由器也可以看做是一个DHCP服务器

过去曾经提出一种划分网络号和主机号的方案，把所有IP地址分为五类，如下图所示。

A类：0.0.0.0~127.255.255.255
B类：128.0.0.0~191.255.255.255
C类：192.0.0.0~223.255.255.255
D类：224.0.0.0~239.255.255.255
E类：240.0.0.0~247.255.255.255

随着Internet的飞速发展，这种划分方案的局限性很快显现出来，大多数组织都申请B类网络地址，导致B类地址很快就分配完了，而A类却浪费了大量地址；

例如，申请了一个B类地址，理论上一个子网内能允许6.5万多个主机。A类地址的子网内的主机数更多，多达1600万
然而实际网络架构中，A类地址中不会存在一个子网内有这么多主机的情况。因此大量的IP地址都被浪费掉了

针对这种情况提出了新的划分方案，称为CIDR（Classless Inter-domain Routing）

引入一个额外的子网掩码来区分网络号和主机号
子网掩码也是一个32位的正整数。通常用一串“0”来结尾
将IP地址和子网掩码进行“按位与”操作，得到的结果就是网络号
网络号和主机号的划分与这个IP地址是A类、B类还是C类无关；

子网掩码

子网掩码是IPv4网络中用于划分网络号和主机号的核心工具，它通过32位二进制数（通常以点分十进制或CIDR表示）明确标识IP地址的网络号和主机号。

定义：子网掩码本质是一个由连续“1”和“0”组成的32位二进制数，其中：

连续“1”表示网络号：对应IP地址中属于网络号的部分
连续“0”表示主机号：对应IP地址中属于主机号的部分

例如，IP地址192.168.1.10与子网掩码255.255.255.0配合使用时：

网络号：192.168.1.0（前24位为网络号）
主机号：.10（后8位为主机号，可分配给设备）

其主要功能包括：

网络划分：将大网络分割为多个子网，提升管理效率
路由决策：路由器通过子网掩码判断数据包应转发至哪个网络
安全优化：限制广播域范围，减少网络拥塞和攻击风险
地址复用：通过灵活划分，避免IPv4地址资源浪费

表示方法

1.点分十进制：

示例：255.255.255.0（二进制位：11111111.11111111.11111111.00000000）

2.CIDR表示法：

示例： /24 表示前24位为网络号（等价于255.255.255.0）

我们现在可以完全掌握上述所说的：192.168.128.10/24

/24：表示前24位为网络号，即192.168.128为网络号而 .10为主机号

网络号=IP地址与子网掩码按位与运算

示例：192.168.128.10&255.255.255.0=192.168.128

下面举两个例子：

划分子网的例子1：

划分子网的例子2：

可见，IP地址与子网掩码做“按位与”运算后，可以得到网络号，主机号从全0到全1就是子网的地址范围

特殊的IP地址

将IP地址中的主机地址全部设为0，就成为了网络号，代表这个局域网；
将IP地址中的主机地址全部设为1，就成为了广播地址，用于给同一个链路中相互连接的所有主机发送数据包；
127.*的IP地址用于本机环回（loop back）测试，通常是127.0.0.1

IP地址的数量限制

我们知道，IP地址（IPv4）是一个4字节32位的正整数。那么一共只有2的32次方个IP地址，大概是43亿左右。而TCP/IP协议规定，每个主机都需要有一个IP地址

这意味着，一共只有43亿台主机能接入网络吗？

实际上，由于一些特殊的IP地址的存在，导致接入网络的主机数量远不足43亿；另外IP地址并非是按照主机台数来配置的，而是每一个网卡都需要配置一个或多个IP地址

这样的话，我们结合当前电脑的普及率，可以知道，这是不够用的。

为了解决这一问题，先有了CIDR。

CIDR在一定程度上缓解了IP地址不够用的问题（提高了利用率，减少了浪费，但是IP地址的绝对上限并没有增加），仍然不是很够用。这时候有三种方式来解决：

动态分配IP地址：只给接入网络的设备分配IP地址。因此同一个MAC地址的设备，每次接入网络中，得到的IP地址不一定是相同的
NAT技术（后面详细讲解）
IPv6：IPv6并不是IPv4的简单升级版。这是互不相干的两个协议，彼此并不兼容；IPv6用16字节128位来表示一个IP地址；但是目前IPv6还没有完全普及

截⽌到 2023 年 8 ⽉ 28 ⽇, 我国 IPv6 活跃⽤⼾数达7.67亿(⽹⺠总数为10.79亿, 占⽐ 71%), 世界领先.

⼤⼒发展 IPv6 的原因, 参考以下视频.

电子监听、全国断网，棱镜门背后，中国如何从末路狂奔到世界之巅_哔哩哔哩_bilibili

私有IP地址和公网IP地址

如果一个组织内部组建局域网，IP地址只用于局域网内的通信，而不直接连到Internet上。

理论上，使用任意的IP地址都可以，但是RFC 1918规定了用于组建局域网的私有IP地址

10.*：前8位为网络号，后24位都为主机号；共16777216个地址--A类地址
172.16.到172.31：前12位为网络号，共1048576个地址
192.168.*：前16位是网络号，共65536个地址

包含在这个范围中的，都成为私有IP，其余的则称为全局IP（公网IP）

一个路由器可以配置两个IP地址，一个是WAN口IP，一个是LAN口IP（子网IP）
路由器LAN口连接的主机，都从属于当前这个路由器的子网中
不同的路由器，子网IP其实都是一样的（通常都是192.168.1.1）。子网内的主机号不能重复。但是不同子网之间的IP地址可以重复
每一个家用路由器，其实又作为运营商路由器的子网中的一个节点。这样的运营商路由器可能会有很多级，最外层的运营商路由器，WAN口IP就是一个公网IP
子网内的主机需要和外网进行通信时，路由器将IP首部中的IP地址进行替换（替换成WAN口IP），这样逐级替换，最终数据包中的IP地址成为一个公网IP。这种技术成为NAT（Network Address Translation，网络地址转换）
如果我们希望，自己实现的服务器程序能够在公网上被访问到。则需要把程序部署在一台具有外网IP的服务器上。这样的服务器可以在阿里云/腾讯云上进行购买

路由选择

在复杂的网络结构中，找出一条通往终点的路线

路由的过程，是一跳一跳（Hop by Hop）“问路”的过程

所谓”一跳“就是数据链路层中的一个区间。具体在以太网中指从源MAC地址到目的MAC地址之间的帧传输区间

IP数据包的传输过程也和问路一样

当IP数据包到达路由器时，路由器会先查看目的IP
路由器决定这个数据包是能直接发送给目标主机，还是需要发送给下一个路由器；
依次反复，一直到达目标IP地址

那么如何判定当前这个数据包该发送到哪里呢？这个就依靠每个节点内部维护一个路由表

路由表可以使用route命令查看
如果目的IP命中了路由表，就直接转发即可；
路由表中的最后一行，主要由下一跳地址和发送接口两部分组成，当目的地址与路由表中其他行匹配时，就按缺省路由条目规定的接口发送到下一跳地址

假设某主机上的网络接口配置和路由表如下：

这台主机有两个网络接口，一个网络接口连到192.168.10.0/24网络，另一个网络接口连到192.168.56.0/24网络
路由表的Destination是目的网络地址，Genmask是子网掩码，Gateway是下一跳地址，Iface是发送接口，Flags中的U标志表示此条目有效（可以禁用某些条目），G标签表示此条目的下一跳地址是某个路由器的地址，没有G标志的条目表示目的网络地址是与本机接口直接相连的网络，不必经路由器转发

转发过程例1：如果要发送的数据包的目的地址是：192.168.56.3

跟第一行的子网掩码进行按位与运算得到网络号为：192.168.56.0，与第一行的目的网络地址不符
再跟第二行的子网掩码进行按位与运算得到网络号为：192.168.56.0，相符。因此从eth1接口发送出去
由于192.168.56.0/24正是与eth1接口直接相连的网络，因此可以直接发到目的主机，不需要经路由器转发

转发过程例2：如果要发送的数据包的目的地址是：202.10.1.2

依次和路由表的前几项进行对比，发现都不匹配
按缺省路由条目，从eth0接口发出去，发往192.168.10.1路由器
由192.168.10.1路由器根据它的路由表决定下一跳地址

路由表生成算法（不展开讨论）--大家可以自己去学习

路由表可以由网络管理员手动维护（静态路由），也可以通过一些算法自动生成（动态路由）

请大家自己调研一些相关的生成算法，例如：距离向量算法，LS算法，Dijkstra算法等

数据链路层

认识以太网

“以太网”不是一种具体的网络，而是一种技术标准；既包含了数据链路层的内容，也包含了一些物理层的内容。例如：规定了网络拓扑结构，访问控制方式，传输速率等

例如以太网中的网线必须使用双绞线；传输速率有10M、100M、1000M等
以太网是当前应用中最广泛的局域网技术；和以太网并列的还有令牌环网，无线LAN等

以太网帧格式

源地址和目的地址是指网卡的硬件地址（也叫MAC地址），长度是48位，是在网卡出厂时固化的
帧协议类型字段有三种值，分别对应IP、ARP、RARP
帧末尾是CRC校验码

认识MAC地址

MAC地址用来识别数据链路层中相连的节点
长度为48位（6个字节）。一般用16进制数字加上冒号的形式来表示（例如：08:00:27:03:fb:19）
在网卡出厂时就确定了，不能修改。MAC地址通常是唯一的（虚拟机中的MAC地址不是真实的MAC地址，可能会冲突；也有些网卡支持用户配置MAC地址）

对比理解MAC地址和IP地址

IP地址描述的是路途总体的起点和终点
MAC地址描述的是路途上的每一个区间的起点和终点

认识MTU

MTU相当于发快递时对包裹尺寸的限制。这个限制是不同的数据链路对应的物理层所产生的

以太网帧中的数据长度规定最小为46字节，最大为1500字节，ARP数据包的长度不够46字节，要在后面补填充位
最大值1500称为以太网的最大传输单元（MTU），不同的网络类型有不同的MTU
如果一个数据包从以太网路由到拨号链路上，数据包长度大于拨号链路的MTU时，则需要对数据包进行分片
不同的数据链路层标准的MTU是不同的

MTU对IP协议的影响

由于数据链路层MTU的限制，对于较大的IP数据包要进行分包

将较大的IP包分成多个小包，并给每个小包打上标签
每个小包IP协议头的 16位标识（id）都是相同的
每个小包的IP协议头的 3位标志字段中，第2位都置为0，表示允许分片，第3位来表示结束标记（当前是否是最后一个小包，如果是的话，置为1，否则置为0）
到达对端时再将这些小包，按顺序重组，拼装到一起返回给传输层
一旦这些小包中的任意一个小包丢失，接收端的重组就会失败。但是IP层不会负责重新传输数据

MTU对UDP协议的影响

让我们回顾一下UDP协议：

一旦UDP携带的数据超过1472（1500-20（IP首部）-8（UDP首部）），那么就会在网络层分成多个IP数据报
这多个IP数据报有任意一个丢失，都会引起接收端网络层重组失败。那么这就意外着，如果UDP数据报在网络层被分片，整个数据报丢失的概率就大大增加了

MTU对TCP协议的影响

让我们再回顾一下TCP协议：

TCP的一个数据报也不能无限大，还是受制于MTU。TCP的单个数据报的最大消息长度，称为MSS（Max Segment Size）
TCP在建立连接的过程中，通信双方会进行MSS协商
最理想的情况下，MSS的值正好是在IP不会被分片处理的最大长度（这个长度仍然是受制于数据链路层的MTU）
双方在发送SYN的时候会在TCP头部写入自己能支持的MSS值
然后双方得知对方的MSS值之后，选择较小的作为最终MSS
MSS的值就是在TCP首部的40字节变长选项中（kind=2）

MSS和MTU的关系

ARP协议

虽然我们在这里介绍ARP协议，但是需要强调，ARP不是一个单纯的数据链路层的协议，而是一个介于数据链路层和网络层之间的协议

ARP协议的作用

ARP协议建立了主机IP地址和 MAC地址的映射关系

在网络通讯时，源主机的应用程序知道目的主机的IP地址和端口号，却不知道目的主机的硬件地址--MAC地址
数据包首先是被网卡接收到再去处理上层协议的。如果接收到的数据包的硬件地址与本机不符，则直接丢弃
因此在通讯前必须获得目的主机的硬件地址

ARP协议的工作流程

源主机发送ARP请i去，询问“IP地址是172.20.1.2的主机的硬件地址是多少”，并将这个请求广播到本地网段（以太网帧首部的硬件地址填FF：FF：FF：FF：FF：FF表示广播）
目的主机接收到广播的ARP请求，发现其中的IP地址与本机相符，则发送一个ARP应答数据包给源主机，将自己的硬件地址填写在响应包中；
每台主机都维护一个ARP缓存表，可以用 arp -a命令查看。缓存表中的表项有过期时间（一般为20分钟），如果20分钟内没有再次使用这个表项，则该表项失效，下次还要发ARP请求来获得目的主机的硬件地址

重要应用层协议DNS（Domin Name System）

DNS是一整套从域名映射到 IP 的系统

DNS背景

TCP/IP中使用IP地址和端口号来确定网络上的一台主机的一个程序。但是IP地址不方便记忆

于是人们发明了一种叫主机名的东西，是一个字符串，并且使用hosts文件来描述主机名和IP地址的关系

DNS是应用层协议
DNS底层使用UDP进行解析
浏览器会缓存DNS结果

经典面试题：

浏览器中输入url后，发生的事情

NAT技术

NAT技术背景

之前我们讨论了，IPv4协议中，IP地址数量不充足的问题

NAT技术当前解决IP地址不够用的主要手段，是路由器的一个重要功能

NAT能够将私有IP对外通信时转为全局IP（公网IP）。也就是一种将私有IP和全局IP相互转化的技术方法
很多学校，家庭，公司内部采用在每个终端设置私有IP，而在路由器或必要的服务器上设置全局IP
全局IP要求唯一，但是私有IP不需要；在不同的局域网中出现相同的私有IP是完全不影响的

NAT IP转换过程

NAT路由器将源地址从10.0.0.10 替换为全局IP 202.244.174.37
NAT路由器收到外部的数据时，又会把目标IP从202.244.174.37替换回10.0.0.10
在NAT路由器内部，有一张自动生成的，用于地址转换的表
当10.0.0.10第一次向163.221.120.9发送数据时就会生成表中的映射关系

NAPT

那么问题来了，如果局域网内，有多个主机都访问同一个外网服务器，那么对于服务器返回的数据，目的IP都是相同的。那么NAT路由器如何判定将这个数据包转发给哪个局域网的主机？

这时候NAPT便出现了。使用IP+Port来建立这个关联关系

这种关联关系也是由NAT路由器自动维护的。例如在TCP的情况下，当建立连接时，就会生成这个表项；在断开连接后，就会删除这个表项

NAT技术的优缺点

由于NAT依赖这个转换表，所以有诸多限制：

无法从NAT外部向内部服务器建立连接
转换表的生成和销毁都需要额外开销
通信过程中一旦NAT设备异常，即使存在热备，所有的TCP连接也都会断开

但是NAT有一个最大的优点：不需要更新硬件设备，只更新软件，就可以解决IP地址不够用的问题

数据的整个传输过程

当我们在电脑上打开一个网页时，数据会经历以下传输过程：

应用层：我们的浏览器（应用层）生成一个HTTP请求，请求网页内容
传输层：HTTP请求被封装成TCP段，并添加源端口和目标端口。源端口是我们的电脑上的一个随机端口，目标端口是Web服务器的端口（通常是80或443）
网络层：TCP段被封装成IP数据报，并添加源IP地址和目标IP地址。源IP地址就是我们的电脑的IP地址，目标IP地址是Web服务器的IP地址
数据链路层：IP数据报被封装成数据帧，并添加源MAC地址和目标MAC地址。源MAC地址就是我们的电脑的MAC地址，目标MAC地址是默认网关（通常是路由器）的MAC地址
物理层：数据帧被转换成比特流，并通过物理介质（如网线、光纤）传输到默认网关
默认网关（路由器）：路由器接收到数据帧后，解封装成数据帧，查看目标IP地址。路由器根据路由表找到下一跳地址，并将数据帧转发到下一跳地址
重复步骤5和6：数据帧可能经过多个路由器转发，直到到达目标网络
目标网络：当数据帧到达目标网络后，目标网络的路由器或交换机将数据帧解封装，并根据MAC地址将数据帧转发到目标电脑
目标电脑：目标电脑收到数据帧后，解封装数据帧，查看目标端口。目标电脑将数据帧转发到相应的端口，并由相应的应用程序（如Web服务器）处理请求
响应过程：Web服务器处理请求后，会生成一个HTTP响应，并按照相同的路径返回给我们的电脑

查看全文

http://www.xdnf.cn/news/343243.html