【JavaEE】TCP/IP协议(模型)
在上篇文章,我们已经讲解了【TCP协议】,这里就不进行讲解了。这两篇文章共同解释了TCP/IP协议。大家在学习TCP/IP协议时,一定要将两篇文章都看一遍
TCP协议
在讲解TCP/IP协议(模型)之前,我们最好先去学习一下 【网络技术的发展史】
网络技术发展史
TCP/IP分层模型
TCP/IP协议(模型)与七层OSI模型的对应关系
由图我们可知:
TCP/IP协议的应用层的主要协议有HTTP、FTP、SMTP、Telnet等,是用来读取来自传输层的数据或者将数据传输写入传输层
传输层的主要协议有TCP、UDP,是用来实现端对端的数据传输
网络层(互联网层)的主要协议有ICMP、IP、IGMP,主要负责网络中数据包的传送等
链路层(网卡层和硬件层)有时也称作数据链路层或网络接口层,主要协议有ARP、RARP,通常包括操作系统中的设备驱动程序和计算机中对应的网络接口卡,它们一起处理与传输媒介(如电缆或其他物理设备)的物理接口细节
我们接下来针对 TCP/IP模型的各个层进行讲解
应用层
我们之前编写完了基本的java socket,要知道,我们之前所写的代码都在应用层,都是为了完成某项业务,如翻译等。关于应用层,我们在讲解完基本的TCP/IP协议之后,再进行单独的讲解
传输层
负责数据能够从发送端传输到接收端
传输层主要是TCP、UDP。我们之前文章已经讲解。可跳转到下面两篇文章进行学习。
TCP协议
UDP
网络层
在复杂的网络环境中确定一个合适的路径
IP协议
基本概念
主机:配有IP地址,但是不进行路由控制的设备
路由器:既配有IP地址,又能进行路由控制
节点:主机和路由器的统称
IP协议头格式
-
4位版本号:指定IP协议的版本,对于IPv4来说,就是4
-
4位首部长度(header length):IP头部的长度是多少个32bit,也就是length*4的字节数。4bit表示最大的数字位15,因此IP首部最大长度为60字节
-
8位服务类型:其中有3位是优先权字段(已弃用),4位TOS字段,和1位保留字段(必须置为0)。4位TOS分别表示:最小延时,最大吞吐量,最高可靠性,最小成本。这四者相互冲突,只能选择一个。对于ssh/telnet这样的应用程序,最小延时比较重要;对于ftp这样的程序,最大吞吐量比较重要
-
16位总长度:IP数据报整体占多少个字节
-
16位标识(id):唯一的标识主机发送的报文。如果IP报文在数据链路层被分片了,那么每一个片里面的这个id都是相同的
-
3位标志字段:第一位保留(保留的意思是现在不用,但是还没想好说不定以后要用到)。第二位置为1表示禁止分片,这时候如果报文长度超过MTU,IP模块就会丢弃报文。第三位表示“更多分片”,如果分片了话,最后一个分片置为1,其他是0。类似于一个结束标记
-
13位分片偏移:是分片相对于原始IP报文开始处的偏移。其实就是在表示当前分片在原报文中处在哪个位置。实际偏移的字节数是这个值*8得到的。因此,除了最后一个报文之外,其他报文的长度必须是8的整数倍(否则报文就不连续了)
-
8位生存时间(TTL):数据报到达目的地的最大报文跳数。一般是64。每次经过一个路由,TTL-=1,一直减到0,如果还没到达,那么就丢弃了。这个字段主要是用来防止出现路由循环
-
8位协议:表示上层协议的类型
-
16位头部校验和:使用CRC进行校验,来鉴别头部是否损坏。
-
32位源地址和32位目标地址:表示发送端和接收端
-
选项字段(不定长,最多40字节):略
地址管理
网段划分
IP地址分为两个部分,网络号和主机号
通过前面的学习,我们已知IP地址的结构。
IP地址的结构:
·IP地址由32位二进制数组成,通常表示为4个十进制数,如192.168.1.1
·IP地址分为网络号和主机号。网络号用于标识网络,主机号用于标识网络中的设备
网络号:保证相互连接的两个网段具有不同的表示
主机号:在同一网段内,主机之间具有相同的网络号,但是必须有不同的主机号
同时,我们会有子网掩码来进行子网划分(这里先不追究子网掩码是什么,后续在讲解网段划分时会进行讲解。我们现在只需要知道,一串数字中,哪一部分是子网掩码即可)
如下图的 192.168.128.10/24 这里的 /24 表示子网掩码
下图所说的 网络标识即为网络号,主机标识即为主机号
-
不同的子网其实就是把网络号相同的主机放到一起
-
如果在子网中新增一台主机,则这台主机的网络号和这个子网的网络号一致,但是主机号必须不能和子网中的其他主机重复
通过合理设置主机号和网络号,就可以保证在相互连接的网络中,每台主机的IP地址都不相同
那么,问题来了:手动管理子网内的IP,是一个相当麻烦的事情
-
有一种技术叫做DHCP,能够自动的给子网内新增主机节点分配IP地址,避免了手动管理IP的不便
-
一般的路由器都带有DHCP功能。因此路由器也可以看做是一个DHCP服务器
过去曾经提出一种划分网络号和主机号的方案,把所有IP地址分为五类,如下图所示。
-
A类:0.0.0.0~127.255.255.255
-
B类:128.0.0.0~191.255.255.255
-
C类:192.0.0.0~223.255.255.255
-
D类:224.0.0.0~239.255.255.255
-
E类:240.0.0.0~247.255.255.255
随着Internet的飞速发展,这种划分方案的局限性很快显现出来,大多数组织都申请B类网络地址,导致B类地址很快就分配完了,而A类却浪费了大量地址;
-
例如,申请了一个B类地址,理论上一个子网内能允许6.5万多个主机。A类地址的子网内的主机数更多,多达1600万
-
然而实际网络架构中,A类地址中不会存在一个子网内有这么多主机的情况。因此大量的IP地址都被浪费掉了
针对这种情况提出了新的划分方案,称为CIDR(Classless Inter-domain Routing)
-
引入一个额外的子网掩码来区分网络号和主机号
-
子网掩码也是一个32位的正整数。通常用一串“0”来结尾
-
将IP地址和子网掩码进行“按位与”操作,得到的结果就是网络号
-
网络号和主机号的划分与这个IP地址是A类、B类还是C类无关;
子网掩码
子网掩码是IPv4网络中用于划分网络号和主机号的核心工具,它通过32位二进制数(通常以点分十进制或CIDR表示)明确标识IP地址的网络号和主机号。
定义:子网掩码本质是一个由连续“1”和“0”组成的32位二进制数,其中:
-
连续“1”表示网络号:对应IP地址中属于网络号的部分
-
连续“0”表示主机号:对应IP地址中属于主机号的部分
例如,IP地址192.168.1.10与子网掩码255.255.255.0配合使用时:
-
网络号:192.168.1.0(前24位为网络号)
-
主机号:.10(后8位为主机号,可分配给设备)
其主要功能包括:
-
网络划分:将大网络分割为多个子网,提升管理效率
-
路由决策:路由器通过子网掩码判断数据包应转发至哪个网络
-
安全优化:限制广播域范围,减少网络拥塞和攻击风险
-
地址复用:通过灵活划分,避免IPv4地址资源浪费
表示方法
1.点分十进制:
示例:255.255.255.0(二进制位:11111111.11111111.11111111.00000000)
2.CIDR表示法:
示例: /24 表示前24位为网络号(等价于255.255.255.0)
我们现在可以完全掌握上述所说的:192.168.128.10/24
/24:表示前24位为网络号,即192.168.128为网络号 而 .10为主机号
网络号=IP地址与子网掩码 按位与运算
示例:192.168.128.10&255.255.255.0=192.168.128
下面举两个例子:
划分子网的例子1:
划分子网的例子2:
可见,IP地址与子网掩码 做“按位与”运算后,可以得到网络号,主机号从全0到全1就是子网的地址范围
特殊的IP地址
-
将IP地址中的主机地址全部设为0,就成为了网络号,代表这个局域网;
-
将IP地址中的主机地址全部设为1,就成为了广播地址,用于给同一个链路中相互连接的所有主机发送数据包;
-
127.*的IP地址用于本机环回(loop back)测试,通常是127.0.0.1
IP地址的数量限制
我们知道,IP地址(IPv4)是一个4字节32位的正整数。那么一共只有2的32次方个IP地址,大概是43亿左右。而TCP/IP协议规定,每个主机都需要有一个IP地址
这意味着,一共只有43亿台主机能接入网络吗?
实际上,由于一些特殊的IP地址的存在,导致接入网络的主机数量远不足43亿;另外IP地址并非是按照主机台数来配置的,而是每一个网卡都需要配置一个或多个IP地址
这样的话,我们结合当前电脑的普及率,可以知道,这是不够用的。
为了解决这一问题,先有了CIDR。
CIDR在一定程度上缓解了IP地址不够用的问题(提高了利用率,减少了浪费,但是IP地址的绝对上限并没有增加),仍然不是很够用。这时候有三种方式来解决:
-
动态分配IP地址:只给接入网络的设备分配IP地址。因此同一个MAC地址的设备,每次接入网络中,得到的IP地址不一定是相同的
-
NAT技术(后面详细讲解)
-
IPv6:IPv6并不是IPv4的简单升级版。这是互不相干的两个协议,彼此并不兼容;IPv6用16字节128位来表示一个IP地址;但是目前IPv6还没有完全普及
截⽌到 2023 年 8 ⽉ 28 ⽇, 我国 IPv6 活跃⽤⼾数达7.67亿(⽹⺠总数为10.79亿, 占⽐ 71%), 世界领先.
⼤⼒发展 IPv6 的原因, 参考以下视频.
电子监听、全国断网,棱镜门背后,中国如何从末路狂奔到世界之巅_哔哩哔哩_bilibili
私有IP地址和公网IP地址
如果一个组织内部组建局域网,IP地址只用于局域网内的通信,而不直接连到Internet上。
理论上,使用任意的IP地址都可以,但是RFC 1918规定了用于组建局域网的私有IP地址
-
10.*:前8位为网络号,后24位都为主机号;共16777216个地址--A类地址
-
172.16.到172.31:前12位为网络号,共1048576个地址
-
192.168.*:前16位是网络号,共65536个地址
包含在这个范围中的,都成为私有IP,其余的则称为全局IP(公网IP)
-
一个路由器可以配置两个IP地址,一个是WAN口IP,一个是LAN口IP(子网IP)
-
路由器LAN口连接的主机,都从属于当前这个路由器的子网中
-
不同的路由器,子网IP其实都是一样的(通常都是192.168.1.1)。子网内的主机号不能重复。但是不同子网之间的IP地址可以重复
-
每一个家用路由器,其实又作为运营商路由器的子网中的一个节点。这样的运营商路由器可能会有很多级,最外层的运营商路由器,WAN口IP就是一个公网IP
-
子网内的主机需要和外网进行通信时,路由器将IP首部中的IP地址进行替换(替换成WAN口IP),这样逐级替换,最终数据包中的IP地址成为一个公网IP。这种技术成为NAT(Network Address Translation,网络地址转换)
-
如果我们希望,自己实现的服务器程序能够在公网上被访问到。则需要把程序部署在一台具有外网IP的服务器上。这样的服务器可以在阿里云/腾讯云上进行购买
路由选择
在复杂的网络结构中,找出一条通往终点的路线
路由的过程,是一跳一跳(Hop by Hop)“问路”的过程
所谓”一跳“就是数据链路层中的一个区间。具体在以太网中指 从源MAC地址到 目的MAC地址之间的帧传输区间
IP数据包的传输过程也和问路一样
-
当IP数据包到达路由器时,路由器会先查看目的IP
-
路由器决定这个数据包是能直接发送给目标主机,还是需要发送给下一个路由器;
-
依次反复,一直到达目标IP地址
那么如何判定当前这个数据包该发送到哪里呢?这个就依靠每个节点内部维护一个路由表
-
路由表可以使用route命令查看
-
如果目的IP命中了路由表,就直接转发即可;
-
路由表中的最后一行,主要由 下一跳地址和发送接口两部分组成,当目的地址与路由表中其他行匹配时,就按缺省路由条目规定的接口发送到下一跳地址
假设某主机上的网络接口配置和路由表如下:
-
这台主机有两个网络接口,一个网络接口连到192.168.10.0/24网络,另一个网络接口连到192.168.56.0/24网络
-
路由表的Destination是目的网络地址,Genmask是子网掩码,Gateway是下一跳地址,Iface是发送接口,Flags中的U标志表示此条目有效(可以禁用某些条目),G标签表示此条目的下一跳地址是某个路由器的地址,没有G标志的条目表示目的网络地址是与本机接口直接相连的网络,不必经路由器转发
转发过程例1:如果要发送的数据包的目的地址是:192.168.56.3
-
跟第一行的子网掩码进行 按位与运算 得到网络号为:192.168.56.0,与第一行的目的网络地址不符
-
再跟第二行的子网掩码进行 按位与运算 得到网络号为:192.168.56.0,相符。因此从eth1接口发送出去
-
由于192.168.56.0/24正是与eth1接口直接相连的网络,因此可以直接发到目的主机,不需要经路由器转发
转发过程例2:如果要发送的数据包的目的地址是:202.10.1.2
-
依次和路由表的前几项 进行对比,发现都不匹配
-
按 缺省路由条目,从eth0接口发出去,发往192.168.10.1路由器
-
由192.168.10.1路由器根据它的路由表决定下一跳地址
路由表生成算法(不展开讨论)--大家可以自己去学习
路由表可以由网络管理员手动维护(静态路由),也可以通过一些算法自动生成(动态路由)
请大家自己调研一些相关的生成算法,例如:距离向量算法,LS算法,Dijkstra算法等
数据链路层
认识以太网
“以太网”不是一种具体的网络,而是一种技术标准;既包含了数据链路层的内容,也包含了一些物理层的内容。例如:规定了网络拓扑结构,访问控制方式,传输速率等
-
例如以太网中的网线必须使用双绞线;传输速率有10M、100M、1000M等
-
以太网是当前应用中最广泛的局域网技术;和以太网并列的还有令牌环网,无线LAN等
以太网帧格式
-
源地址和目的地址是指网卡的硬件地址(也叫MAC地址),长度是48位,是在网卡出厂时固化的
-
帧协议类型字段有三种值,分别对应IP、ARP、RARP
-
帧末尾是CRC校验码
认识MAC地址
-
MAC地址用来识别数据链路层中相连的节点
-
长度为48位(6个字节)。一般用16进制数字加上冒号的形式来表示(例如:08:00:27:03:fb:19)
-
在网卡出厂时就确定了,不能修改。MAC地址通常是唯一的(虚拟机中的MAC地址不是真实的MAC地址,可能会冲突;也有些网卡支持用户配置MAC地址)
对比理解MAC地址和IP地址
-
IP地址描述的是路途总体的 起点和终点
-
MAC地址描述的是路途上的每一个区间的起点和终点
认识MTU
MTU相当于发快递时对包裹尺寸的限制。这个限制是不同的数据链路对应的物理层所产生的
-
以太网帧中的数据长度规定最小为46字节,最大为1500字节,ARP数据包的长度不够46字节,要在后面补填充位
-
最大值1500称为以太网的最大传输单元(MTU),不同的网络类型有不同的MTU
-
如果一个数据包从以太网路由到拨号链路上,数据包长度大于拨号链路的MTU时,则需要对数据包进行分片
-
不同的数据链路层标准的MTU是不同的
MTU对IP协议的影响
由于数据链路层MTU的限制,对于较大的IP数据包要进行分包
-
将较大的IP包分成多个小包,并给每个小包打上标签
-
每个小包IP协议头的 16位标识(id)都是相同的
-
每个小包的IP协议头的 3位标志字段中,第2位都置为0,表示允许分片,第3位来表示结束标记(当前是否是最后一个小包,如果是的话,置为1,否则置为0)
-
到达对端时再将这些小包,按顺序重组,拼装到一起返回给传输层
-
一旦这些小包中的任意一个小包丢失,接收端的重组就会失败。但是IP层不会负责重新传输数据
MTU对UDP协议的影响
让我们回顾一下UDP协议:
-
一旦UDP携带的数据超过1472(1500-20(IP首部)-8(UDP首部)),那么就会在网络层分成多个IP数据报
-
这多个IP数据报有任意一个丢失,都会引起接收端网络层重组失败。那么这就意外着,如果UDP数据报在网络层被分片,整个数据报丢失的概率就大大增加了
MTU对TCP协议的影响
让我们再回顾一下TCP协议:
-
TCP的一个数据报也不能无限大,还是受制于MTU。TCP的单个数据报的最大消息长度,称为MSS(Max Segment Size)
-
TCP在建立连接的过程中,通信双方会进行MSS协商
-
最理想的情况下,MSS的值正好是在IP不会被分片处理的最大长度(这个长度仍然是受制于数据链路层的MTU)
-
双方在发送SYN的时候会在TCP头部写入自己能支持的MSS值
-
然后双方得知对方的MSS值之后,选择较小的作为最终MSS
-
MSS的值就是在TCP首部的40字节变长选项中(kind=2)
MSS和MTU的关系
ARP协议
虽然我们在这里介绍ARP协议,但是需要强调,ARP不是一个单纯的数据链路层的协议,而是一个介于数据链路层和网络层之间的协议
ARP协议的作用
ARP协议建立了 主机IP地址 和 MAC地址 的映射关系
-
在网络通讯时,源主机的应用程序知道目的主机的IP地址和端口号,却不知道目的主机的硬件地址--MAC地址
-
数据包首先是被网卡接收到 再去处理上层协议的。如果接收到的数据包的硬件地址与本机不符,则直接丢弃
-
因此在通讯前必须获得目的主机的硬件地址
ARP协议的工作流程
-
源主机发送ARP请i去,询问“IP地址是172.20.1.2的主机的硬件地址是多少”,并将这个请求广播到本地网段(以太网帧首部的硬件地址填FF:FF:FF:FF:FF:FF表示广播)
-
目的主机接收到广播的ARP请求,发现其中的IP地址与本机相符,则发送一个ARP应答数据包给源主机,将自己的硬件地址填写在响应包中;
-
每台主机都维护一个ARP缓存表,可以用 arp -a命令查看。缓存表中的表项有过期时间(一般为20分钟),如果20分钟内没有再次使用这个表项,则该表项失效,下次还要发ARP请求来获得目的主机的硬件地址
重要应用层协议DNS(Domin Name System)
DNS是一整套从 域名 映射到 IP 的系统
DNS背景
TCP/IP中使用IP地址和端口号来确定网络上的一台主机的一个程序。但是IP地址不方便记忆
于是人们发明了一种叫主机名的东西,是一个字符串,并且使用hosts文件来描述主机名和IP地址的关系
-
DNS是应用层协议
-
DNS底层使用UDP进行解析
-
浏览器会缓存DNS结果
经典面试题:
浏览器中输入url后,发生的事情
NAT技术
NAT技术背景
之前我们讨论了,IPv4协议中,IP地址数量不充足的问题
NAT技术当前解决IP地址不够用的主要手段,是路由器的一个重要功能
-
NAT能够将 私有IP对外通信时 转为全局IP(公网IP)。也就是一种将私有IP和全局IP相互转化的技术方法
-
很多学校,家庭,公司内部采用在每个终端设置私有IP,而在路由器或必要的服务器上设置全局IP
-
全局IP要求唯一,但是私有IP不需要;在不同的局域网中出现相同的私有IP是完全不影响的
NAT IP转换过程
-
NAT路由器将源地址从10.0.0.10 替换为全局IP 202.244.174.37
-
NAT路由器收到外部的数据时,又会把目标IP从202.244.174.37替换回10.0.0.10
-
在NAT路由器内部,有一张自动生成的,用于地址转换的表
-
当10.0.0.10第一次向163.221.120.9发送数据时就会生成表中的映射关系
NAPT
那么问题来了,如果局域网内,有多个主机都访问同一个外网服务器,那么对于服务器返回的数据,目的IP都是相同的。那么NAT路由器如何判定将这个数据包转发给哪个局域网的主机?
这时候NAPT便出现了。使用IP+Port来建立这个关联关系
这种关联关系也是由NAT路由器自动维护的。例如在TCP的情况下,当建立连接时,就会生成这个表项;在断开连接后,就会删除这个表项
NAT技术的优缺点
由于NAT依赖这个转换表,所以有诸多限制:
-
无法从NAT外部向内部服务器建立连接
-
转换表的生成和销毁都需要额外开销
-
通信过程中一旦NAT设备异常,即使存在热备,所有的TCP连接也都会断开
但是NAT有一个最大的优点:不需要更新硬件设备,只更新软件,就可以解决IP地址不够用的问题
数据的整个传输过程
当我们在电脑上打开一个网页时,数据会经历以下传输过程:
- 应用层:我们的浏览器(应用层)生成一个HTTP请求,请求网页内容
- 传输层:HTTP请求被封装成TCP段,并添加源端口和目标端口。源端口是我们的电脑上的一个随机端口,目标端口是Web服务器的端口(通常是80或443)
- 网络层:TCP段被封装成IP数据报,并添加源IP地址和目标IP地址。源IP地址就是我们的电脑的IP地址,目标IP地址是Web服务器的IP地址
- 数据链路层:IP数据报被封装成数据帧,并添加源MAC地址和目标MAC地址。源MAC地址就是我们的电脑的MAC地址,目标MAC地址是默认网关(通常是路由器)的MAC地址
- 物理层:数据帧被转换成比特流,并通过物理介质(如网线、光纤)传输到默认网关
- 默认网关(路由器):路由器接收到数据帧后,解封装成数据帧,查看目标IP地址。路由器根据路由表找到下一跳地址,并将数据帧转发到下一跳地址
- 重复步骤5和6:数据帧可能经过多个路由器转发,直到到达目标网络
- 目标网络:当数据帧到达目标网络后,目标网络的路由器或交换机将数据帧解封装,并根据MAC地址将数据帧转发到目标电脑
- 目标电脑:目标电脑收到数据帧后,解封装数据帧,查看目标端口。目标电脑将数据帧转发到相应的端口,并由相应的应用程序(如Web服务器)处理请求
- 响应过程:Web服务器处理请求后,会生成一个HTTP响应,并按照相同的路径返回给我们的电脑