Linux LVS集群技术详解与实战指南
一、集群和分布式
(一)、系统性能扩展方式
- Scale UP:垂直扩展,向上扩展,增强,性能更强的计算机运行同样的服务,即升级单机的硬件设备。随着计算机性能的增长,其价格会成倍增加,且单台计算机的性能是有上限的,不可能无限制地垂直扩展。
- Scale Out:水平扩展,向外扩展,增加设备,并行地运行多个服务调度分配问题。
(二)、什么是集群
集群(Cluster):为解决某个特定问题将多台计算机组合起来形成的单个系统。
集群(Cluster)的三种类型
- LB: Load Balancing,负载均衡,多个主机组成,每个主机只承担一部分访问请求。
- HA: High Availiablity,高可用,避免 SPOF(single Point Of failure 单点故障)。
- HPC: High-performance computing,高性能,国家战略资源,日常不做考虑。
(三)、什么是分布式系统
1、分布式存储
- Ceph
- GlusterFS
- FastDFS
- MogileFS
2、分布式计算
- hadoop
- Spark
3、分布式常见应用
- 分布式应用:服务按照功能拆分,使用微服务(单一应用程序划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值服务)
- 分布式静态资源:静态资源放在不同的存储集群上
- 分布式数据和存储:使用key-value缓存系统
- 分布式计算:对特殊业务使用分布式计算,比如Hadoop集群
(四)、集群和分布式的区别
- 集群:同一个业务系统,部署在多台服务器上。集群中,每一台服务器实现的功能没有差别,数据和代码都是一样的。
- 分布式:一个业务被拆成多个子业务,或者本身就是不同的业务,部署在多台服务器上。分布式中,每一台服务器实现的功能是有差别的,数据和代码也是不一样的,分布式每台服务器功能加起来,才是完整的业务。
分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。
对于大型网站,访问用户很多,实现一个群集,在前面部署一个负载均衡服务器,后面几台服务器完成同一业务。如果有用户进行相应业务访问时,负载均衡器根据后端哪台服务器的负载情况,决定由给哪一台去完成响应,如果一台服务器垮了,其它的服务器可以顶上来。分布式的每一个节点,都完成不同的业务,如果一个节点垮了,那这个业务可能就会失败
概括:集群是其中一个不能用了其他的还能用,分布式是其中一个不能用了剩余的全部都不能用
二、Linux Virtual Server简介
(一)、什么是LVS
LVS是“ Linux virtual server ”的缩写,为Linux虚拟服务器,是一个虚拟的服务器集群系统。LVS简单工作原理为用户请求LVS VIP,LVS根据转发方式和算法,将请求转发给后端服务器,后端服务器接收到请求,返回给用户。对于用户来说,看不到Web后端具体的应用。
(二)、LVS工作原理
VS根据请求报文的目标IP和目标协议及端口将其调度转发至某RS,根据调度算法来挑选RS。LVS是内核级功能,工作在INPUT链的位置,将发往INPUT的流量进行“处理”。
(三)、LVS核心架构
LVS(Linux Virtual Server)是基于Linux内核的四层负载均衡解决方案,通过将多台服务器组成虚拟服务集群,实现高性能、高可用的网络服务。其核心组件包括:
Director:负载均衡调度器,接收客户端请求并分发到后端 Real Server(调度器)
RS (Real Server):实际处理请求的后端服务器(真实服务器)
VS (Virtual Server): 虚拟服务器,负责调度
VIP (Virtual IP):对外服务的虚拟IP地址
RIP (Real IP):后端服务器的真实IP地址
DIP (Director IP):VS内网的IP 代理服务器的 内网ip
CIP (Client IP):客户端源IP地址
(四)、LVS数据访问流程
访问流程:CIP <--> VIP == DIP <--> RIP
客户端(client)请求到达Director的PREROUTING链
内核确认目标VIP是本机,转发至INPUT链
IPVS模块匹配集群服务规则
根据调度算法选择Real Server
按工作模式(NAT/DR/TUN)修改数据包
转发至POSTROUTING链并发送到RS
(五)、LVS调度算法
ipvs scheduler:根据其调度时是否考虑各RS当前的负载状态分为两种:
1. 静态算法(不考虑RS负载)
- RR(轮询):将收到的访问请求按照顺序轮流分配给群集中的各节点,均等地对待每台服务器,而不管服务器实际的连接数和系统负载。 ——适用场景:Real Server 性能均等
- WRR(加权轮询):根据调度器设置的权重值来分发请求,权重值高的节点优先获得任务并且分配的请求越多,这样可以保证性能高的节点承担更多请求。 ——适用场景:Real Server 配置不均
- SH(源地址哈希):根据请求来源的IP地址进行Hash计算,得到后端服务器,这样来自同一个IP的请求总是会落到同一台服务器上处理,以致于可以将请求上下文信息存储在这个服务器上。 ——适用场景:需要会话保持的应用
2. 动态算法(基于RS负载状态)
- LC(最少连接):根据真实服务器已建立的连接数进行分配,将收到的访问请求优先分配给连接数最少的节点。如果所有的服务器节点性能相近,采用这种方式可以更好地均衡负载。 ——适用场景:长连接服务(如数据库)
- WLC(加权最少连接):在服务器节点的性能差异较大的情况下,调度器可以根据节点服务器负载自动调整权重,权重较高的节点将承担更大比例的活动连接负载。 ——适用场景:Real Server 性能均等,但需动态平衡 “连接数”,避免节点过载。
- SED/NQ:优化高权重节点的初始连接分配。Shortest Expection Delay,初始连接高权重优先,只检查活动连接,而不考虑非活动连接 ;Never Queue,第一轮均匀分配,后续SED。 ——适用场景:Real Server 性能均等,但需 “优先让高权重节点承接初始连接”(哪怕连接数稍多 ),或需 “初始流量倾斜”。
三、LVS部署命令
(一)、lvs软件相关信息
- 程序包:ipvsadm
- Unit File: ipvsadm.service
- 主程序:/usr/sbin/ipvsadm
- 规则保存工具:/usr/sbin/ipvsadm-save
- 规则重载工具:/usr/sbin/ipvsadm-restore
- 配置文件:/etc/sysconfig/ipvsadm-config
- ipvs调度规则文件:/etc/sysconfig/ipvsadm
(二)、ipvsadm命令
1、管理集群服务
ipvsadm -A|E -t(tcp)|u(udp)|f(防护墙标签) \
service-address(集群地址) \
[-s scheduler(调度算法)] \
[-p [timeout]] \
[-M netmask] \
[--pepersistence_engine] \
[-b sched-flags]
ipvsadm -D -t|u|f service-address ### 删除
ipvsadm –C ### 清空
ipvsadm –R ### 重载
ipvsadm -S [-n] ### 保存
2、管理集群中的real server
ipvsadm -a|e -t|u|f service-address -r server-address [-g | -i| -m](工作模式) [-w weight](权重)
ipvsadm -d -t|u|f service-address -r server-address ### 删除RS
ipvsadm -L|l [options] ### 查看rs
ipvsadm -Z [-t|u|f service-address] ### 清楚计数器
3、lvs集群中的增删改
(1)、管理集群服务中的增删改
形式:
ipvsadm -A|E -t|u|f service-address [-s scheduler] [-p [timeout]]
【watch -n 1 "ipvsadm -Ln" 监控代码】
-A #添加
-E #修改
-t #tcp服务
-u #udp服务
-s #指定调度算法,默认为WLC
-p #设置持久连接超时,持久连接可以理解为在同一个时间段同一个来源的请求调度到同一Realserver-f #firewall mask 火墙标记,是一个数字
举例:
【增加】
# ipvsadm -A -t 172.25.254.100:80 -s rr
# ipvsadm -A -f 66 -p 3000
【修改】
# ipvsadm -E -t 172.25.254.100:80 -s wrr -p 3000
【删除】
# ipvsadm -D -t 172.25.254.100:80
# ipvsadm -D -f 66
(2)、管理集群中RealServer的增删改
形式:
ipvsadm -a|e -t|u|f service-address -r realserver-address [-g|i|m] [-w weight]
参数 | 作用/含义 |
-a | 添加realserver |
-e | 更改realserver-t #tcp协议 |
-u | udp协议 |
-f | 火墙 标签 |
-r | realserver地址 |
-g | 直连路由模式 |
-i | ipip隧道模式 |
-m | nat模式 |
-w | 设定权重 |
-Z | 清空计数器 |
-C | 清空lvs策略 |
-L | 查看lvs策略 |
-n | 不做解析 |
--rate | 输出速率信息 |
举例:
【要先ipvsadm -A -t 172.25.254.100:80 -s rr建立集群】
【添加】
# ipvsadm -a -t 172.25.254.100:80 -r 192.168.0.30 -m ## 添加realserver,设定nat模式
# ipvsadm -a -t 172.25.254.100:80 -r 192.168.0.40 -m -w 2 ### 配置权重
【更改】
# ipvsadm -e -t 172.25.254.100:80 -r 192.168.0.30 -m -w 1
# ipvsadm -e -t 172.25.254.100:80 -r 192.168.0.30 -i -w 3 ## 更改模式并配置权重
【删除】
# ipvsadm -d -t 172.25.254.100:80 -r 192.168.0.30
# ipvsadm -Ln
# ipvsadm -Ln --rate
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port CPS InPPS OutPPS InBPS OutBPS
-> RemoteAddress:Port
TCP 172.25.254.100:80 0 0 0 0 0
-> 192.168.0.30:80 0 0 0 0 0
-> 192.168.0.40:80 0 0 0 0 0
# ipvsadm -C #### 清空所有策略# ipvsadm -Z -t 172.25.254.20:80
# ipvsadm -Ln --rate
IP Virtual Server version 1.2.1 (size=4096)
Prot LocalAddress:Port CPS InPPS OutPPS InBPS OutBPS
-> RemoteAddress:Port
TCP 172.25.254.20:80 0 0 0 0 0
-> 192.168.0.30:80 0 0 0 0 0
-> 192.168.0.40:80 0 0 0 0 0
# ipvsadm-save ### 以易读格式输出当前 IPVS 规则(包含服务名称解析)
# ipvsadm-save -n ### 选项表示以数字格式输出(不进行服务名称解析,输出IP)
(3)、备份和恢复
# ipvsadm-save -n > /mnt/ipvsadm.rule ### 备份保存
# ipvsadm -C ### 删除全部
# ipvsadm-restore < /mnt/ipvsadm.rule ### 恢复
# ipvsadm-save -n > /etc/sysconfig/ipvsadm ### 另一种备份方法
# ipvsadm -C ### 删除全部
# systemctl enable --now ipvsadm.service ### 也可以恢复
四、LVS集群的工作模式
- lvs-nat: 修改请求报文的目标IP,多目标IP的DNAT
- lvs-dr: 操纵封装新的MAC地址(直接路由)
- lvs-tun: 在原请求IP报文之外新加一个IP首部(隧道模式)
- lvs-fullnat: 修改请求报文的源和目标IP
(一)、NAT模式
1、什么是NAT模式
本质是多目标IP的DNAT,通过将请求报文中的目标地址和目标端口修改为某挑出的RS的RIP和PORT实现转发
- RIP和DIP应在同一个IP网络,且应使用私网地址;RS的网关要指向DIP
- 请求报文和响应报文都必须经由Director转发,Director易于成为系统瓶颈
- 支持端口映射,可修改请求报文的目标PORT
- VS必须是Linux系统,RS可以是任意OS系统
2、nat模式数据逻辑
发起请求:
- 客户端发送访问请求,请求数据包中含有请求来源(cip),访问目标地址(VIP)访问目标端口(9000port)。
- VS服务器接收到访问请求做DNAT把请求数据包中的目的地由VIP换成RS的RIP和相应端口。
- RS1相应请求,发送响应数据包,包中的相应保温为数据来源(RIP1)响应目标(CIP)相应端口(9000port)。
- VS服务器接收到响应数据包,改变包中的数据来源(RIP1-->VIP),响应目标端口(9000-->80)。
- VS服务器把修改过报文的响应数据包回传给客户端 。
- lvs的NAT模式接收和返回客户端数据包时都要经过lvs的调度机,所以lvs的调度机容易阻塞。
目标地址:
- 客户请求到达vip后进入PREROUTING,在没有ipvs的时候因该进入本机INPUT,当IPVS存在后访问请求在通过PREROUTING后被ipvs结果并作nat转发。
- 因为ipvs的作用点是在PREROUTING和INPUT链之间,所以如果在prerouting中设定规则会干扰ipvs的工作。所以在做lvs时要把iptables的火墙策略全清理掉。
(二)、DR模式
1、什么是NAT模式
- DR:Direct Routing,直接路由,LVS默认模式,应用最广泛,通过为请求报文重新封装一个MAC首部进行转发,源MAC是DIP所在的接口的MAC,目标MAC是某挑选出的RS的RIP所在接口的MAC地址;源IP/PORT,以及目标IP/PORT均保持不变
- 在DR模式中,RS接收到访问请求后不需要回传给VS调度器,直接把回传数据发送给client,所以RS和vs上都要有vip
2、DR模式数据传输过程
- 客户端发送数据帧给vs调度主机帧中内容为客户端IP+客户端的MAC+VIP+VIP的MAC。
- VS调度主机接收到数据帧后把帧中的VIP的MAC该为RS1的MAC,此时帧中的数据为客户端IP+客户端的MAC+VIP+RS1的MAC。
- RS1得到2中的数据包做出响应回传数据包,数据包中的内容为VIP+RS1的MAC+客户端IP+客户端IP的MAC。
3、DR模式的特点
1、Director和各RS都配置有VIP
- 确保前端路由器将目标IP为VIP的请求报文发往Director
2、在前端网关做静态绑定VIP和Director的MAC地址
- 在RS上使用arptables工具
arptables -A IN -d $VIP -j DROP
arptables -A OUT -s $VIP -j mangle --mangle-ip-s $RIP
- 在RS上修改内核参数以限制arp通告及应答级别
/proc/sys/net/ipv4/conf/all/arp_ignore
/proc/sys/net/ipv4/conf/all/arp_announce
3、RS的RIP可以使用私网地址,也可以是公网地址;RIP与DIP在同一IP网络;
4、RIP的网关不能指向DIP,以确保响应报文不会经由Director
5、RS和Director要在同一个物理网络
6、请求报文要经由Director,但响应报文不经由Director,而由RS直接发往Client
不支持端口映射(端口不能修败)
8、RS可使用大多数OS系统
(三)、TUN模式(不常用)
1、什么是TUN模式
转发方式:不修改请求报文的IP首部(源IP为CIP,目标IP为VIP),而在原IP报文之外再封装一个IP首部(源IP是DIP,目标IP是RIP),将报文发往挑选出的目标RS;RS直接响应给客户端(源IP是VIP,目标IP是CIP)
2、TUN模式数据传输过程
客户端发送请求数据包,包内有源IP+vip+dport
到达vs调度器后对客户端发送过来的数据包重新封装添加IP报文头,新添加的IP报文头中包含TUNSRCIP(DIP)+TUNDESTIP(RSIP1)并发送到RS1
RS收到VS调度器发送过来的数据包做出响应,生成的响应报文中包含SRCIP(VIP)+DSTIP(CIP)+port,响应数据包通过网络直接回传给client
3、TUN模式的特点
- DIP, VIP, RIP都应该是公网地址 。
- RS的网关一般不能指向DIP 。
- 请求报文要经由Director,但响应不能经由Director 。
- 不支持端口映射。
- RS的OS须支持隧道功能。
(四)、fullnet模式
1、什么是fullnet模式
fullnat:通过同时修改请求报文的源IP地址和目标IP地址进行转发
CIP --> DIP
VIP --> RIP
2、fullnet模式的特点
- VIP是公网地址,RIP和DIP是私网地址,且通常不在同一IP网络;因此,RIP的网关一般不会指向DIP。
- RS收到的请求报文源地址是DIP,因此,只需响应给DIP;但Director还要将其发往Client。
- 请求和响应报文都经由Director。
- 支持端口映射。