ibping基本使用 以及 包丢失 超时 排障
1、ibping基本用法
第1步:获取目标机器的LID
机器B作为服务端,在机器B上执行:
# 获取机器B的LID号
ibstat | grep "Base lid" | awk '{print $3}' | head -1# 示例:3255不同网卡会有多个LID,切记根据自己需要的网卡LID进行ping
B机器上,启动监听
# 使用获取到的LID启动服务器
ibping -S $B_LID# 或者直接使用LID数值
# ibping -S 3290# 正确启动会显示
ibwarn: [port] : waiting for client to connect...
启动客户端(连接模式),在机器A上执行(作为客户端):
# 客户端输出(机器A)
--- (Lid 32XX) ibping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3004 ms
rtt min/avg/max = 0.034/0.036/0.039 ms# 服务器端输出(机器B)
ibwarn: [port] : client connected!
--- (Lid 32XX) ibping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3004 ms
2、包丢失 超时 排障
ibping超时丢包基本排障项目如下,最好按顺序来,由上至下。
# 检查 OpenSM 服务状态
systemctl status opensmd# 检查 OpenSM 日志
tail -20 /var/log/opensm.log# 检查子网管理器信息
opensm --version# 查看子网信息
sudo opensm --dump | head -50# 检查本地 InfiniBand 状态
ibstat
ibstatus# 检查固件
mlxfwmanager# 检查本地端口状态
ibportstate# 检查子网管理器
sudo opensm --dump# 检查 InfiniBand 交换机连接
ibswitches# 检查 ARP 表
arp -n | grep -i ib# 检查 InfiniBand 接口
ip addr show | grep -E "(ib|infiniband)"# 检查 RDMA 状态
rdma link# 检查 Mellanox 设备
lspci | grep -i mellanox# 检查驱动加载
lsmod | grep -i mlx# 检查物理连接
sudo ethtool eth0 # 检查以太网状态# 检查网络路由
ip route show# 检查防火墙
sudo firewall-cmd --list-all# 测试基本的网络连通性
ping -c 4 <IP>