当前位置: 首页 > ai >正文

ibping基本使用 以及 包丢失 超时 排障

1、ibping基本用法

第1步:获取目标机器的LID

机器B作为服务端,在机器B上执行:

# 获取机器B的LID号
ibstat | grep "Base lid" | awk '{print $3}' | head -1# 示例:3255不同网卡会有多个LID,切记根据自己需要的网卡LID进行ping

B机器上,启动监听

# 使用获取到的LID启动服务器
ibping -S $B_LID# 或者直接使用LID数值
# ibping -S 3290# 正确启动会显示
ibwarn: [port] : waiting for client to connect...

启动客户端(连接模式),在机器A上执行(作为客户端):

# 客户端输出(机器A)
---  (Lid 32XX) ibping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3004 ms
rtt min/avg/max = 0.034/0.036/0.039 ms# 服务器端输出(机器B)  
ibwarn: [port] : client connected!
---  (Lid 32XX) ibping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3004 ms

2、包丢失 超时 排障

ibping超时丢包基本排障项目如下,最好按顺序来,由上至下。

# 检查 OpenSM 服务状态
systemctl status opensmd# 检查 OpenSM 日志
tail -20 /var/log/opensm.log# 检查子网管理器信息
opensm --version# 查看子网信息
sudo opensm --dump | head -50# 检查本地 InfiniBand 状态
ibstat
ibstatus# 检查固件
mlxfwmanager# 检查本地端口状态
ibportstate# 检查子网管理器
sudo opensm --dump# 检查 InfiniBand 交换机连接
ibswitches# 检查 ARP 表
arp -n | grep -i ib# 检查 InfiniBand 接口
ip addr show | grep -E "(ib|infiniband)"# 检查 RDMA 状态
rdma link# 检查 Mellanox 设备
lspci | grep -i mellanox# 检查驱动加载
lsmod | grep -i mlx# 检查物理连接
sudo ethtool eth0  # 检查以太网状态# 检查网络路由
ip route show# 检查防火墙
sudo firewall-cmd --list-all# 测试基本的网络连通性
ping -c 4 <IP>

http://www.xdnf.cn/news/19367.html

相关文章:

  • 设计模式 | 常见的设计模式(单例、工厂、代理、适配器、责任链等等)
  • 2025年9月计算机二级C++语言程序设计——选择题打卡Day12
  • Langflow 多模态技术深度分析
  • Hysplit大气传输和污染扩散-轨迹聚合标准20%30%用途
  • OpenCV 图像直方图与对比度增强实战:从分析到优化
  • Week 14: 深度学习补遗:迁移学习
  • 《隐性质量:决定软件生命周期的看不见的竞争力》
  • Langflow Agents 技术深度分析
  • 极客学院-从零开始学架构
  • MCP SDK 示例一
  • Linux 特殊文件系统
  • 二、程序设计语言基础知识
  • 预售破 500 万!淮北吾悦广场京东奥莱8月29日开业燃动皖北
  • Pytest+Selenium4 Web自动化测试框架(三日速通)
  • ANR InputDispatching TimeOut超时判断 - android-15.0.0_r23
  • python如何打开显示svg图片
  • react-beautiful-dnd ​React 拖拽(Drag and Drop)库
  • Scikit-learn Python机器学习 - 类别特征提取- OneHotEncoder
  • 人工智能-python-深度学习-
  • RPC个人笔记(包含动态代理)
  • HarmonyOS 应用开发:基于API 12+的现代化开发实践
  • shell编程基础入门-2
  • 层次分析法
  • 现代C++特性 并发编程:线程管理库 <thread>(C++11)
  • dayjs 常用方法总结
  • MySQL—— 概述 SQL语句
  • MSVC---编译器工具链
  • 【CUDA入门·Lesson 1】Ubuntu实战:CUDA 概念、nvidia-smi 工具与 GPU 参数详解
  • Docker从零学习系列之Dockerfile
  • 蓓韵安禧活性叶酸独立包装防漏贴心设计