当前位置: 首页 > java >正文

板卡如何安装在主机系统(刀片服务器或计算节点)

✅ 板卡(如 GPU、FPGA)本身没有操作系统

  • 它们是硬件加速器,不具备独立运行操作系统的能力。
  • 它们需要依附于**主机系统(通常是刀片服务器或计算节点)**来运行。
  • 操作系统(如 Linux)安装在主机上,主机通过驱动程序和运行时环境(如 CUDA、OpenCL)来调用这些加速卡。

🔗 这些卡如何与刀片服务器连接?

1. 本地直连(最常见)
  • GPU 或 FPGA 卡直接插在刀片服务器或计算节点的 PCIe 插槽 上。
  • 这种方式延迟低、带宽高,是超算中最常见的连接方式。
2. 外部扩展(GPU Box / JBOG)
  • 如果刀片服务器本身空间不足,可以通过 PCIe 扩展线缆 或 NVLink 连接外部 GPU 机箱(如 NVIDIA HGX、Supermicro GPU Box)。
  • 这些扩展箱通过高速互联(如 PCIe Gen4/Gen5、CXL、NVLink)与主机通信。
3. 网络连接(较少见)
  • 某些 FPGA 卡或智能网卡(如 SmartNIC)可以通过 以太网或 InfiniBand 与主机通信,适用于分布式计算或网络加速场景。

🧠 使用流程简化如下:

[GPU/FPGA 卡] ←PCIe/NVLink→ [刀片服务器] ←驱动/软件→ [操作系统]
  • 用户编写的程序运行在操作系统上,调用驱动程序(如 NVIDIA 驱动)与加速卡通信。
  • 加速卡执行计算任务并将结果返回主机。

🖼️ 简化结构图描述

这个结构图展示了:

  • 刀片服务器作为主机,运行操作系统和驱动;
  • 加速卡通过高速总线(如 PCIe 或 NVLink)连接到主机;
  • 主机再通过网络或存储接口与其他节点或系统通信。

🖥️ 主机与板卡的关系

📌 举个例子

假设一个超算中心有一个机柜,里面安装了 10 台刀片服务器,每台服务器配有 4 张 NVIDIA A100 GPU 卡:

  • GPU 卡是插在每台服务器的主板上;
  • 服务器是安装在机柜的托架上;
  • 机柜通过电源和冷却系统保障这些服务器稳定运行。
http://www.xdnf.cn/news/17391.html

相关文章:

  • 用browse实现菜单功能的方法
  • 数据结构--哈希表与排序、选择算法
  • 力扣-53.最大子数组和
  • 库函数版独立按键用位运算方式实现(STC8)
  • 解决阿里云盘不能分享压缩包【7-zip工具】(详细)
  • Linux多线程——生产者消费者模型
  • C/C++二维数组创建内存分配
  • 大模型——部署体验gpt-oss-20b
  • 云原生时代的 Linux:容器、虚拟化与分布式的基石
  • 复杂路况误报率↓78%!陌讯轻量化模型在车辆违停识别的边缘计算优化​
  • 抖音AI分身:帮助每个抖音创作者,打造自己的AI分身
  • Kotlin 数据容器 - MutableList(MutableList 概述、MutableList 增删改查、MutableList 遍历元素)
  • STM32学习笔记5-TIM定时器-1
  • cuda算子--softmax算子与优化
  • 如何将视频转为GIF格式,3大视频转为GIF工具
  • 前端开发(HTML,CSS,VUE,JS)从入门到精通!第八天(Vue框架及其安装)(完结篇) 重点 ! ! !
  • AWS 云小白学习指南 (一)
  • 生产管理ERP系统|物联及生产管理ERP系统|基于SprinBoot+vue的制造装备物联及生产管理ERP系统设计与实现(源码+数据库+文档)
  • 【网络自动化】利用Python脚本与计划任务,实现H3C/HPE设备配置无人值守备份
  • 综合项目记录:自动化备份全网服务器数据平台
  • 多级缓存架构:新品咖啡上线引发的数据库压力风暴与高并发实战化解方案
  • 时序数据库-涛思数据库
  • hive-日期拆分为多行
  • 力扣热题100------287.寻找重复数
  • LeetCode快乐数问题
  • CSS:BFC
  • OpenAI 最新开源模型 gpt-oss (Windows + Ollama/ubuntu)本地部署详细教程
  • 安全引导功能及ATF的启动过程(四)
  • 论文阅读:AAAI 2024 ExpeL: LLM Agents Are Experiential Learners
  • 要写新项目了,运行老Django项目找找记忆先