当前位置: 首页 > ops >正文

从高层 PyTorch 到中层 CUDA Kernel 到底层硬件 Tensor Core

层级组件作用举例
① 高层框架PyTorch用户用它写模型,调用 tensor 操作torch.matmul(a, b)
② 执行层 / 中间层CUDA kernel实现 PyTorch 的底层算子逻辑,运行在 GPU 上cublasGemmEx(), custom_op
③ 硬件执行层Tensor CoreNVIDIA GPU 中用于高效执行矩阵乘法的物理单元FP16/FP8 TensorMath 单元

🔧 Tensor Core 是什么?

是 NVIDIA Volta 之后引入的硬件结构(TensorMath 单元)
本质是一个 4x4 或 8x8 矩阵乘加(FMA)模块
优化执行如下类型计算:
D = A × B + C
支持精度:FP16, BF16, TF32, FP8(取决于架构)
➡️ Tensor Core 能以比传统 CUDA core 快几倍的吞吐执行矩阵乘法!

🛠️ CUDA kernel 是什么?

是你编写或 PyTorch/库调用的 GPU 端执行代码
是 GPU 上的计算任务载体(你可以手写 .cu 文件,也可以用 JIT 写)
举例:
PyTorch 自带 kernel:aten::add, aten::matmul
cuBLAS kernel:cublasGemmEx()
你自己写的 kernel:my_custom_add<<<>>>
➡️ CUDA kernel 调度线程块 + 调用底层硬件单元(如 Tensor Core)

🧩 torch.compile、custom kernel 与 Tensor Core 的连接

模块 与 Tensor Core 的关系
torch.compile 会尝试 fuse 运算 → 使用 Triton / cuBLAS 等生成高效 kernel
Triton kernel 能生成调用 Tensor Core 的代码(例如 FP16 matmul)
Custom CUDA kernel 你手写 kernel 时,可以手动调用 Tensor Core 相关 intrinsics

http://www.xdnf.cn/news/18845.html

相关文章:

  • 深度解析BiTGAN:基于双向Transformer生成对抗网络的长期人体动作预测
  • Linux 把启动脚本制作成系统服务(通过 systemctl start xxx 启动)
  • JHipster-从零开始学习指南
  • Autodesk Maya 2026.2 全新功能详解:MotionMaker AI 动画、LookdevX 材质增强、USD 工作流优化
  • 实现自己的AI视频监控系统-第二章-AI分析模块3(核心)
  • Python常见设计模式3: 行为型模式
  • OpenCV4.X库功能全解---个人笔记
  • 【解锁Photonics for AI:系统学习光学神经网络与超表面设计,成就下一代光芯片工程师】
  • TCP并发服务器构建
  • Linux 离线环境下 Anaconda3 与核心机器学习库(scikit-learn/OpenCV/PyTorch)安装配置指南
  • React内网开发代理配置详解
  • 安装了TortoiseSVN但是在idea的subversion里面找不到svn.exe
  • LangChain4J-(3)-模型参数配置
  • 力扣 30 天 JavaScript 挑战 第41天 (第十二题)对异步操作,promise,async/await有了更深理解
  • 部署k8s-efk日志收集服务(小白的“升级打怪”成长之路)
  • 在 Ubuntu 系统上安装 MySQL
  • Spring Cloud 高频面试题详解(含代码示例与深度解析)
  • 浏览器与计算机网络
  • 计算机网络:服务器处理多客户端(并发服务器)
  • 【Redis#8】Redis 数据结构 -- Zset 类型
  • Java 大视界 -- Java 大数据机器学习模型在电商推荐系统冷启动问题解决与推荐效果提升中的应用(403)
  • Containerd 安装与配置指南
  • 基于Spring Boot的民宿服务管理系统-项目分享
  • THM Smol
  • Redis 数据结构
  • Content-Type是application/x-www-form-urlencoded表示从前端到后端提交的是表单的形式
  • vue新能源汽车销售平台的设计与实现(代码+数据库+LW)
  • 数据结构-串
  • 【微信小程序教程】第13节:用户授权与登录流程狼惫
  • ES03-常用API