当前位置: 首页 > ds >正文

Python打卡第34天

@浙大疏锦行

作业:

loss.item() 虽然只在 CPU 中执行,但它会触发一次 GPU → CPU 的强制同步,这是影响性能的关键!

loss.item() 做了什么?

1. 数据原本在 GPU 上

  • 训练时,loss 是一个 GPU 上的张量(比如 torch.cuda.FloatTensor)。

  • GPU 可以高效计算,但 不能直接读取数值(就像工厂生产产品,但你要亲自去工厂拿货)。

2. .item() 的本质

  • loss.item() 做了 3 件事:

    1. 暂停 GPU 计算:强制 GPU 停下当前所有任务(同步点)。

    2. 把数据从 GPU 复制到 CPU(通过 PCIe 总线,就像用卡车从工厂运货到商店)。

    3. 转换成 Python 数字(float 或 int),因为 Python 只能处理 CPU 数据。

3. 为什么这么慢?

  • 不是 .item() 本身慢,而是 GPU→CPU 的传输和同步慢!

  • 每次调用 .item(),GPU 都要:

    • 等所有并行计算完成(比如 1000 个 CUDA 核心都要停)。

    • 走 PCIe 总线(带宽有限,延迟高)。

    • 等 CPU 确认收到数据后才能继续计算。

__call__方法

在 Python 中,__call__ 方法是一个特殊的魔术方法(双下划线方法),它允许类的实例像函数一样被调用。这种特性使得对象可以表现得像函数,同时保留对象的内部状态。

比如:

# 不带参数的call方法
class Counter:def __init__(self):self.count = 0def __call__(self):self.count += 1return self.count# 使用示例
counter = Counter()
print(counter())  # 输出: 1
print(counter())  # 输出: 2
print(counter())  # 输出: 3
print(counter.count)  # 输出: 3
1
2
3
3
# 带参数的call方法
class Adder:def __call__(self, a, b):print("唱跳篮球rap")return a + badder = Adder()
print(adder(3, 5))  # 输出: 8
唱跳篮球rap
8

为什么 PyTorch 要用 __call__ 而不是直接暴露 forward

  1. 封装性:__call__ 可以统一管理 forward 前后的逻辑(如自动梯度、Hook 机制)。

  2. 安全性:防止用户直接调用 forward 导致梯度丢失或计算图断裂。

  3. 一致性:让所有模块(nn.Linearnn.Conv2d、自定义模型)都能用 module(x) 的方式调用。

http://www.xdnf.cn/news/8370.html

相关文章:

  • PETR- Position Embedding Transformation for Multi-View 3D Object Detection
  • leetcode 61. Rotate List和86. Partition List
  • 【心海资源】黄金首饰价格查询单页源码
  • 如何在 Windows 11 或 10 上通过 PowerShell 安装 Docker Desktop
  • Centos7和Centos8版本功能对比
  • 系统性能分析基本概念(2):性能模型
  • ​​Resin-3.1.12-01 安装教程:详细步骤与配置指南(Linux环境)
  • 【运维实战】nginx版本升级
  • 我的世界模组开发——水平方向的方块(3)
  • 5.22本日总结
  • 人形机器人,进入第一阶段概念设计和起泡沫的阶段
  • 组合问题(分割字符串)
  • 【Java持久层框架对比与使用】
  • 【详解自定义类型:联合和枚举】:联合体类型的声明、特点、大小的计算,枚举类型的声明、优点和使用
  • 522UART是什么
  • 4. 寻找两个正序数组的中位数
  • 复盘20250522
  • C++:list容器,deque容器
  • 六大设计原则
  • 如何在 FastAPI 中合理使用 Pydantic 的 Alias
  • UE4 Simulation Stage 制作 平流
  • 开疆智能Profinet转RS485网关连接富士电机配置案例
  • 问题 | 撰写一份优秀的技术文档,既是科学也是艺术。
  • 模仿医学专家思维的Citrus:助力医疗决策支持
  • 自定义类型-联合体
  • 十进制转二进制
  • git@gitee.com: Permission denied (publickey). fatal: 无法读取远程仓库
  • N-gram语言模型原理与实战教程
  • sqli-labs第二十一/二十二关——POST-base64
  • STL 转 STP 深度技术指南:从 3D 打印模型到工程标准的跨领域转换全解析(附迪威模型在线方案)