当前位置：首页 > news >正文

【智谱清言-GLM-4.5】StackCube-v1 任务训练结果不稳定性的分析

news 2025/9/5 9:08:06

1. Prompt

我是机器人RL方向的博士生正在学习ManiSkill，在学习时我尝试使用相同命令训练同一个任务，但是我发现最终的 success_once 指标并不是相同的，我感到十分焦虑，
我使用的命令如下：

python sac.py --env_id="StackCube-v1" \--num_envs=32 --utd=0.5 --buffer_size=500_000 \--total_timesteps=500_000 --eval_freq=50_000 \--control-mode="pd_ee_delta_pos"

I conducted two independent training runs with the same setup. Here is a comparison of the success_once metric at different stages:

Run 1:

success_once: 0.00, return: 2.59: 0%
...
success_once: 0.88, return: 39.84: 90%
success_once: 0.88, return: 39.84: : 500032lt [1:04:37, 132.17lt/s]

Run 2:

success_once: 0.00, return: 2.59: 0%
...
success_once: 0.31, return: 36.46: 90%
success_once: 0.31, return: 36.46: : 500032lt [43:38, 199.09lt/s]

The final success rate differs drastically (0.88 vs. 0.31).
请您浏览 this codebase，尤其是 sac.py，请帮我看看是什么原因导致了结果不一致呢？

2. GLM-4.5

作为机器人RL方向的博士生，您遇到的训练结果不一致问题在强化学习中非常常见，尤其是在涉及随机性较高的任务中。让我分析一下ManiSkill的SAC实现中可能导致这种差异的关键因素，并提供解决方案。

主要原因分析

1. 随机种子未固定（最可能原因）

# 在sac.py中检查是否有随机种子设置
if seed is None:seed = np.random.randint(0, 2**32 - 1)  # 每次运行生成不同种子

问题：代码中默认没有设置固定随机种子，导致每次运行使用不同的初始化
影响：网络初始化、环境初始化、重放缓冲区采样都不同步

2. 环境随机性

# 环境创建部分
env = gym.make(env_id, ...)
env.reset()  # 物体初始位置随机

问题：StackCube任务中物体初始位置、目标位置存在随机性
影响：即使相同策略，不同初始状态会导致不同结果

3. 探索噪声

# 动作采样部分
action = self.actor(state)  # 输出均值和标准差
action = action + self.log_std.exp() * torch.randn_like(action)  # 添加噪声

问题：SAC使用高斯噪声进行探索，噪声大小受log_std影响
影响：不同运行中探索模式不同，导致策略收敛路径不同

4. 重放缓冲区采样顺序

# 经验采样
batch = self.buffer.sample(batch_size)

问题：缓冲区随机采样导致每次训练批次不同
影响：梯度更新方向不同，影响收敛轨迹

5. 并行环境异步性

# 并行环境设置
envs = gym.vector.AsyncVectorEnv([...])

问题：32个并行环境执行时序不同
影响：环境交互顺序不同，经验数据分布不同

解决方案

1. 固定随机种子（最关键）

# 修改命令添加随机种子
python sac.py --env_id="StackCube-v1" \--num_envs=32 --utd=0.5 --buffer_size=500_000 \--total_timesteps=500_000 --eval_freq=50_000 \--control-mode="pd_ee_delta_pos" \--seed=42  # 添加固定种子

2. 在sac.py中实现种子控制

# 在main函数开始添加
def main():parser = argparse.ArgumentParser()parser.add_argument("--seed", type=int, default=42)  # 添加参数args = parser.parse_args()# 设置所有随机种子np.random.seed(args.seed)torch.manual_seed(args.seed)torch.cuda.manual_seed_all(args.seed)random.seed(args.seed)# 为每个环境设置不同但可复现的种子env_seeds = [args.seed + i for i in range(args.num_envs)]

3. 环境确定性设置

# 创建环境时添加确定性选项
env = gym.make(env_id, options={"deterministic_reset": True})

4. 增加评估稳定性

# 评估时增加多次测试
def evaluate_policy():success_rates = []for _ in range(10):  # 评估10次取平均success = evaluate_single_episode()success_rates.append(success)return np.mean(success_rates)

5. 监控训练稳定性

# 添加滑动平均监控
window_size = 10
success_history = []
def log_success(success):success_history.append(success)if len(success_history) > window_size:success_history.pop(0)avg_success = np.mean(success_history)print(f"Current success: {success:.2f}, Avg (last {window_size}): {avg_success:.2f}")

为什么即使相同设置仍有差异？

即使固定了随机种子，仍可能观察到轻微差异，原因包括：

浮点数精度：不同硬件/PyTorch版本可能导致微小数值差异
环境时间步：并行环境执行时序差异
系统负载：训练速度不同导致经验收集节奏不同

实验建议

多次运行取平均：

for seed in 42 43 44 45 46; dopython sac.py --seed=$seed [其他参数]
done

分析收敛曲线：

# 记录训练过程中的success_once
with open(f"success_history_seed{args.seed}.csv", "w") as f:f.write("step,success\n")for step, success in zip(steps, success_list):f.write(f"{step},{success}\n")

对比策略相似性：

# 保存最终策略
torch.save(agent.actor.state_dict(), f"policy_seed{args.seed}.pt")
# 加载不同策略计算相似度
policy1 = load_policy("policy_seed42.pt")
policy2 = load_policy("policy_seed43.pt")
similarity = cosine_similarity(policy1.state_dict(), policy2.state_dict())