Language

SAC¶

SAC 通过共享的 off-policy 入口 scripts/train_offpolicy.py 选择，TD3 与 FlashSAC 也共用该脚本。主配置为 conf/offpolicy/config.yaml，SAC 算法的默认值位于 conf/offpolicy/algo/sac.yaml。当前的日志名称为 fast_sac。

运行模型¶

off-policy runner 通过 shared memory 把 CPU 仿真与 GPU 学习解耦：collector 子进程填充驻留在 CPU 上的 replay buffer，learner 在 GPU 上训练。

快速开始¶

uv run train --algo sac --task g1_walk_flat --sim mujoco
uv run train --algo sac --task g1_walk_rough --sim motrix training.no_play=true

关键字段¶

对于 off-policy 回放路径（scripts/train_offpolicy.py / CLI --algo sac），设置 training.export_onnx=false 可在仍然录制回放视频的同时跳过 policy.onnx 导出。参见评估与回放。

algo.algo_log_name=fast_sac
algo.num_envs=4096
algo.max_iterations=500
共享 off-policy 配置中的 training.use_amp=true

scripts/train_offpolicy.py 中当前的 runner 路径要求同步采集；脚本会拒绝 training.no_sync_collection=true。

uv run train --algo sac --task g1_walk_flat --sim mujoco \
  algo.num_envs=2048 \
  algo.max_iterations=1000 \
  training.no_play=true