SAC¶
SAC 通过共享的 off-policy 入口 scripts/train_offpolicy.py 选择,TD3 与 FlashSAC
也共用该脚本。主配置为 conf/offpolicy/config.yaml,SAC 算法的默认值位于
conf/offpolicy/algo/sac.yaml。当前的日志名称为 fast_sac。
运行模型¶
off-policy runner 通过 shared memory 把 CPU 仿真与 GPU 学习解耦:collector 子进程 填充驻留在 CPU 上的 replay buffer,learner 在 GPU 上训练。
快速开始¶
uv run train --algo sac --task g1_walk_flat --sim mujoco
uv run train --algo sac --task g1_walk_rough --sim motrix training.no_play=true
关键字段¶
对于 off-policy 回放路径(scripts/train_offpolicy.py / CLI --algo sac),设置
training.export_onnx=false 可在仍然录制回放视频的同时跳过 policy.onnx 导出。参
见 评估与回放。
algo.algo_log_name=fast_sacalgo.num_envs=4096algo.max_iterations=500共享 off-policy 配置中的
training.use_amp=true
scripts/train_offpolicy.py 中当前的 runner 路径要求同步采集;脚本会拒绝
training.no_sync_collection=true。
uv run train --algo sac --task g1_walk_flat --sim mujoco \
algo.num_envs=2048 \
algo.max_iterations=1000 \
training.no_play=true