FlashSAC¶
FlashSAC 是共享 off-policy 入口上的第三个算法。使用 --algo flashsac 选择它;默认
值位于 conf/offpolicy/algo/flashsac.yaml,实现位于
src/unilab/algos/torch/flash_sac/ 下。
它与 SAC、TD3 共用 off-policy 训练脚本,但默认网络并不相同:actor 使用 block-based 结构,critic 使用 distributional(categorical)Q 变体。
快速开始¶
uv run train --algo flashsac --task g1_walk_flat --sim mujoco
uv run train --algo flashsac --task go2_joystick_flat --sim mujoco training.no_play=true
关键字段¶
对于 off-policy 回放路径(scripts/train_offpolicy.py / CLI --algo flashsac),设
置 training.export_onnx=false 可在仍然录制回放视频的同时跳过 policy.onnx 导出。
参见 评估与回放。
algo.algo_log_name=flash_sacalgo.num_envs=1024algo.max_iterations=5000algo.tau=0.01algo.save_interval=1000algo.algo_params.actor_num_blocks=2algo.algo_params.critic_num_blocks=2
scripts/train_offpolicy.py 会拒绝 FlashSAC 的 training.num_gpus > 1,因此除非实
现发生变化,否则请保持默认的单 GPU 路径。
日志根目录为 logs/flash_sac/<task>/。