TD3¶
TD3 与 SAC、FlashSAC 共用 off-policy 训练脚本。使用 --algo td3 选择它;owner
YAML 证据位于 conf/offpolicy/task/td3/ 下。
快速开始¶
uv run train --algo td3 --task g1_walk_flat --sim mujoco
关键字段¶
对于 off-policy 回放路径(scripts/train_offpolicy.py / CLI --algo td3),设置
training.export_onnx=false 可在仍然录制回放视频的同时跳过 policy.onnx 导出。参
见 评估与回放。
默认值位于
conf/offpolicy/algo/td3.yaml。algo.algo_log_name=fast_td3。algo.max_iterations=5000。algo.policy_frequency=2。
使用 --task 和 --sim 选择 task 与 backend;不要将 SAC 的 owner 与 --algo td3
配合复用。
uv run train --algo td3 --task g1_walk_flat --sim mujoco \
algo.num_envs=2048 \
training.no_play=true
什么时候优先选 TD3¶
任务 owner 已经专门为 TD3 调过超参数。
你需要和 SAC 做同任务对照。
你想沿用同一套 off-policy 训练栈,但换成 TD3 owner。
日志根目录为 logs/fast_td3/<task>/。