Language

TD3¶

TD3 与 SAC、FlashSAC 共用 off-policy 训练脚本。使用 --algo td3 选择它；owner YAML 证据位于 conf/offpolicy/task/td3/ 下。

快速开始¶

uv run train --algo td3 --task g1_walk_flat --sim mujoco

对于 off-policy 回放路径（scripts/train_offpolicy.py / CLI --algo td3），设置 training.export_onnx=false 可在仍然录制回放视频的同时跳过 policy.onnx 导出。参见评估与回放。

使用 --task 和 --sim 选择 task 与 backend；不要将 SAC 的 owner 与 --algo td3 配合复用。

uv run train --algo td3 --task g1_walk_flat --sim mujoco \
  algo.num_envs=2048 \
  training.no_play=true

日志根目录为 logs/fast_td3/<task>/。