TD3

TD3 与 SAC、FlashSAC 共用 off-policy 训练脚本。使用 --algo td3 选择它;owner YAML 证据位于 conf/offpolicy/task/td3/ 下。

快速开始

uv run train --algo td3 --task g1_walk_flat --sim mujoco

关键字段

对于 off-policy 回放路径(scripts/train_offpolicy.py / CLI --algo td3),设置 training.export_onnx=false 可在仍然录制回放视频的同时跳过 policy.onnx 导出。参 见 评估与回放

  • 默认值位于 conf/offpolicy/algo/td3.yaml

  • algo.algo_log_name=fast_td3

  • algo.max_iterations=5000

  • algo.policy_frequency=2

使用 --task--sim 选择 task 与 backend;不要将 SAC 的 owner 与 --algo td3 配合复用。

uv run train --algo td3 --task g1_walk_flat --sim mujoco \
  algo.num_envs=2048 \
  training.no_play=true

什么时候优先选 TD3

  • 任务 owner 已经专门为 TD3 调过超参数。

  • 你需要和 SAC 做同任务对照。

  • 你想沿用同一套 off-policy 训练栈,但换成 TD3 owner。

日志根目录为 logs/fast_td3/<task>/