PPO

PPO 是默认的同步 on-policy 训练路径。它使用 scripts/train_rsl_rl.py,从 conf/ppo/config.yaml 组合配置,并运行 src/unilab/algos/torch/rsl_rl_ppo.pysrc/unilab/training/rsl_rl.py 中的 RSL-RL 适配代码。

快速开始

uv run train --algo ppo --task go2_joystick_flat --sim mujoco
uv run train --algo ppo --task go2_joystick_flat --sim motrix training.no_play=true

常用 Override

uv run train --algo ppo --task go2_joystick_flat --sim mujoco \
  algo.num_envs=2048 \
  algo.max_iterations=300 \
  training.no_play=true

使用 uv run eval 进行检查点回放:

uv run eval --algo ppo --task go2_joystick_flat --sim mujoco --load-run -1

日志按 algo.algo_log_name 分组;conf/ppo/config.yaml 中的默认值为 rsl_rl_ppo