PPO¶
PPO 是默认的同步 on-policy 训练路径。它使用 scripts/train_rsl_rl.py,从
conf/ppo/config.yaml 组合配置,并运行 src/unilab/algos/torch/rsl_rl_ppo.py
和 src/unilab/training/rsl_rl.py 中的 RSL-RL 适配代码。
快速开始¶
uv run train --algo ppo --task go2_joystick_flat --sim mujoco
uv run train --algo ppo --task go2_joystick_flat --sim motrix training.no_play=true
常用 Override¶
uv run train --algo ppo --task go2_joystick_flat --sim mujoco \
algo.num_envs=2048 \
algo.max_iterations=300 \
training.no_play=true
使用 uv run eval 进行检查点回放:
uv run eval --algo ppo --task go2_joystick_flat --sim mujoco --load-run -1
日志按 algo.algo_log_name 分组;conf/ppo/config.yaml 中的默认值为
rsl_rl_ppo。