Language

APPO¶

APPO 是 UniLab 的异步 PPO 路径。它使用 scripts/train_appo.py、 conf/appo/config.yaml 以及 src/unilab/algos/torch/appo/ 下的运行时。该配置暴露了 algo.steps_per_env、training.collector_device 和 training.replay_queue_size；算法配置中包含 V-trace 裁剪字段。

快速开始¶

uv run train --algo appo --task go2_joystick_flat --sim mujoco
uv run train --algo appo --task g1_motion_tracking --sim motrix training.no_play=true

常用 Override¶

uv run train --algo appo --task go2_joystick_flat --sim mujoco \
  algo.num_envs=2048 \
  algo.max_iterations=300 \
  training.replay_queue_size=2

回放与检查点选择使用 uv run eval：

uv run eval --algo appo --task go2_joystick_flat --sim mujoco --load-run -1

运行模型¶

collector 负责 CPU 仿真，learner 负责 GPU 训练。
rollout 会先进入 replay queue，再由 learner 消费。
APPO 内部带 V-trace importance-sampling 修正，更新语义不同于同步 PPO。
collector / learner 流水线由一个 4 槽 ring buffer 支撑。

关键字段¶

algo.steps_per_env：单个环境的 rollout 长度。
training.replay_queue_size：learner 侧缓存深度。
training.collector_device：collector 设备；默认跟随 learner。
algo.save_interval：checkpoint 保存间隔。

默认日志根目录为 logs/appo/<task>/，来自 conf/appo/config.yaml 中的 algo.algo_log_name=appo。