算法

算法页面描述每个内置入口运行的内容、其配置所在位置,以及用哪种命令形式来选择它。 关于通用 flag,请参见 CLI 参考

算法

类型

入口

配置证据

PPO

同步 on-policy

scripts/train_rsl_rl.py

conf/ppo/config.yaml

APPO

异步 on-policy

scripts/train_appo.py

conf/appo/config.yaml

SAC

off-policy

scripts/train_offpolicy.py

conf/offpolicy/algo/sac.yaml

TD3

off-policy

scripts/train_offpolicy.py

conf/offpolicy/algo/td3.yaml

FlashSAC

off-policy

scripts/train_offpolicy.py

conf/offpolicy/algo/flashsac.yaml

HIM-PPO

高度估计器 PPO 路径

scripts/train_him_ppo.py

conf/ppo_him/config.yaml

HORA

teacher/student 蒸馏路径

scripts/train_hora_distill.py

conf/hora_distill/config.yaml

MLX PPO

面向 Apple Silicon 的同步 on-policy

scripts/train_mlx_ppo.py

conf/ppo/config_mlx.yaml