MLX PPO

MLX PPO 使用 PPO 的 task-owner 树,但将训练运行时替换为 MLX 实现。入口脚本是 scripts/train_mlx_ppo.py,配置是 conf/ppo/config_mlx.yaml,实现位于 src/unilab/algos/mlx/ppo/ 下。

快速开始

uv run train --algo mlx_ppo --task go2_joystick_flat --sim mujoco
uv run train --algo mlx_ppo --task go2_joystick_flat --sim motrix training.no_play=true

说明

  • conf/ppo/config_mlx.yaml 设置 training.device=mlx

  • mlx 依赖由 pyproject.toml 中的 sys_platform == 'darwin' marker 启用。

  • MLX 的 compose 覆盖情况在生成的支持矩阵中单独跟踪: 后端支持矩阵

当你需要默认训练路径时优先使用 torch PPO;当你有意运行 MLX 运行时时再使用 MLX PPO。