MLX PPO¶
MLX PPO 使用 PPO 的 task-owner 树,但将训练运行时替换为 MLX 实现。入口脚本是
scripts/train_mlx_ppo.py,配置是 conf/ppo/config_mlx.yaml,实现位于
src/unilab/algos/mlx/ppo/ 下。
快速开始¶
uv run train --algo mlx_ppo --task go2_joystick_flat --sim mujoco
uv run train --algo mlx_ppo --task go2_joystick_flat --sim motrix training.no_play=true
说明¶
conf/ppo/config_mlx.yaml设置training.device=mlx。mlx依赖由pyproject.toml中的sys_platform == 'darwin'marker 启用。MLX 的 compose 覆盖情况在生成的支持矩阵中单独跟踪: 后端支持矩阵。
当你需要默认训练路径时优先使用 torch PPO;当你有意运行 MLX 运行时时再使用 MLX PPO。