Agent 速查

本页面向需要以最短路径获取当前仓库事实的维护者与 agent。

从这里开始

  • 安装与 smoke 检查:安装

  • 后端选择:选择后端

  • 任务索引:任务

  • 算法索引:算法

  • PPO 入口:scripts/train_rsl_rl.py

  • MLX PPO 入口:scripts/train_mlx_ppo.py

  • APPO 入口:scripts/train_appo.py

  • SAC / TD3 / FlashSAC 入口:scripts/train_offpolicy.py

  • HIM-PPO 入口:scripts/train_him_ppo.py

  • HORA 蒸馏入口:scripts/train_hora_distill.py

需要记住的契约

  • Env 契约:src/unilab/base/np_env.py

  • Backend 契约:src/unilab/base/backend/base.py

  • 训练辅助工具:src/unilab/training/run.py

  • Config schema:src/unilab/structured_configs.py

  • Developer 标准:架构概览

  • 高风险区域:见仓库顶层 AGENTS.md

命令示例请使用 uv run trainuv run evaluv run demo。 通过 --algo--task--sim 选择算法、任务与后端; 只写能够追溯到代码、config、测试或当前文档的事实。