Language

Agent 速查¶

本页面向需要以最短路径获取当前仓库事实的维护者与 agent。

从这里开始¶

安装与 smoke 检查：安装
后端选择：选择后端
任务索引：任务
算法索引：算法
PPO 入口：scripts/train_rsl_rl.py
MLX PPO 入口：scripts/train_mlx_ppo.py
APPO 入口：scripts/train_appo.py
SAC / TD3 / FlashSAC 入口：scripts/train_offpolicy.py
HIM-PPO 入口：scripts/train_him_ppo.py
HORA 蒸馏入口：scripts/train_hora_distill.py

需要记住的契约¶

Env 契约：src/unilab/base/np_env.py
Backend 契约：src/unilab/base/backend/base.py
训练辅助工具：src/unilab/training/run.py
Config schema：src/unilab/structured_configs.py
Developer 标准：架构概览
高风险区域：见仓库顶层 AGENTS.md。

命令示例请使用 uv run train、uv run eval 或 uv run demo。通过 --algo、--task 与 --sim 选择算法、任务与后端；只写能够追溯到代码、config、测试或当前文档的事实。