从 Legged Gym 迁移¶
Legged Gym 曾是那套 GPU 常驻的 PPO 模板,教会了整个领域如何训练四足机器人。它的 核心思想 —— joystick 命令空间、地形课程(terrain curricula)、RSL-RL PPO —— 在 UniLab 中得以延续。因此迁移在很大程度上是机械性的。
直接对应关系¶
Legged Gym |
UniLab |
|---|---|
|
|
|
env 侧 obs 构建器 + |
|
env 的 |
|
任务 owner YAML 的 |
地形课程 |
|
RSL-RL PPO |
|
有哪些新东西¶
迁移清单¶
把你的 URDF / MJCF asset 复制到
src/unilab/assets/robots/<robot>/下。在
src/unilab/envs/locomotion/<robot>/下创建一个任务模块。镜像你的 reward 项;保持名称相同,以便 reward 一致性可被 diff。
翻译命令采样 —— Legged Gym 的
_resample_commands在 UniLab 中变成一个 curriculum provider。翻译地形 —— Legged Gym 的高度场生成器在 UniLab 中有一个对应物,位于
unilab.terrains.heightfield_terrains。
验证闸门¶
在删除你的 Legged Gym 检出之前,先在 UniLab 中于平地上训练一个等价于 Go2 的任务, 并把 reward 项轨迹与源实现对比。如果在策略学习之前轨迹就已经分叉,那么存在 reward、 命令、复位或 DR 的不匹配;参见 跨后端的 Reward 一致性。