Language

unilab.algos.torch.rsl_rl_ppo¶

Classes

PPO variant that bootstraps time limits from env final_observation.

class unilab.algos.torch.rsl_rl_ppo.FinalObservationAwarePPO[source]¶

Bases: PPO

PPO variant that bootstraps time limits from env final_observation.

Parameters:

__init__(*args, enable_compile=False, **kwargs)[source]¶

Parameters:

process_env_step(obs, rewards, dones, extras)[source]¶

Parameters:

Return type:

None