Language

unilab.algos.mlx.common.rollout_storage.RolloutBuffer¶

class unilab.algos.mlx.common.rollout_storage.RolloutBuffer[source]¶

On-policy rollout storage for vectorized environments.

Parameters:

Methods

`__init__`(num_steps, num_envs, obs_dim, ...)
`add`(obs, actions, log_probs, action_mean, ...)
`clear`()
`compute_returns_and_advantages`(last_values)
`mini_batch_generator`(num_mini_batches, ...)

Attributes

add(obs, actions, log_probs, action_mean, action_std, rewards, dones, values)[source]¶

Parameters:

Return type:

None

compute_returns_and_advantages(last_values)[source]¶

mini_batch_generator(num_mini_batches, num_epochs)[source]¶

Parameters:

Return type:

Generator[Dict[str, array], None, None]

__init__(num_steps, num_envs, obs_dim, action_dim, gamma, lam, dtype=None)¶

Parameters: