Language

unilab.algos.torch.offpolicy.worker.off_policy_collector_fn¶

unilab.algos.torch.offpolicy.worker.off_policy_collector_fn(stop_event, env_name, num_envs, replay_buffer, weight_sync_name, weight_param_shapes, algo_type='sac', actor_hidden_dim=512, use_layer_norm=True, learning_starts=0, metrics_queue=None, weight_sync_lock=None, sync_collection=False, collection_ready_queue=None, trainer_done_queue=None, env_steps_per_sync=1, obs_normalization=False, shared_obs_normalizer_stats=None, sim_backend='mujoco', env_cfg_override=None, obs_dim=None, action_dim=None, actor_kwargs=None, seed=None, trace_enabled=False, trace_thread_time=False, collector_pack_request_queue=None, collector_pack_ready_queue=None, collector_pack_shared_slots=None, **kwargs)[source]¶

Entry point for the off-policy collector subprocess.

Error handling is provided by _collector_entry_wrapper in async_runner.py.

Parameters:

env_name (str)
num_envs (int)
weight_sync_name (str)
weight_param_shapes (dict)
algo_type (str)
actor_hidden_dim (int)
use_layer_norm (bool)
learning_starts (int)
sync_collection (bool)
env_steps_per_sync (int)
obs_normalization (bool)
sim_backend (str)
env_cfg_override (dict | None)
obs_dim (int | None)
action_dim (int | None)
actor_kwargs (dict | None)
seed (int | None)
trace_enabled (bool)
trace_thread_time (bool)