Language

unilab.algos.torch.fast_sac.runner¶

FastSAC runner using unified OffPolicyRunner.

Classes

FastSACRunner

FastSAC using OffPolicyRunner infrastructure.

class unilab.algos.torch.fast_sac.runner.FastSACRunner[source]¶

Bases: OffPolicyRunner

FastSAC using OffPolicyRunner infrastructure.

Parameters:

env_name (str)
env_cfg_override (dict[str, Any] | None)
device (str | None)
num_envs (int)
replay_buffer_n (int)
batch_size (int)
learning_starts (int)
updates_per_step (int)
policy_frequency (int)
sync_collection (bool)
env_steps_per_sync (int)
gamma (float)
tau (float)
actor_lr (float)
critic_lr (float)
alpha_lr (float)
alpha_init (float)
target_entropy_ratio (float)
obs_normalization (bool)
actor_hidden_dim (int)
critic_hidden_dim (int)
num_atoms (int)
use_layer_norm (bool)
max_grad_norm (float)
use_amp (bool)
amp_dtype (str)
sim_backend (str)
use_symmetry (bool)
world_size (int)
seed (int | None)
trace_enabled (bool)
trace_output_dir (str | None)
trace_thread_time (bool)
trace_cuda_events (bool)

__init__(env_name, env_cfg_override=None, device=None, num_envs=4096, replay_buffer_n=1024, batch_size=8192, learning_starts=0, updates_per_step=8, policy_frequency=4, sync_collection=True, env_steps_per_sync=1, gamma=0.97, tau=0.125, actor_lr=0.0003, critic_lr=0.0003, alpha_lr=0.0003, alpha_init=0.001, target_entropy_ratio=1.0, obs_normalization=True, actor_hidden_dim=512, critic_hidden_dim=768, num_atoms=101, use_layer_norm=True, max_grad_norm=0.0, use_amp=False, amp_dtype='auto', sim_backend='mujoco', use_symmetry=False, world_size=1, seed=None, trace_enabled=False, trace_output_dir=None, trace_thread_time=False, trace_cuda_events=True)[source]¶

Parameters:

env_name (str)
env_cfg_override (dict[str, Any] | None)
device (str | None)
num_envs (int)
replay_buffer_n (int)
batch_size (int)
learning_starts (int)
updates_per_step (int)
policy_frequency (int)
sync_collection (bool)
env_steps_per_sync (int)
gamma (float)
tau (float)
actor_lr (float)
critic_lr (float)
alpha_lr (float)
alpha_init (float)
target_entropy_ratio (float)
obs_normalization (bool)
actor_hidden_dim (int)
critic_hidden_dim (int)
num_atoms (int)
use_layer_norm (bool)
max_grad_norm (float)
use_amp (bool)
amp_dtype (str)
sim_backend (str)
use_symmetry (bool)
world_size (int)
seed (int | None)
trace_enabled (bool)
trace_output_dir (str | None)
trace_thread_time (bool)
trace_cuda_events (bool)