Language

unilab.algos.torch.flash_sac.update¶

FlashSAC update helpers.

Functions

`build_lr_lambda`(init_lr, peak_lr, end_lr, ...)
`compute_categorical_td_target`(support, ...)
`resolve_target_entropy`(action_dim, ...)
`select_min_q_log_probs`(next_q_values, ...)

unilab.algos.torch.flash_sac.update.build_lr_lambda(init_lr, peak_lr, end_lr, warmup_steps, decay_steps)[source]¶

Parameters:

init_lr (float)
peak_lr (float)
end_lr (float)
warmup_steps (int)
decay_steps (int)

unilab.algos.torch.flash_sac.update.select_min_q_log_probs(next_q_values, next_q_log_probs)[source]¶

Parameters:

next_q_values (Tensor)
next_q_log_probs (Tensor)

Return type:

Tensor

unilab.algos.torch.flash_sac.update.compute_categorical_td_target(support, target_log_probs, reward, dones, truncated, actor_entropy, gamma)[source]¶

Parameters:

support (Tensor)
target_log_probs (Tensor)
reward (Tensor)
dones (Tensor)
truncated (Tensor)
actor_entropy (Tensor)
gamma (float)

Return type:

Tensor

unilab.algos.torch.flash_sac.update.resolve_target_entropy(action_dim, target_sigma, target_entropy)[source]¶

Parameters:

action_dim (int)
target_sigma (float)
target_entropy (float | None)

Return type:

float