Language

unilab.logging.offpolicy.OffPolicyLogger¶

class unilab.logging.offpolicy.OffPolicyLogger[source]¶

Bases: BaseTrainingLogger

Rich logger for off-policy RL algorithms (SAC, TD3, etc).

Parameters:

algo_name (str)
max_iterations (int)
num_envs (int)
env_name (str)
obs_dim (int)
action_dim (int)
refresh_per_second (int)
log_dir (str)
log_backend (str)
wandb_project (str)
wandb_entity (str | None)
wandb_name (str)
wandb_group (str | None)
wandb_job_type (str | None)
wandb_tags (list[str] | None)
wandb_notes (str | None)

Methods

`__init__`([algo_name, max_iterations, ...])
`close`()	Release live terminal state and backend handles without printing a summary.
`finish`(*[, title, extra_summary])
`log_buffer_fill`(current, target)
`log_collector`(total_steps, buffer_size[, ...])
`log_save`(path)
`log_status`(status)
`log_step`(iteration[, metrics, reward, ...])
`set_collection_sync`(enabled[, ...])
`start`(*[, status])
`update_buffer_utilization`(utilization)
`update_collector_timing`(timing_ms)
`update_done_rates`(timeout_rate, terminated_rate)
`update_ep_length`(length)
`update_replay_queue`(current_len, max_size)
`update_staging_pool`(current_len, max_size)

__init__(algo_name='RL', max_iterations=1500, num_envs=4096, env_name='', obs_dim=0, action_dim=0, refresh_per_second=4, log_dir='', log_backend='tensorboard', wandb_project='unilab', wandb_entity=None, wandb_name='', wandb_group=None, wandb_job_type=None, wandb_tags=None, wandb_notes=None)[source]¶

Parameters:

algo_name (str)
max_iterations (int)
num_envs (int)
env_name (str)
obs_dim (int)
action_dim (int)
refresh_per_second (int)
log_dir (str)
log_backend (str)
wandb_project (str)
wandb_entity (str | None)
wandb_name (str)
wandb_group (str | None)
wandb_job_type (str | None)
wandb_tags (list[str] | None)
wandb_notes (str | None)

start(*, status='Warming up...')[source]¶

Parameters:: status (str)

finish(*, title='Training Summary', extra_summary='')[source]¶

Parameters:

title (str)
extra_summary (str)

log_buffer_fill(current, target)[source]¶

Parameters:

current (int)
target (int)

update_collector_timing(timing_ms)[source]¶

Parameters:: timing_ms (dict[str, float])

update_done_rates(timeout_rate, terminated_rate)[source]¶

Parameters:

timeout_rate (float)
terminated_rate (float)

update_buffer_utilization(utilization)[source]¶

Parameters:: utilization (float)

update_replay_queue(current_len, max_size)[source]¶

Parameters:

current_len (int)
max_size (int)

update_staging_pool(current_len, max_size)[source]¶

Parameters:

current_len (int)
max_size (int)

set_collection_sync(enabled, env_steps_per_sync=0)[source]¶

Parameters:

enabled (bool)
env_steps_per_sync (int)

log_collector(total_steps, buffer_size, mean_reward=0.0)[source]¶

Parameters:

total_steps (int)
buffer_size (int)
mean_reward (float)

log_step(iteration, metrics=None, reward=None, reward_metrics=None, reward_components=None, train_time=0.0, wait_time=0.0, learner_incremental_h2d_time=0.0, weight_sync_time=0.0, extra_info=None)[source]¶

Parameters:

iteration (int)
metrics (dict[str, float] | None)
reward (float | None)
reward_metrics (dict[str, float] | None)
reward_components (dict[str, float] | None)
train_time (float)
wait_time (float)
learner_incremental_h2d_time (float)
weight_sync_time (float)
extra_info (dict | None)

log_status(status)[source]¶

Parameters:: status (str)

close()¶

Release live terminal state and backend handles without printing a summary.

Return type:: None

log_save(path)¶

Parameters:: path (str)

update_ep_length(length)¶

Parameters:: length (float)