Language

unilab.logging.onpolicy¶

Classes

OnPolicyLogger

Rich logger for on-policy RL (PPO, A2C, etc).

class unilab.logging.onpolicy.OnPolicyLogger[source]¶

Bases: BaseTrainingLogger

Rich logger for on-policy RL (PPO, A2C, etc).

Parameters:

algo_name (str)
max_iterations (int)
num_envs (int)
num_steps (int)
env_name (str)
log_dir (str)
log_backend (str)
wandb_project (str)
wandb_entity (str | None)
wandb_name (str)
wandb_group (str | None)
wandb_job_type (str | None)
wandb_tags (list[str] | None)
wandb_notes (str | None)

__init__(algo_name='PPO', max_iterations=1500, num_envs=4096, num_steps=24, env_name='', log_dir='', log_backend='tensorboard', wandb_project='unilab', wandb_entity=None, wandb_name='', wandb_group=None, wandb_job_type=None, wandb_tags=None, wandb_notes=None)[source]¶

Parameters:

algo_name (str)
max_iterations (int)
num_envs (int)
num_steps (int)
env_name (str)
log_dir (str)
log_backend (str)
wandb_project (str)
wandb_entity (str | None)
wandb_name (str)
wandb_group (str | None)
wandb_job_type (str | None)
wandb_tags (list[str] | None)
wandb_notes (str | None)

start(*, status='')[source]¶

Parameters:: status (str)

finish(*, title='Training Summary', extra_summary='')[source]¶

Parameters:

title (str)
extra_summary (str)

log_step(iteration, metrics=None, reward=None, reward_components=None, collect_time=0.0, train_time=0.0)[source]¶

Parameters:

iteration (int)
metrics (dict[str, float] | None)
reward (float | None)
reward_components (dict[str, float] | None)
collect_time (float)
train_time (float)