Language

unilab.base.curriculum.PenaltyCurriculum¶

class unilab.base.curriculum.PenaltyCurriculum[source]¶

Bases: object

Adaptive penalty scaling based on episode length.

Parameters:

env (Any)
enabled (bool)
initial_scale (float)
min_scale (float)
max_scale (float)
level_down_threshold (float)
level_up_threshold (float)
degree (float)

Methods

`__init__`(env[, enabled, initial_scale, ...])
`update`(average_episode_length)	Update penalty scale based on average episode length.

__init__(env, enabled=True, initial_scale=0.5, min_scale=0.5, max_scale=1.0, level_down_threshold=150.0, level_up_threshold=750.0, degree=0.001)[source]¶

Parameters:

env (Any)
enabled (bool)
initial_scale (float)
min_scale (float)
max_scale (float)
level_down_threshold (float)
level_up_threshold (float)
degree (float)

update(average_episode_length)[source]¶

Update penalty scale based on average episode length.

Parameters:: average_episode_length (float)
Return type:: None