Language

unilab.algos.mlx.common.normalization.EmpiricalDiscountedVariationNormalization¶

class unilab.algos.mlx.common.normalization.EmpiricalDiscountedVariationNormalization[source]¶

Reward normalization with running std of discounted returns.

Parameters:

Methods

__init__([eps, gamma, dtype])

__init__(eps=0.01, gamma=0.99, dtype=None)[source]¶

Parameters:

__call__(rew)[source]¶

Normalize reward tensor of shape [N] or [N, 1].