Overestimation

Overall Progress 0%

Double DQN: online selects, target evaluates; compare with DQN.

Go to Chapter 26: Double DQN (DDQN) →

Random policy dataset on Hopper; naive SAC overestimation.

Go to Chapter 71: The Offline RL Problem →