Sustainable ℓ<inf>2</inf>-regularized actor-critic based on recursive least-squares temporal difference learning

Sustainable ℓ2-regularized actor-critic based on recursive least-squares temporal difference learning | IEEE Conference Publication | IEEE Xplore