Balancing exploration and exploitation in reinforcement learning using a value of information criterion

Balancing exploration and exploitation in reinforcement learning using a value of information criterion | IEEE Conference Publication | IEEE Xplore