PubPeer - Policy Finetuning: Bridging Sample-Efficient Offline and Onl...

Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning

arXiv (2021) - Comments
arxiv: 2106.04895 issn: 2331-8422

Tengyang Xie, Nan Jiang, Huan Wang, Caiming Xiong, Yu Bai