Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Published in arXiv, 2026

Recommended citation: Wang, Y., Li, X., Xie, P., Yang, P., Nie, B., Cai, Y., Zhang, Q., Qu, C., Wu, J., Song, J., Ren, X., Huang, J., Pan, M., Feng, S., Chen, Z., & Luo, J. (2026). Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies. arXiv preprint arXiv:2605.00416. https://arxiv.org/abs/2605.00416

Generalist robot policies increasingly benefit from large-scale pretraining, but offline data alone is insufficient for robust real-world deployment. We present Learning While Deploying (LWD), a fleet-scale offline-to-online reinforcement learning framework for continual improvement of generalist Vision-Language-Action policies from shared robot-fleet experience, autonomous rollouts, and human interventions.

Share on

Twitter Facebook LinkedIn

Pu Yang

Share on