Blogi UC Berkeleyn tutkijat esittelevät Video Prediction Rewards (VIPER): Algoritmi, joka hyödyntää valmiiksi koulutettuja videoennustusmalleja toimimattomina palkintosignaaleina vahvistavaan oppimiseen 2 min read