Go-Explore es un sistema de inteligencia artificial basado en entrenamiento reforzado que aprende a jugar al Montezuma’s Revenge y Pitfall en sus versiones simplificadas de Atari 2600. En ambos casos no sólo obtiene buenas puntuaciones, es que además bate los récords humanos y muy de lejos con más de 2 millones de puntos en el primer caso y más de 21.000 de promedio en el segundo. Le da varias veces la vuelta al marcador, el Santo Grial de cualquier jugador de videojuegos, vamos.
Para obtener esas puntuaciones en estos juegos de plataformas hay que superar todo tipo de problemas: dar saltos, esquivar trampas, colgarse de cuerdas, abrir puertas y similares. En el caso de Pitfall son más de 40 pantallas diferentes. En el MundoReal™ los problemas son técnicamente muy diferentes, pero las estrategias que se usen para resolverlos pueden similares, de ahí que esta investigación con «modelos simplificados» resulte muy útil.
Según explican en el artículo en estos juegos en concreto –como a veces en el mundo real– el problema de los sistemas de entrenamiento reforzado es que para conseguir las «recompensas» a veces hay que aceptar «pequeñas pérdidas». Los algoritmos no son muy buenos aceptando perder a veces (aunque sea para ganar a largo plazo) y esto requiere utilizar otras estrategias. La de Go-Explore busca «aprender más» aunque sea perdiendo más veces –no tiene problema en repetir las pruebas una y otra y otra vez– de modo que eso le permite explorar más movimientos y posibilidades. Esto sirve tanto para explorar un laberinto como para superar las pruebas de un videojuego o, quién sabe qué otros usos en el futuro.