Computadora de Google derrota a StockFish con solo 4 horas de auto-aprendizaje

20 años después de que DeepBlue derrotara a Garry Kasparov en un combate, los ajedrecistas han despertado a una nueva revolución. El algoritmo AlphaZero desarrollado por Google y DeepMind tomó solo cuatro horas de juego contra sí mismo para sintetizar el conocimiento del ajedrez de un milenio y medio y alcanzar un nivel donde no solo superó a los humanos, sino que aplastó al Campeón Mundial de Informática. AlphaZero ganó 28 partidas a Stockfish en 100 juegos. Todas las estratagemas brillantes y los refinamientos que los programadores humanos usaron para construir motores de ajedrez se han superado, y al igual que los jugadores de Go, solo podemos maravillarnos con un enfoque completamente nuevo del juego.

AlphaZero, un programa informático de Google basado en redes neuronales, ha logrado derrotar a StockFish 8, uno de los motores de ajedrez más potentes del mundo. Para lograrlo, tan sólo ha necesitado conocer las reglas del juego y 4 horas de entrenamiento consigo mismo.

AlphaGo saltó a la fama hace un par de años por ser el primer programa de Inteligencia Artificial capaz de derrotar a un jugador profesional de Go (uno de los juegos más complejos del mundo, computacionalmente al menos, más aún que el ajedrez), concretamente al campeón surcoreano Lee Sedol.
Hace poco más de un mes, DeepMind (la empresa creadora de AlphaGo, propiedad de Google) desarrolló AlphaGo Zero, una aplicación que fue capaz de vencer a su predecesora, AlphaGo, tras jugar consigo mismo durante 40 días, con las reglas del juego como único conocimiento previo.
Ayer se dio a conocer el desarrollo de AlphaZero, una generalización del algoritmo empleado en AlphaGoZero, válido por tanto para otros propósitos distintos de ganar al Go.

Pues bien, AlphaZero ha logrado derrotar a StockFish tras tan sólo 4 horas de auto-aprendizaje (es decir, jugando contra sí mismo).

El cofundador de DeepMind Demis Hassabis es un antiguo prodigio del ajedrez, y aunque su equipo había asumido el desafío de derrotar a Go, un juego en el que los humanos seguían en ascenso, había una tentación obvia de probar y aplicar las mismas técnicas al ajedrez. Bien. Hace tiempo que reconocemos nuestra inferioridad humana, pero podríamos consolarnos con el hecho de que los motores de ajedrez que nos derrotaron también fueron obras de ingenio y esfuerzo humanos. Eso estaba a punto de cambiar.

La bomba apareció en un documento académico publicado silenciosamente, publicado el 5 de diciembre de 2017: Dominar el ajedrez y el Shogi por autoaprendizaje con un algoritmo de aprendizaje de refuerzo general .

Puedes descargarlo a continuación:

Mastering Chess and Shogi by Self-Play

Los contenidos son impresionantes. El equipo de DeepMind había logrado probar que una versión genérica de su algoritmo, sin otro conocimiento específico que las reglas del juego, podría entrenarse durante cuatro horas en ajedrez, dos horas en shogi (ajedrez japonés) u ocho horas en Go y luego vence a los campeones reinantes de la computadora, es decir, a los jugadores más fuertes conocidos de esos juegos. En el ajedrez no era solo una paliza, sino una gran demolición.

Stockfish es el campeón reinante de ajedrez de computadora TCEC, y aunque no logró llegar a la final este año, quedó invicto en 51 juegos. En un partido con el AlphaZero entrenado en ajedrez, sin embargo, perdió 28 juegos y no ganó ninguno, con los 72 empates restantes. Con blancas AlphaZero anotó un fenomenal resultado de 25 victorias y 25 empates, mientras que con las negras “meramente” anotó 3 victorias y 47 empates. ¡Resulta que el movimiento inicial es realmente importante después de todo!

La nueva era del ajedrez ha llegado, ¡y no se necesitan humanos!


Accede a toda nuestra MEGABIBLIOTECA de ajedrez - Más de 200 GB de información, libros, revistas, películas, programas, cursos completos y más... TODO POR SOLO 10$ USD.