El dios del go

Desde la derrota del campeón del mundo de ajedrez, Gary Kasparov, frente al programa de IBM DeepBlue hace ya veinte años, en 1997, el GO estaba considerado el último reducto de la supremacía de la inteligencia humana en este tipo de juegos clásicos. El espacio de posibilidades del GO es muy superior al del ajedrez, y la dificultad para evaluar las posiciones y los movimientos sobre el tablero suponían un auténtico desafío para la inteligencia artificial. A finales de 2015, muchos creían que pasaría al menos otra década hasta que la inteligencia artificial fuera capaz de derrotar al mejor jugador del mundo de GO.

A finales de enero de 2016, los medios de comunicación anunciaban la derrota del campeón europeo de GO, Fan Hui, por un rotundo 5-0 frente a un programa de ordenador. AlphaGO se convertía en el primer programa que derrotaba a un jugador profesional de GO, en un juego sin handicaps. DeepMind, la empresa británica que lo había creado, y que había sido recientemente adquirida por Google (Alphabet), presentaba los resultados en un artículo publicado en la revista Nature.

Tras su derrota, Fan Hui inició una colaboración con DeepMind para mejorar el programa AlphaGO y poder retar a un jugador de mayor nivel, Lee Sedol, que, en ese momento, febrero de 2016, era el segundo mejor jugador del mundo. Muchos apostaron por Lee. Al fin y al cabo, a diferencia del ajedrez, el GO no es un juego con una gran tradición en Europa, y derrotar al campeón del Europa de GO era algo así como derrotar al campeón de futbol de China. (Fan Hui, aunque nacido en China es de nacionalidad francesa.) Pero el espejismo no duró mucho tiempo. En marzo de 2016, la nueva versión de AlphaGO ganó 4 de las 5 partidas que disputó con Lee.

Ya sólo quedaba uno, Ke Jie. El campeón del mundo de GO había declarado que AlphaGO no podría derrotarle a él. Para motivar la contienda, DeepMind ofreció un premio de 1.5 millones de dólares al vencedor de un encuentro a tres partidas (y 300,000 dólares para el perdedor). El esperado enfrentamiento tuvo lugar durante la Cumbre del Futuro del GO, celebrada en Wuzhen entre el 23 y el 27 de Mayo de este año 2017. Una nueva versión del programa, AlphaGO Máster, venció a Ke Jie en las tres partidas. Después de perder la segunda y decisiva partida, Ke, desesperado, le echó la culpa al elemento esencial que lo separaba de su enemigo: sus emociones. Luego declaró: “El año pasado, pensaba que la forma de jugar de AlphaGo se aproximaba bastante a la de los humanos, pero ahora creo que juega como el Dios del Go.”

El año pasado, pensaba que la forma de jugar de AlphaGo se aproximaba bastante a la de los humanos, pero ahora creo que juega como el Dios del Go.

Pero en ese momento ni Kie Jie ni el resto de nosotros podíamos imaginar que todavía no habíamos visto al verdadero dios del GO.

La extraordinaria inteligencia de AlphaGO está construida sobre redes neuronales profundas (redes de múltiples capas). Estas redes son, en esencia, algoritmos matemáticos capaces de reconocer un patrón complejo, una posición de juego, por ejemplo, y producir una respuesta: típicamente una valoración sobre lo buena o mala que es la posición para cada jugador, o el siguiente movimiento del jugador. Para “entrenar” estas redes suele utilizarse la técnica del aprendizaje supervisado, en la que se suministran a la red neuronal múltiples ejemplos de juego. Cada ejemplo contiene una posición junto con la respuesta que se espera por parte de la red, la valoración o el movimiento deseado ante cada una de esas posiciones. Es el mismo tipo de algoritmo que se utiliza, por ejemplo, para enseñar a una red neuronal a reconocer imágenes. Foto y respuesta ¿Es un gato? Si/No. La magia de la inteligencia artificial que hace posible la capacidad de juego sobrehumana es, básicamente, la capacidad de procesar una cantidad masiva de ejemplos. De ahí que, en la actualidad, hablemos muy a menudo de Big Data y de IA como términos relacionados.

Pero estas redes neuronales también pueden aprender mediante otra técnica diferente, el aprendizaje por refuerzo. AlphaGo puede aprender jugando contra sí mismo. Dos instancias diferentes del algoritmo pueden enfrentarse, y el algoritmo de aprendizaje extraer sus propias recetas de juego en función del resultado final que se obtiene (victoria, derrota). El aprendizaje por refuerzo tiene la ventaja sobre el aprendizaje supervisado de que no necesita la misma cantidad ingente de ejemplos extraídos de partidas jugadas por expertos. Básicamente, lo único que se necesita es programar las reglas del juego y, eso sí, en este caso, una capacidad sobrehumana para jugar millones de partidas.

Tanto el aprendizaje supervisado como el aprendizaje por refuerzo son técnicas matemáticas que tienen un paralelo claro con nuestra propia forma de aprender. Nosotros utilizamos ambas técnicas de manera combinada: un experto o un profesor nos puede proporcionar ejemplos, reglas o pistas, pero también aprendemos de los resultados que derivamos de nuestra propia práctica (ensayo y error). Esta misma combinación de las dos técnicas es la que se utilizó en las versiones de AlphaGO que derrotaron a Lee Sedol y a Ke Jie. El artículo de Nature publicado en enero de 2016, se titulaba “Dominando el juego del GO con redes neuronales profundas y búsqueda en árboles”[1] y en él, los autores, indican que “estas redes neuronales profundas están entrenadas por una nueva combinación de aprendizaje supervisado de juegos de expertos humanos, y el aprendizaje de refuerzo de los juegos de autoaprendizaje”.

Las técnicas de aprendizaje supervisado utilizadas con redes neuronales profundas son los dos elementos clave que han hecho posible el gran avance experimentado recientemente por la inteligencia artificial. Los algoritmos de redes neuronales no son algo reciente. Son, de hecho, prácticamente tan viejos como la propia idea de la inteligencia artificial. Imitar nuestro propio cerebro para crear inteligencia es una idea que resulta intuitivamente atractiva. Sólo que, como tantas otras, hasta ahora no había sido tan fácil de llevar a la práctica. Lo que ha marcado la diferencia reciente es la posibilidad de utilizar esas redes profundas, redes con múltiples capas. Y esto ha sido posible, fundamentalmente, por la mejora sostenida de la capacidad de computación. Hasta hace unos pocos años, no era computacionalmente posible manejar redes tan complejas y volúmenes de datos tan elevados. En cierto modo, como casi todo lo que hemos visto en la milagrosa revolución de la información, son el resultado de la fuerza bruta de cálculo.

Ahora bien, una vez que AlphaGO había derrotado al campeón del mundo y había asimilado, por así decirlo, todo el conocimiento humano disponible, ¿podía seguir mejorando? Si ya no quedaban más humanos por derrotar, más humanos de los que poder aprender algo nuevo ¿de quién podía seguir aprendiendo AlphaGO? La respuesta estaba clara. Sólo de sí mismo.

Los expertos de DeepMind decidieron empezar de nuevo desde cero y hacer que AlphaGO volviese a aprender a jugar sin utilizar ningún conocimiento externo, sin profesores humanos, enfrentándose desde el principio sólo contra el mismo, utilizando sólo el aprendizaje de refuerzo y eliminando el aprendizaje supervisado. Y lo sorprendente es que las nuevas versiones del programa, ¡juegan ahora mucho mejor que AlphaGo Máster!

En un nuevo artículo publicado también en Nature el 18 de octubre y titulado “Dominando el juego del GO sin conocimiento humano”[2], los autores explican que:

Un objetivo histórico de la inteligencia artificial es conseguir un algoritmo capaz de aprender, tabula rasa, competencias sobrehumanas en dominios desafiantes. AlphaGo se convirtió recientemente en el primer programa de ordenador capaz de derrotar a un campeón del mundo en el juego del GO. La búsqueda de árbol que utilizaba AlphaGo evalúa las posiciones y los movimientos seleccionados utilizando redes neuronales profundas. Estas redes neuronales fueron entrenadas por medio del aprendizaje supervisado a partir de movimientos de expertos humanos, y mediante aprendizaje por refuerzo jugando contra sí mismo. Ahora presentamos un nuevo algoritmo basado únicamente en el aprendizaje de refuerzo, sin datos humanos, orientación o conocimiento del dominio más allá de las propias reglas del juego. AlphaGo se convierte en su propio profesor: una red neuronal se entrena para predecir la selección de movimientos y también el ganador de los juegos de AlphaGo. Esta red neuronal mejora la capacidad previa que usaba la búsqueda de árboles, lo que resulta en una selección de movimientos de mayor calidad y un autoaprendizaje más robusto. Comenzando tabula rasa, nuestro nuevo programa AlphaGo Zero logró un rendimiento sobrehumano, ganando 100-0 contra la versión de AlphaGO anteriormente publicada y ganadora de campeones.

Los datos que presentan en el artículo son tan impresionantes como la falta de modestia de los autores. En tan sólo tres días de entrenamiento y habiendo procesado un total de casi 5 millones de juegos contra sí mismo, la nueva versión AlphaGO Zero adquirió la experiencia necesaria para derrotar a la versión AlphaGo Lee que derrotó a Lee Sedol. Por comparación, AlphaGo Lee había usado casi 30 millones de juegos como inspiración. Después de 40 días de auto-entrenamiento, AlphaGo Zero derrotó también a la versión más avanzada AlphaGo Master que derrotó a Ke Jie. Desde principios de este año, las diferentes versiones de AlphaGo han ganado un total de 60 juegos contra los mejores profesionales del mundo. Ahora ya sí parece que hemos visto, definitivamente, el nacimiento del dios del GO.

Una victoria tan rotunda como la de AlphaGo en un periodo de tiempo tan breve, ha dejado a la comunidad de fans del GO en estado de shock. Aunque por el momento DeepMind no ha publicado las partidas más recientes de AlphaGO Zero, sí que lo hizo con 55 partidas usadas durante el entrenamiento de las versiones previas. Desde mayo de este año, los expertos han estado analizando minuciosamente esas partidas con la misma admiración y reverencia que los mortales nos aproximamos siempre a las hazañas de los dioses. No lo digo yo, lo dicen ellos: El juego de AlphaGo parece proceder de otra dimensión, del futuro. Es como si estuviéramos leyendo un manual de instrucciones de una civilización alienígena.

Y lo más interesante desde ese punto de vista emocional al que hacía referencia Ke Jie, es que un juego tan complejo para la mente humana como el GO ha creado a lo largo de los años toda una iconografía y toda una serie de rituales. Los principiantes de GO aprenden a reconocer en los patrones que forman las fichas negra y blancas sobre el tablero, figuras como una boca de león o el caparazón de una tortuga. Estos patrones llevan asociadas historias que se fijan en su memoria y les ayudan a desarrollar sus estrategias de juego. Seguramente también AlphaGo, en su proceso de aprendizaje, encuentra y reconoce patrones similares que quedan capturados en los parámetros de su red neuronal. La diferencia es que, al menos por el momento, AlphaGo no está programado para compartir lo que aprende o explicárnoslo de una manera que resulte comprensible para un humano. Podemos verle jugar y verle ganar, pero no podemos penetrar en su mente cibernética.

Esto tiene interesantes implicaciones. De repente, disponemos de una máquina, de un algoritmo, que sabe resolver un determinado problema mejor que cualquiera de nosotros. Sin embargo, nosotros no estamos capacitados para entender el porqué de sus decisiones. Imaginemos a un experto contemplando una partida de GO. En un momento dado de la partida, el experto observa uno de esos sorprendentes movimientos de AlphaGo. No ha seguido la regla de la boca del león. Ha hecho un movimiento que a nadie se le hubiera ocurrido hacer en esa situación. En cualquier otra circunstancia, el experto diría. ¡Qué ridículo! Va a perder. Pero ahora el experto sabe que no, que AlphaGo va a ganar, porque hace ya mucho tiempo que ningún humano ha sido capaz de derrotarle. Y, dramáticamente, el experto tiene que admitir que no entiende la razón de ese movimiento, pero que, sin duda, AlphaGo estará en lo correcto. Todos sabemos que AlphaGo tiene razón, pero no sabemos por qué.

Esta es una idea que está presente en varios de los relatos de Extrapolación 2029. En este momento, no existe prácticamente ningún terreno en el que no se esté ya experimentando y especulando con las posibilidades que las redes neuronales profundas nos ofrecen. Son, por ejemplo, uno de los ingredientes básicos para el desarrollo de una de las promesas tecnológicas más audaces del momento, el desarrollo de los vehículos autónomos. En DeepMind, que de momento pierde dinero como muchas de las arriesgadas apuestas de Google, tienen expectativas ambiciosas para su producto. Confían en que el desarrollo de AlphaGO podrá ser aplicado en áreas como el descubrimiento de nuevos fármacos y proteínas, la química cuántica o el diseño de nuevos materiales. ¿Adónde nos lleva todo esto? ¿Ocurrirá lo mismo que con el GO en todos esos otros ámbitos de aplicación? ¿Cuándo tardará en llegar hasta ellos el dios del GO?

En el microrrelato de ciencia ficción Justa ignorancia me pregunto: ¿qué puede ocurrir cuando el dios del GO llegué al terreno de la justicia?

Aguardábamos con inquietud el momento en que el juez pronunciaría el veredicto. Fuera cual fuese, no lo entenderíamos. Sin embargo, sabíamos que sería justo.

Sigue leyendo aquí.

____________________

[1] Silver, David, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, et al. 2016. ‘Mastering the Game of Go with Deep Neural Networks and Tree Search’. Nature 529 (7587):484–89. https://doi.org/10.1038/nature16961.

[2] Silver, David, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, et al. 2017. ‘Mastering the Game of Go without Human Knowledge’. Nature 550 (7676):354–59. https://doi.org/10.1038/nature24270.

Justa Ignorancia fue publicado originalmente el 4 de junio de 2017 aquí

One response to “El dios del go

Escribe tu respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s