AlphaGo... Et maintenant ?

Stéphan Le Doare
1 mai 2019
4 min de lecture

C'est avec la victoire d'AlphaGo sur Lee Sedol en 2016 que le fondateur de DeepMind, Demis Hassabis s'est fait connaitre du monde entier. Créée en 2010à Londres, DeepMind est rachetée par Google pour 650 millions de $ alors que Facebook s'y était cassé les dents en décembre 2012. Il faut dire que Hassabis est un petit prodige des échecs et qu'il pilote à 17 ans la programmation du jeu Theme Park. Après un doctorat en Neuroscience cognitive en 2009, Demis Hassabis quitte l'Université en 2012 pour fonder DeepMind Technology.

Lors de l'acquisition par Alphabet, la maison-mère de Google, Hassabis a tenu à protéger l'indépendance de son entreprise en mettant des garde-fous internes, avec par exemple un comité éthique contrôlé par lui et son équipe d'origine plutôt que par Google.

Bien qu'on le cite souvent, nous sommes aujourd'hui très loin d'AlphaGo, considéré comme le "papy", l'ancêtre. Un peu comme l'iPhone 2G aujourd'hui... AlphaGo fonctionne en mode "machine learning". Explication sommaire : le programme a été abreuvé de centaines de milliers de parties de Go, puis on lui a donné la capacité à prévoir le coup suivant en utilisant la méthode dite "de Monte Carlo", basée sur le hasard. AlphaGo joue un coup puis simule de nombreuses parties à partir du coup joué, en choisissant ses coups au hasard, mais en jouant et terminant toutes les parties. Enfin, une fonction d'évaluation très rapide note toutes ces parties et c'est le coup qui a permis de remporter le plus de parties évaluées qui est finalement réellement joué.

En janvier 2017, une amélioration de ce programme ,nommée "AlphaGo Master" affronte 60 joueurs de Go et remporte... 60 victoires.

L'équipe d'Hassabis décide alors de repenser complètement le programme et sort "AlphaGo Zero". Ce programme un peu différent se nourrit seulement de milliers de parties qu'il joue contre lui-même, avec une seule règle : 5 secondes maximum par coup. En quelques semaines, AlphaGo Zero met une déculottée à AlphaGo et fin 2017, son score ELO est de plus de 5000, score jamais atteint par un humain.

DeepMind poursuit en décembre 2017 avec AlphaZero. Ce programme, calqué sur AlphaGo Zero, est capable d'apprendre les trois principaux jeux que sont les échecs, le Shogi et bien sûr, le Go. Son réseau de neurones est mis à jour en temps réel et possède des règles codées pour l'établissement de recherche d'hyperparamètres. Un ajout : la règle du nul, qui n'existe pas au Go, mais existe aux échecs. En 24h, il atteint un niveau supérieur aux humains et bat les trois programmes champions du monde : Stockfish (Echecs), Elmo (Shogi) et.... AlphaGo Zero !

Avec 8 heures de pratique et 21 millions de parties jouées contre lui-même, il surpasse la version AlphaGo du match contre Lee Sedol au classement ELO. StockFish est battu après 4 heures d'apprentissage et 44 millions de parties jouées. Elmo est terrassé après 2 heures de pratique et 24 millions de parties.

Dans les faits, les parties se déroulent selon le schéma suivant : AlphaZero joue un premier set de 100.000 jeux en élaborant certaines règles. Il joue ensuite un deuxième set de 100.000 parties avec d'autres règles. Puis, les deux sets s'affrontent et celui qui offre plus de 55% de victoire devient la norme. AlphaZero rejoue un nouveau set de 100.000 parties avec d'autres règles et affronte le tenant du titre. Et ainsi de suite. AlphaZero a ainsi joué 40.000 sets, avec 5.000 parties à la fois et 3 secondes par jeu !

DeepMind a ensuite créé AlphaStar, passant du jeu de Go au jeu de guerre StarCraft II, battant 5 fois de suite 2 des meilleurs joueurs professionnels le 24 janvier 2019. L'algorithme issu d'AlphaZero a d'abord été entrainé avec des séquences humaines (l'éditeur du jeu, Blizzard, s'était associé dès 2017 à DeepMind pour créer une API, sorte de passerelle entre programmes). Comme pour le Go, les sets ont été dupliqués et se sont affrontés pour accumuler 200 ans d'expérience sur ce jeu.

Enfin, dernière avancée de DeepMind, AlphaFold s'est imposée lors du 13e CASP (Critical Assessment of Structure Prediction), une compétition bisannuelle sur la prédiction de la conformation 3D protéique. Les concurrents reçoivent une séquence linéaire d'acides aminés correspondant à 90 protéines pour lesquelles la forme 3D est connue, mais non encore publiée.

43 des 90 séquences d'acides aminés n'avait aucune structure connue. AlphaFold a effectué la prédiction la plus précise 25 fois. Le second n'a réussi que 3 fois.

Arrivés de nulle part, les scientifiques de DeepMind ont réussi une prouesse qui leur a valu les félicitations de l'organisation.

Derrière ce champ de développement, on imagine bien les futures avancées positives telles que la synthèse de nouvelles protéines, de nouveaux médicaments, etc. En même temps, il faut espérer que de tels algorithmes et ceux à venir ne tombent pas aux mains de personnes mal intentionnées ou d'États peu regardants. Par exemple, deux ans après la création du département DeepMind Health en 2016, Google s'est permis d'intégrer l'algorithme développé par cette équipe dans son offre Google Health, provoquant la colère des dirigeants de la startup, mis devant le fait accompli !

Et donc, qui pourrait stopper une armée d'exosquelettes ou de robots/drones militaires qui jouerait à StarCraft en grandeur réelle dans un pays du Moyen-Orient ?

@stephanledoare

Stéphan Le Doaré

AlphaGo... Et maintenant ?

Posts récents

Commentaires