Une IA a battu les meilleurs joueurs de poker dans un tournoi

Crédits : Wikimedia Commons / Victor vic

Un programme d’intelligence artificielle connu sous le nom de Libratus a battu quatre des meilleurs joueurs de poker du monde dans un tournoi No-Limit Texas Hold’em d’une durée de vingt jours. Ce tournoi baptisé « Brains vs. Artificial Intelligence » s’est tenu au Rivers Casino, à Pittsburgh.

Les scientifiques peuvent désormais ajouter le Texas Hold’em Poker à la liste des jeux dans lesquels une intelligence artificielle a battu les meilleurs joueurs humains au monde après les échecs ou encore le jeu de Go. En effet, au Rivers Casino de Pittsburgh (États-Unis) s’est récemment tenu le tournoi « Brains vs. Artificial Intelligence » au cours duquel quatre des meilleurs joueurs de poker au monde ont fini par céder face à l’IA Libratus.

C’est en 1997 qu’une IA a battu un humain pour la première fois. C’était le programme Deep Blue d’IBM qui battait alors Gary Kasparov, le meilleur joueur d’échecs au monde. L’an dernier, c’est AlphaGO qui créait la sensation en battant le meilleur joueur de jeu de Go au monde. C’était une prouesse impressionnante sachant que le jeu de Go contient plus de mouvements potentiels « que d’atomes dans l’univers ». La stratégie de programmation adoptée était alors le Deep-Learning.

Mais à bien des égards, le Texas Hold’em Poker est plus complexe encore pour Tuomas Sandholm, informaticien à l’Université Carnegie Mellon qui a participé à la conception de Libratus. « En Heads-Up (un contre un), deux joueurs détiennent chacun deux cartes en main et doivent en tirer le meilleur parti en fonction des cinq cartes ouvertes placées sur la table, sur plusieurs tours. À chaque fois qu’une des cinq cartes est retournée, chaque joueur a différentes options de jeu (call, bet, fold…) ».

Décoder ce type de jeu est encore plus difficile que maîtriser le jeu de Go où chaque joueur connaît la position de l’autre. « Dans les jeux d’informations incomplètes comme le poker, c’est bien plus difficile », déclare l’informaticien. Par exemple, si vous jouez une main contre un adversaire, vous devez pensez aux deux cartes que vous tenez en main, mais également considérer les cartes qui sont sur la table, ce que l’autre joueur pourrait détenir, ce que sa mise vous informe sur ses cartes et ce qu’il essaie d’obtenir comme informations en fonction de ses mises.

Alors, Tuomas Sandholm et ses collègues ont misé sur un concept différent pour programmer l’IA Libratus. Connu sous le nom « d’équilibre de Nash », il s’agit d’un moyen mathématique pour déterminer la meilleure stratégie de jeu pour maximiser vos propres gains tout en minimisant ceux de votre adversaire. Dans le cas du poker, cela veut dire que l’IA peut perdre des mains, mais au fil des mains, l’équilibre de Nash se traduit par « une stratégie de jeu imbattable » selon Sandholm.

Cependant, « le jeu a 10 puissance 16 différentes situations possibles », ce qui signifie bien plus de possibilités de calcul que le jeu de Go. En conséquence, le programme ne peut pas calculer la solution d’équilibre de Nash parfaite, mais doit plutôt s’en rapprocher. En 2015, le programme Libratus avait déjà été impliqué dans un tournoi de poker dans lequel il avait été battu par des humains. Ici, le programme a été repensé pour avoir une meilleure stratégie de résolution en fin de tournoi.

Au cours de ce tournoi « Brains vs. Artificial Intelligence », quatre des meilleurs joueurs du monde ont affronté Libratus en Heads-Up, pour un total d’environ 120 000 mains jouées. L’enjeu était un pot de 200 000 $ et c’est ce que les joueurs humains ont reçu, même s’ils ont perdu. « Ce sont des professionnels, ils se sont battus jusqu’à cette fin amère. Ils étudiaient vraiment dur tous les soirs sur leurs ordinateurs en essayant de trouver des failles dans l’AI », déclare Sandholm.

L’informaticien estime qu’à la fin, dans le cadre du programme, le bluff a naturellement émergé comme une stratégie mathématiquement sûre. En effet, la victoire de l’IA a impliqué quelques mouvements surprenants, étant plus encline à placer des « overbets » (plaçant trois, cinq ou même vingt fois le montant du pot) dans deux situations différentes, en cas de mains très fortes ou de mains très faibles. Mais Libratus était également capable de placer des « underbets », la situation inverse. Le soir, Libratus analysait et adaptait sa stratégie en fonction des différentes mains jouées. « L’adaptation n’a pas été d’apprendre à exploiter l’adversaire, mais plutôt de déterminer quelles failles l’adversaire avait trouvées dans la stratégie de l’IA et d’automatiquement les combler », explique le programmateur.

Toutefois, cette stratégie d’équilibre de Nash ne prévaut qu’en cas de situation de Heads-Up et ne pourra fonctionner sur une table de plusieurs joueurs.

Source