Le No Limit Heads Up Hold’em et
l’apprentissage de la machineComment jouer au poker à 2 joueurs?
Introduction• Pourquoi le poker est-il étudié?
- connaissances et données partielles- environnement dynamique et stochastique
(évaluation des risques)- Un univers à valeurs continues (hautes
dimensions) - Modélisation des joueurs - Calcul des côtes et probabilités- Bluff
• Un univers d’IA totalement différent des Echecs ou des Dames.
L’existant
• L’université d’Alberta
• Bots online
• PsOpti (limit poker)
• Aucune étude sur le No Limit.
Buts de l’étude
• Passer outre les difficultés
• Ecrire un programme “intelligent”
• Meilleur que les probabilités
• Auto correcteur
• Adaptable
Règles et vocabulaire
Joueur 1 Joueur 2
Community cards
Flop Turn River
Small blindBig blind
Pot
Cartes privées
Boîtes à outils
• Utilisation d’un data set
• Tables de probabilité pré calculées
• Un univers discret d’actions et de type de cartes
• Algorithmes de calculs de probabilité en temps réel
Procédé global
1. Descriptions des joueurs2. Poids calculés de la main adverse
3. Description de la force de la main 4. Calculs des probabilités des actions
5. Online learning
Suppositions des cartes
DATASET
Actions observées
Modélisation de l’adversaire
Poids des cartes
AsAh AsKd KsQh TsTh
Choix de l’action
DATASET
Cartes adverses supposées
Modélisations des joueurs
Forces de la main
Réponse appropriée
Cycle d’apprentissage
Apprentissage temps réel (correction)
Apprentissage offline
DATASET
Outils utilisés
• PokDTC Network (Serveur et clients)
• Poker Academy Pro
• Scripts de jeu
Expériences
Random Bot
Apprentissages
Abitbot vs Angus
Joueur humain
Conclusion
• Bonnes performances contre d’autres bots
• Echecs contre joueurs humains de bons niveaux
• Besoin de modifier le dataset
• Apprentissage réussi mais insuffisant
• Possibilités d’utilisation sur d’autres variantes