Artificiell intelligens kör över fyra professionella Pokerspelare

Artificiell intelligens poker

Pokerboten Libratus AI har gjort det som ingen trodde var möjligt.

I måndags besegrade den fyra professionella pokerspelare i Texas No-Limit hold’em, och för första gången i historian tvingas pokervärlden möta en framtid där maskinerna riskerar att ta över.

Efter schack och Go verkar nästa spel vara på väg att lösas av datorer.

Borde människan sluta med poker – om avancerad artificiell intelligens står för moståndet?

Kommer Libratus förkrossande seger att ändra vår inställning till spelet?

Låt oss försöka besvara några av dessa frågetecken.

Imponerande utveckling

För två år sedan designade ett team från Carnegie Mellon University ett datorprogram vars mål var att slå de bästa spelarna i Heads-up Texas No-Limit Hold’em (En av de mest komplexa pokervarianterna).

Programmet hade stora problem när det mötte fyra professionella spelare, och det förlorade eventuellt matchen mot sina mänskliga motståndare.

Toumas Sandholm Libratus
Vinnarna! (Brown till vänster, Sandholm till höger)

Utvecklarna har dock spenderat de två senaste åren på avancerade justeringar, och det är en extraordinär förbättring man visat upp.

Ett returmöte schemalades därför mot fyra av de bästa Heads-up spelarna inom Texas No Limit Hold’em. 120,000 händer spelades – vilket är ett signifikativt statistiskt underlag, och resultatet kan närmast liknas med en total förintelse av människorna.

Vilka spelade?

Dong Kim, Jason Les, Jimmy Chou och Daniel McAulay representerade människorna i den här utmaningen.

Kim är en mycket framgångsrik highstakes-spelare online, medan Les varit snubblande nära på dubbla WSOP-armband i 2015 års World Series of Poker när han slutade tvåa och trea. Chou vann de asiatiska mästerskapen för ett år sedan och McAulay har hundratusentals dollar till sitt namn från onlineturneringar.

Gemensamt för allihop är att de är enormt duktiga på Heads-up Texas No Limit Hold’em – spelformen som gällde under utmaningen.

Libratus AI skapades av ett team forskare ledda av doktorranten Toumas Sandholm och studenten Noam Brown från Carnegie Mellon University. Programmet var baserat på Claudio AI, som förlorade samma utmaning för två år sedan.

Specialregler för att minska variansen

Dong Kim
Kim mest framgångsrik

Utmaningen spelades över 120,000 händer, och varje deltagare spelade 30,000 händer vardera. Den pågick mellan 11:e – 30:e januari. Vid varje hand startade spelaren och datorn med 20,000 marker, och blindsen låg på 50/100.

Med den strukturen försäkrade man sig om att samtliga händer spelades med 200 big blinds, vilket ger gott om utrymme för strategiska spel.

Man satte också in två specialregler för att minska turfaktorn, som annars hade kunnat ge en väldigt skev bild av resultatet.

  1. Alla händer speglades. Exempel: När spelare A fick pocketess vs pocketkungar mot Libratus fick spelare B kungar mot ess samtidigt. På det sättet blev sannolikheten mycket lägre att någon av parterna besegrade den andra på grund av en tillfällig heater.
  2. Inga spekulativa All-ins: Om spelarna hamnade all-in före river delades inga fler kort ut, istället fick båda spelarna tillbaka sin equity i marker.

Exempel: Om en spelare låg före med 70/30 på turn fick han 70 % av potten medan motståndaren fick 30 %. På det sättet minskades turfaktorn ytterligare.

Resultat

Efter 20 dagar och 120,000 händer var resultatet solklart. Libratus hade kört över proffsen med en vinstmarginal på $14,72 per hand.

Det motsvarar en winrate på 14.7bb/100 – ett enastående resultat av artificiell intelligens. Såhär presterade varje deltagare individuellt över sina 30,000 händer mot Libratus:

Spelare

Förlust

Per hand

Dong Kim

-$85,649

-$2.85

Jimmy Chou

-$522,857

-$17.43

Jason Les

-$880,087

-$29.34

Daniel McAuley

-$277,657

-$9.26

 

 

 

Resultat / genomsnitt

-$1,766,250

-$14.72

 

Libratus kanske hade tur?

Även om man tillämpade flera regler för att minimera variansen så finns fortfarande chansen att tur spelar en stor roll i resultatet för varje hand.

Så människorna kanske ändå var bättre, medans datorn helt enkelt hade mer flyt? Låt oss kolla på lite statistik.

Libratus poker
Förkrossande seger

Libratus AI vann med en winrate på 14.7bb/100. 120,000 händer spelades, och standardavikelsen låg mellan 100-200 big blinds per 100 händer.

Det här är bara grova uppskattningar av variansen, men som vi kommer kunna se så är det bra riktlinjer att utgå från. Lägger vi in dessa nummer i en varianskalkylator för poker får vi svaret på nedanstående fråga:

Vad är sannolikheten att människorna spelade bättre än Libratus AI men ändå förlorade med en rate på 14.7 big blinds per 100 händer över 120,000 händer?

Den sannolikheten är extremt låg. Någonstans kring 0,0001 % (vid den lägre gränsen av standardavvikelsen) och 0,54 % (vid den övre gränsen).

Det betyder att det är högst osannolikt att det allmänna resultatet skulle förändras om man spelade om utmaningen – Libratus AI var helt enkelt den bästa spelaren.  

Hur fungerar Libratus AI?

Bridges Superdator

I grund och botten är Libratus AI en gigantisk uppsättning av strategier som definierar hur den ska spela i olika situationer. Två exempel på sådana strategier skulle kunna vara följande(men är inte nödvändigtvis kopplade det till dennes aktuella spel i utmaningen):

Vi är i pre-flop stadiet, och Libratus AI har 7 4. Då kommer datorn höja till 3 big blinds 50 % av gångerna, till 5 big blinds 30 % av gångerna och folda 20 % av gångerna.

I nästa hand kommer vi in på turn, och Libratus möter en höjning efter att redan ha mött en höjning på floppen. Den håller nötfärgdraget på en låg bräda. Här går Libratus all-in 60 % av gångerna och synar 40 %.

Väldigt snabbt blir det tydligt att det finns oberäkneligt många situationer som datorn kan hamna i, och för varje enskild situation har Libratus AI en strategi.

Det är värt att nämna att de flesta situationer kommer med mixade strategier som de ovanför – ibland går datorn för det ena beslutet, ibland för det andra. För att beskriva det på enklast möjliga sätt kastar Libratus AI en tärning för att bestämma vilket beslut den ska gå för, men sannolikheterna och valmöjligheterna är förkalkylerade och väl balanserade.

Strategier från en superdator värd $10M

För att kunna generera strategier för alla olika situationer använde Sandholm och Browns team en superdator kallad ”Bridges”.

Bridges är i genomsnitt 30,000 gånger snabbare än en vanlig modern stationär dator. Den har 274 terabyte RAM och kostade $9,65M att tillverka.

Datorn spelade i flera dagar mot sig själv, och samlade på sig miljarder, förmodligen biljoner av händer, och den prövade slumpmässigt alla olika strategier.

När en strategi fungerade så ökade sannolikheten för att Libratus AI skulle spela med strategin – och när en strategi inte fungerade minskade sannolikheten. I grund och botten kan man säga att hela processen var en jättelik felsökning.

Libratus
Väl förberedd

Libratus AI var med andra ord väl förberedd för utmaningen, men lärandet stannade inte där. Varje dag efter sina matcher mot människorna justerade datorn sina strategier för att dra fördel av alla svagheter den hittade i sina mänskliga motståndare.

Komplexiteten är begränsad

Hur är det möjligt att en dator lyckas besegra fyra relativt starka pokerspelare?

För de flesta är poker ett spel som handlar om instinkt, magkänsla och reads. En dator har ingen magkänsla. En dator har ingen instinkt.

Tillskillnad från schack och Go är poker ett spel där man tvingas ta beslut grundat på ofullständig information. Hur kan en dator utmärka sig i ett sådant spel?

För det första så måste man förstå att poker är ett extremt komplext spel – mycket mer komplext än schack och Go, men komplexiteten är begränsad. Det finns ett begränsat antal kombinationer som korten kan blandas på, och således finns det ett begränsat antal spelsituationer man kan hamna i.

I Heads-up Limit-Hold’em finns det drygt 316,000,000,000,000,000 olika spelsituationer. Om du skulle spela en av dem varje sekund skulle det ta 10 miljarder år att spela klart. Det är många spelsituationer.

För No-Limit Hold’em är den siffran ännu högre, då du i stort sett kan satsa nästan vilket belopp som helst, men faktum är att den totala siffran av olika spelsituationer ändå är ändlig.

Ingen magkänsla, bara perfekt strategi

John Nash
John Nash

För alla spel där det finns ett begränsat antal spelsituationer existerar ett Nash Equilibrium. En strategi baserat på ett Nash Equilibrium garanterar att man i sämsta fall inte kommer kunna förlora mot någon som använder en annan valfri strategi.

Det betyder att det är omöjligt att förlora på lång sikt mot vilken annan spelare som helst om man använder strategin på ett korrekt sätt. Existensen av dessa jämnviktslägen bevisades av John Nash 1950 och det gav honom nobelpriset i ekonomi.

Nash Equilibrium gör att instinkter, reads och magkänsla inte betyder något i slutändan. Det finns en perfekt strategi för poker, vi måste bara hitta den.

Allt du behöver är en passande dator som kan hantera kvadriljoner av olika situationer, som operarar på miljarder av terabyte och som är blixtrande snabb. Sedan sätter du ett team av hyperintelligenta människor bakom den och låter dem utveckla en metod som tar tillvara på datorns fulla potential.

Är pokern löst? Är vi körda?

Just nu är Libratus AI bara början. Datorn förenklar fortfarande många spelsituationer.

Exempelvis: Datorn kanske inte gör skillnad på ett Kung-Knekt högt färgdrag och Kung-Tio högt färgdrag. Den kanske inte gör skillnad på att satsa 55 % av potten och 60 % av potten.

Men Libratus är ändå tillräckligt nära en lösning för att förinta allt mänskligt motstånd. Med mer tid och en starkare dator kommer Libratus att förbättra sin prestation.

Vad gäller för de andra pokervarianterna?

Libratus besegrade människorna i Heads-up No-Limit Hold’em. För två år sedan introducerade University of Alberta ”Cepheus” – en pokerbot som spelar en närmast perfekt Limit Hold’em strategi.

Superdator
Bara början...

Det är med största sannolikhet säkert att säga att dessa två pokervarianter är praktiskt taget lösta. Forskarna bakom Cepheus lyckades till och med bevisa att deras bot i sämsta fall var 0.05 big bets ifrån den perfekta strategin (gällande Nash Equilibrium).

Medan No-Limit Hold’em boten Libratus förmodligen är mycket längre ifrån en prefekt strategi så är det bara en tidsfråga innan den utvecklas och närmar sig det tillståndet.

Men vad gäller för alla andra pokervarianter? Poker med fler än två spelare är betydligt mer komplicerat, i all fall räknat på magnituden av situationer som kan uppstå. Samma tes gäller för varianter som Omaha.

Men i datorernas värld, där datorns styrka växer exponentiellt, är det ofta bara en fråga om tid innan en sådan utmaning är avklarad.

Det är bara tidsfråga innan botarna tar över onlinepokern och blir de sanna kungarna i pokervärlden.

Men en bot som Libratus är fortfarande så pass komplex att den behöver en direkt koppling till en enorm superdator, och den spelar fortfarande anmärkningsvärt långsamt, så det finns inget direkt hot om att en sådan används på ditt lokala casino eller i ett onlinespel.

Men det kommer inte dröja överdrivet lång tid innan jämförbara varianter fungerar på våra privata datorer och smartphones.

Är vi inte redan där?

Deep Blue Artificiell intelligens
Deep Blue

Det läskiga är att botar inte behöver spela en perfekt strategi, och de behöver inte slå dem bästa pokerspelarna.

För att vinna behöver den bara slå medelspelaren. Och det finns dåliga nyheter på den fronten – vi är redan där.

För i stort sett varje pokervariant finns det en bot som spelar bättre än en helt okej medelmåttig spelare. Så medan pokern ännu inte är löst teoretiskt sett så är den tillräckligt löst för att en helt okej bot ska vinna över en helt okej spelare.

Samma fenomen gick att se när datorschack utvecklades, flera år före ”Deep Blue” slog den regerande världsmästaren Garry Kasparov 1997.

Första gången en dator nådde en masterrank på schackens ELO-rating var faktiskt 1981, och 16 år senare besegrade Artificiell intelligens världsmästaren.

I dagsläget är förmodligen pokern halvvägs mellan dessa två punkter.

Är det här slutet för pokern?

Pokerbot Live
Du kan redan spela mot den här saken

När datorer utmanar de bästa pokerspelarna är det omöjligt att inte tänka; Är det här slutet för pokern?

Det är viktigt att notera att problemet som pokerindustrin möter inte är nytt på något vis. Libratus seger är inte den första kraftdemonstrationen från en pokerbot mot en medelmåttig mänsklig spelare.

För fem år sedan installerade Bellagio Casino i Las Vegas en $2/$4 Limit Hold’em bot som alla kunde möta. Boten tog ingen rake, så den tjänade pengar på att slå spelarna.

Det har alltså funnits pokerbotar i över fem års tid som slagit medelspelaren.

På internet har problemet existerat ännu längre. Onlinebotar har cirkulerat i minst åtta års tid, trots att alla pokersidor förbjuder dem. Om sidan märker att en spelare använder en sådan stängs denne av och kontots tillgångar konfiskeras.

Så Libratus sensationella seger påverkar inte utgångsläget speciellt mycket ur hänsyn till vilka utmaningar onlinepokern har framför sig – den belyser bara den anmärkningsvärda utvecklingen som artificiell intelligens gjort de senaste två åren.

Inga förändringar för livepokern

Gällande livepoker så lär inte mycket förändras inom den närmsta framtiden. Vi kommer inte att se spelare stå och använda sina smartphones för att räkan ut perfekta strategier, och vi kommer inte ha baksätespassagerare som sitter i publiken under WSOP och viskar de optimala spelen till sina kompisar.

Vissa professionella spelare kommer utan tvekan att använda avancerade program för att analysera och förbättra sina strategier, men sånt ser vi redan idag.

Det är högst troligt att livepoker inte kommer att påverkas något av botar det närmsta årtiondet, på samma sätt som miljoner människor fortfarande spelar och kollar på schack, även om vi inte längre kan slå artificiell intelligens.

Vi kommer fortfarande att se pokerspelare slåss för miljontals dollar, titlar och ära för en lång tid framöver.

Onlinepokern behöver utvecklas

För onlinepokern ser det däremot inte lika ljust ut. Det är pokersajternas ansvar att försäkra sig om att alla spelare tävlar på samma villkor.

888Live Festival
Fortfarande okej!

Sajterna måste försäkra sig om att människor spelar mot människor. Operatörerna gör redan sitt bästa på den punkten, men det är såklart alltid möjligt att ta sig igenom även de säkraste kontrollerna om du försöker tillräckligt hårt.

I nuläget påverkas inte onlinepokern av att superdatorer nästan löst spelet, men för ge en bild utav hur framtiden för onlinepokern ser ut behöver vi bara kolla på onlineschack. Ingen mentalt frisk människa skulle spela ett parti schack för betydande summor online.

Det är möjligt, och förmodligen troligt att man är uppe mot en oslagbar AI bot. Onlineschack på skoj? Givetvis! För pengar? Inte en chans!

Men i nuläget handlar onlinepoker bara om pengar, och i framtiden är det troligt att även de säkraste operatörerna inte längre kan garantera en bot-fri omgivning.  Det är bara en tidsfråga innan onlinepokern måste utvecklas på ett helt nytt sätt om den inte vill försvinna, och nu pratar vi inte om årtionden, utan 5-10 år.

När Dong Kim fick frågan om Libratus betydde slutet för onlinepokern svarade han:

”Inte inom den närmsta framtiden, men vi bör vara oroade. Jag är ingen raketforskare, men jag antar att allt som har med datorer att göra utvecklas exponentiellt.

”Slutet är nära. Det var en rolig resa.”

 

Skriven av Arved Klöhn