
James Grosjean พิจารณาฉันหนึ่งในโดรนของ Netflix ที่ชื่นชอบ King’s Gambit (2020) แต่ฉันเป็นคนชอบเล่นหมากรุกมาโดยตลอด ตอนที่อยู่ในวิทยาลัยฉันอาจจะกินครัวซองต์ช็อคโกแลตหนึ่งพันชิ้นในขณะที่ดู Murray Turnbull (หรือที่เรียกว่า “Chess Master”) ที่ดูแปลกตาและน่ารักต่อสู้กับทุกคนในจัตุรัสกลางเมือง – “คืนเงิน 2 เหรียญหากคุณชนะหรือเสมอ” ฉันรู้สึกเป็นเกียรติที่ได้ถ่ายภาพ Karpov ที่ยิ่งใหญ่ในหน้าต่างกระจกสีของ Memorial Hall ในขณะที่เขาเล่นเกมพร้อมกัน 40 กระดานในมหาวิทยาลัย ฉันทำงานในสื่อมวลชนของนักเรียนเมื่อคาสปารอฟประกาศที่เป็นที่ถกเถียงกันอยู่ในตอนนั้นว่าคอมพิวเตอร์จะกลายเป็นแชมป์ที่ยิ่งใหญ่ไม่ใช่ผู้หญิง ออกจากการอภิปรายเกี่ยวกับผู้หญิงที่เป็นไปได้ของคาสปารอฟสำหรับฟอรัมอื่นและอีกวันหนึ่งฉันใช้คำพูดของเขาเป็นเพียงการคาดคะเนจากการสังเกตเชิงประจักษ์ของชุมชนหมากรุก การมีส่วนร่วมของผู้หญิงอยู่ในระดับต่ำและไม่ได้เพิ่มขึ้นอย่างมีนัยสำคัญในขณะที่คอมพิวเตอร์มีความแข็งแกร่งอยู่แล้วและเติบโตอย่างรวดเร็ว เครื่องจักรจะเปิดความเท่าเทียมกันใหม่ – ที่ซึ่งทุกเพศจะถูกบดขยี้เหมือนมด ทฤษฎีบทของ Zermelo บอกเราว่าเกมที่มีข้อมูลครบถ้วน (ผู้เล่นทั้งสองสามารถเห็นทุกส่วนบนกระดานหมากรุก) ซึ่งมีข้อ จำกัด (เกมจะจบลงด้วยการเคลื่อนไหวจำนวนหนึ่ง) มีวิธีแก้ปัญหาและหากทั้งสองฝ่ายเล่น ทางออกที่ดีที่สุดด้วยวิธีนี้จากนั้นแต่ละเกมก็ให้ผลลัพธ์ที่เหมือนกัน หมากรุกนั้นยากพอที่เราจะไม่แน่ใจว่าผลลัพธ์จะเป็นอย่างไร แต่เราคิดว่าไวท์จะชนะทุกครั้งซึ่งในกรณีนี้จะไม่มีปฏิกิริยาของแบล็กที่สามารถเปลี่ยนผลลัพธ์ได้ เกม Connect Four ยังอยู่ภายใต้ทฤษฎีบทของ Zermelo และการวิเคราะห์แสดงให้เห็นว่าในเกมนี้น้องสาวตัวเล็ก ๆ จะชนะเสมอถ้าเธอไปก่อนและเล่นอย่างเหมาะสมที่สุด หากคุณเป็น AP ที่ชอบ QGambit และขาดเนื้อหาในช่วงการระบาดที่ไม่สิ้นสุดนี้งานชิ้นต่อไปของคุณคือการดู AlphaGo ซึ่งเป็นสารคดีเกี่ยวกับการเพิ่มขึ้นของคอมพิวเตอร์ในเกม Go โบราณซึ่งยากกว่าหมากรุก ไม่ล้อเล่นภาพยนตร์เรื่องนี้นำน้ำตามาสู่ผู้ที่สนใจในพื้นที่นี้และชื่นชมกับละครอารมณ์เข้มข้นสำหรับแชมป์แห่งมนุษยชาติ Lee Sedol – ที่ดีที่สุดเท่าที่เคยถ่ายทำมา ภาพยนตร์เรื่องนี้ถ่ายทอดความทุกข์ทรมานความกล้าหาญความสดใสและความสงบเสงี่ยมของเซดอลในขณะที่เขาตระหนักดีว่าการแข่งขันกับเครื่องจักรกลครั้งนี้ไม่ใช่แค่เกม แต่เป็นการเกิดขึ้นของระเบียบโลกใหม่ ไม่ใช่โปรแกรมเมอร์เซดอลไม่เข้าใจสิ่งที่เขากำลังจะเผชิญ แต่ในฐานะผู้เชี่ยวชาญในสาขาของเขาเขารู้สึกได้ถึงน้ำหนักของคู่ต่อสู้ที่โหดเหี้ยมและไม่อาจต้านทานได้บนกระดาน หลังจากที่คุณสนุกกับ AlphaGo แล้วฉันขอแนะนำ (อันที่จริง Google แนะนำ) ดูการแข่งขันโป๊กเกอร์ระหว่างโรงเรียนเก่า Dan Negreanu และ Doug Polk คอมพิวเตอร์สมัยใหม่ ผู้เล่นที่ดีที่สุดในโลกคือเครื่องจักรซึ่งเป็นสาเหตุที่คนฉลาดอย่าง Polk เลียนแบบกลยุทธ์ของเครื่องจักร ปรับตัวหรือตาย ครั้งหนึ่งฉันเคยสนทนาสั้น ๆ กับ Howard Lederer ฉันถามเขาเกี่ยวกับบอทในเว็บไซต์โป๊กเกอร์ เขาไม่สนใจคำถามโดยกล่าวว่า“ โป๊กเกอร์ไม่เหมือนหมากรุก โป๊กเกอร์เป็นเกมที่มีข้อมูลไม่สมบูรณ์ คอมพิวเตอร์ไม่ดีสำหรับสิ่งนั้น” ฉันไม่สามารถบอกได้ว่าเขาเป็นคนโง่ไร้เดียงสาหรือเป็นนักต้มตุ๋นสำหรับ Full Tilt Poker ยังไงก็ตามเมื่อ 15 ปีก่อนฉันไม่อยากคุยเรื่องนี้ต่อ แต่ตอนนี้เราอยู่ในปี 2021 และถึงเวลาที่จะสนทนาต่อไปโดยหักล้างความเข้าใจผิดครั้งแรกเกี่ยวกับคอมพิวเตอร์ GTO (ทฤษฎีเกมที่เหมาะสมที่สุด) และความเข้าใจผิดอื่น ๆ ที่ทับซ้อนกันทั้งหมดนั่นคือไดโนเสาร์โป๊กเกอร์และปรมาจารย์โป๊กเกอร์ที่ประกาศตัวเอง ยึดติดกับ: ความเข้าใจผิด # 1: คอมพิวเตอร์ไม่สามารถเล่นเกมที่มีข้อมูลไม่ครบถ้วนได้ นี่เป็นเพียงความไม่รู้ เป็นเรื่องจริงที่ทฤษฎีบทของ Zermelo ใช้ไม่ได้กับเกมอย่างโป๊กเกอร์ เท่าที่เกี่ยวข้องกับโป๊กเกอร์มีทฤษฏีอื่น ๆ ที่บอกว่ามีวิธีแก้ปัญหาสำหรับเกมและโดยทั่วไปแล้วโซลูชันคอมพิวเตอร์จะรวมถึง “กลยุทธ์แบบผสม” ซึ่งหมายความว่ามีองค์ประกอบการสุ่มในกลยุทธ์ (ตัวอย่างเช่น เรียกกรรไกรด้วยความน่าจะเป็น 1/3) คอมพิวเตอร์ค่อนข้างดีและดีกว่ามนุษย์ในการคำนวณความคาดหวังของผลลัพธ์ที่เป็นไปได้โดยเฉพาะอย่างยิ่งเมื่อการแจกแจงความน่าจะเป็นเป็นที่รู้จักกันในชื่อเกมไพ่ ตัวอย่างเช่นคอมพิวเตอร์รู้ว่าความน่าจะเป็นที่จะได้รับการล้างแบ็คดอร์คือเท่าใดและอัตราต่อรองที่จำเป็นในการปรับการไล่ล่า แม้ว่าโป๊กเกอร์จะมีข้อมูลที่ไม่ครบถ้วน แต่โป๊กเกอร์เฮดอัพแบบไม่มีขีด จำกัด เป็นเกมที่ง่ายกว่าการเล่นแม้ว่าจะใช้ข้อมูลทั้งหมด (ความรู้ทั่วไป) ความเข้าใจผิด # 2: สิ่งที่เหนือกว่าของคอมพิวเตอร์คือสามารถจำทุกมือที่ฉันเล่นและปรับตามนั้น ในขณะที่ “บอทผู้หาประโยชน์” วิเคราะห์การเล่นในอดีตของคุณและปรับให้เข้ากับจุดอ่อนที่รับรู้บอท GTO มาตรฐาน (ซึ่งเราเคยเรียกว่า “บอทของแนช”) เป็นโป๊กเกอร์ที่เทียบเท่ากับ BS ในแบล็คแจ็ค กลยุทธ์ GTO ไม่เปลี่ยนแปลงไม่ว่าคุณจะเล่นอย่างไรในมือที่ผ่านมา เขาไม่ต้องการข้อมูลนี้และเขาก็ไม่สนใจ ความเข้าใจผิด # 3: การตัดสิน GTO นั้น “ถูกต้อง” ก็ต่อเมื่อเล่นกับบ็อต GTO อื่นเท่านั้นเพราะนี่คือสิ่งที่บอตได้รับการออกแบบมาให้ทำบอท “เรียนรู้” โดยการเล่นกับตัวมันเอง มันไม่เป็นความจริง “ บอทเล่นกับตัวเองเพื่อเรียนรู้โป๊กเกอร์” เป็นการเรียกชื่อขั้นตอนการพัฒนาที่ไม่ถูกต้อง สื่อชอบที่จะโฆษณาคลิกเบทเพื่อให้การคำนวณทุกอย่างดูเหมือนเป็นความก้าวหน้าในยุคต่างๆโดยอ้างถึง HAL และ Skynet บอท GTO ไม่รู้อะไรเลยเกี่ยวกับโป๊กเกอร์ การได้มาของกลยุทธ์ GTO เป็นการออกกำลังกายในการคำนวณที่เกิดขึ้นได้จากความเร็วของหน่วยความจำและ CPU ที่มีอยู่ในคอมพิวเตอร์สมัยใหม่และการพัฒนาอัลกอริทึมที่มีประสิทธิภาพสำหรับการคำนวณ (“การลดความเสียใจ”) เราไม่เคยเรียกอัลกอริทึมว่า “แมชชีนเลิร์นนิง” หรือ “AI” แต่เราเรียกมันว่า “การไต่เนิน” “การเพิ่มประสิทธิภาพสูงสุด” หรือ “การเพิ่มประสิทธิภาพ” ในแต่ละขั้นตอนของอัลกอริธึมซ้ำคอมพิวเตอร์จะพัฒนากลยุทธ์ปัจจุบันสำหรับแต่ละที่นั่งที่โต๊ะและโดยปกติกลยุทธ์ปัจจุบันนี้สามารถอธิบายได้ว่าเป็น “ตัวมันเอง” เช่น “PokerSnowie กำลังเล่นกับตัวเอง” แต่จริงๆแล้วมันเป็นเพียงแค่การไต่เขาขึ้นไปด้านบนเท่านั้น – สุดยอดกลยุทธ์โป๊กเกอร์ ความเหมาะสมนี้ไม่ได้แนะนำฝ่ายตรงข้ามใด ๆ มีวิธีอื่นที่เราสามารถคำนวณวิธีแก้ปัญหาได้ (แม้ว่าอาจจะไม่เร็วเท่า) และนี่ก็เป็นจริงเช่นกัน กลยุทธ์ GTO นี้เป็น “หนังสือ” สำหรับโป๊กเกอร์และจะไม่มีวันเสียเปรียบโดยไม่คำนึงถึงฝ่ายตรงข้าม ไม่มีกลยุทธ์ใดที่จะตอบโต้สิ่งนี้ ความเข้าใจผิด # 4: บ็อต GTO คิดว่าฉันจะเล่นในรูปแบบหนึ่ง แต่ฉันหลอกล่อด้วยการเล่น 72 offsuit ไม่อยู่ในตำแหน่ง ไม่ถูกต้อง. บ็อต GTO จะไม่ถือว่าคุณเล่นอย่างไร มันไม่สนใจหรอก เขาอยู่ยงคงกระพันกับกลยุทธ์ใด ๆ ของฝ่ายตรงข้าม ลองนึกภาพว่าคุณทะเลาะกับฟลอยด์เมย์เวทเธอร์และคุณพูดว่า:“ ฟลอยด์คาดหวังให้ฉันมาในสภาพร่างกายที่ไร้ที่ติ เขาแนะนำว่าฉันกำลังจะฝึกงานในอีกหกเดือนข้างหน้า ฉันจะโกงเขา – ฉันจะดู Netflix และกินโดนัทไปอีกหกเดือน ฟลอยด์ไม่รู้ว่าคุณจะฝึกนานแค่ไหน เขารู้ดีว่าถ้าตัวเขาเองมีรูปร่างสมบูรณ์แบบไม่มีฝ่ายตรงข้ามที่จะได้เปรียบเขา มันสมเหตุสมผลหรือไม่ที่จะพูดว่า:“ บอทคิดว่าฉันจะเล่นได้ดี ฉันหลอกบอทด้วยการเล่นโป๊กเกอร์ที่ไม่ดี! “ใช่คุณแสดงให้พวกเขาเห็น! ความเข้าใจผิด # 5: ฉันพบจุดอ่อน – เมื่อฉันมีสิ่งนี้จากตำแหน่งนี้บอทควรทำ X แต่มันทำ Y ผิด บอทไม่มีจุดอ่อน คุณกำลังดูมือที่เฉพาะเจาะจงและผลลัพธ์ที่เฉพาะเจาะจง แต่ขึ้นอยู่กับความเป็นไปได้ในการกดปุ่มสถานการณ์นี้และมือที่เป็นไปได้ทั้งหมดที่คุณสามารถถือได้จากมุมมองของบอทเกมของเขานั้นถูกต้องและคุณอาจไม่พบช่องโหว่ นั่นเอง การมองเกมอย่างโดดเดี่ยวเป็นเรื่องอันตรายมาก บอททำการเคลื่อนไหวเพื่อปรับสมดุลของช่วงเพื่อที่คุณจะไม่ได้ลับคมในสถานการณ์อื่น ๆ หรือหากไพ่ใบอื่นโผล่ขึ้นมาบนแม่น้ำ หากคุณไม่เห็นสิ่งนี้แสดงว่าปัญหาคือความคิดในการเล่นโป๊กเกอร์ของคุณเองไม่ใช่ความคิดของบอท ความเข้าใจผิด # 6: ถ้าฉันเล่นไปสักพักฉันจะรู้ว่ามันเล่นอย่างไรและหาจุดอ่อน ไม่ถูกต้อง. ไม่มีความอ่อนแอ. ในความเป็นจริงเราสามารถเผยแพร่กลยุทธ์ของบอทได้และมันจะไม่สร้างความแตกต่างใด ๆ ถ้าฉันบอกคุณว่าฉันจะเล่น Scissors Rock and Paper ด้วยความน่าจะเป็น 1/3 สำหรับแต่ละคนการที่คุณรู้ว่ากลยุทธ์ของฉันจะไม่ทำให้คุณได้เปรียบ ไม่มีส้นเท้าของ Achilles ความเข้าใจผิด # 7: บอทที่แนะนำในคาสิโนอาจพ่ายแพ้ได้ง่ายดังนั้นอาจเป็นบอท GTO ด้วย นี่เป็นการเปรียบเทียบที่ไม่มีนัยสำคัญ หุ่นยนต์คาสิโนบางตัวได้รับคำสั่งไม่ให้เล่นเกมคลาส A เพราะมันแข็งแกร่งเกินไปสำหรับคนทั่วไป หากคาสิโนปรับบอทเป็นเกม B เพื่อที่จะพูดว่าบรรลุข้อได้เปรียบ 5% เหนือผู้เล่นส่วนใหญ่คนที่เก่งจริงๆสามารถสร้างรายได้จากบอท GTSO นั้น (บอททฤษฎีเกมที่ไม่เหมาะสม) แต่นั่นเป็นอีกคำถามหนึ่ง ฉันไม่สนใจว่าคุณเป็นใคร: ถ้าคุณเล่นหัวกับ PokerSnowie คุณจะแพ้ ความเข้าใจผิด # 8: บอท GTO สามารถเอาชนะผู้เล่นที่อ่อนแอได้ แต่บอทจะมีปัญหากับคู่ต่อสู้ที่แข็งแกร่งเช่น Phil Ivey หรือ Dan Negreanu ไม่ถูกต้อง. สิ่งที่ยอดเยี่ยมเกี่ยวกับบ็อต GTO คือไม่สำคัญว่าคู่ต่อสู้จะเป็นใคร อย่างดีที่สุดบางคนสามารถเล่นกับบอทได้ วงแหวนบ็อต GTO จะมีลักษณะเหมือนเปลือกหอยเมื่อเงินไหลตามเข็มนาฬิกาไล่ตามปุ่มและระบายตรงกลางโต๊ะเนื่องจากคราด ปัญหาในทางปฏิบัติที่มืออาชีพในโลกแห่งความเป็นจริงเคยเผชิญคือการตัดสินใจว่าทักษะของพวกเขาจะเพียงพอที่จะก้าวไปสู่การเดิมพันที่สูงขึ้นครั้งต่อไปซึ่งผู้เล่นควรจะแข็งแกร่งขึ้น แต่ตอนนี้ผู้เล่นที่เลียนแบบกลยุทธ์ GTO สามารถนั่งที่โต๊ะใดก็ได้ในโลกด้วยการเดิมพันใด ๆ และไม่ต้องกังวลว่าจะเป็นปลา อย่างดีที่สุดเกมจะเป็นแบบสม่ำเสมอ (ไม่มีการคราด) และในทางปฏิบัติกลยุทธ์ GTO ให้ข้อได้เปรียบที่สำคัญกับทุกคนที่คุณพบในป่า ความเข้าใจผิด # 9: Dan Negreanu เป็นโปรโป๊กเกอร์ที่มีสร้อยข้อมือ N มายาวนานดังนั้นเขาจะทำลายสิ่งที่น่ารังเกียจของคอมพิวเตอร์เช่น Doug Polk ที่ไม่เข้าใจความแตกต่างของโป๊กเกอร์จริง ถ้าผู้ชายอย่าง Polk แค่จำ “แผนภูมิ” และเลียนแบบกลยุทธ์ GTO เขาก็ไม่จำเป็นต้องเข้าใจเรื่องเลวร้าย เขาไม่จำเป็นต้องรู้ว่าคำว่า “แตกต่างกันนิดหน่อย” หมายถึงอะไร ประสบการณ์การเล่นโป๊กเกอร์ของมืออาชีพอย่าง Negreanu ทำให้พวกเขาค้นพบวิธีที่ดีที่สุดในการเล่นในสถานการณ์ที่ท้าทาย ประสบการณ์นี้ล้าสมัยไปแล้วเนื่องจากคอมพิวเตอร์เพิ่งหาเกมที่ถูกต้องได้ บางทีในปี 1950 ประสบการณ์ของผู้เล่นทำให้เขาสามารถตัดสินได้ว่าการตี 14 v T นั้นดีกว่าการยืน หลังจากที่ Four Horsemen หาตาราง BS ได้ประสบการณ์แบล็คแจ็คก็ไม่เกี่ยวข้อง หนังสือทำให้ประสบการณ์ไม่จำเป็น ตอนนี้ Doug Polk ไม่ใช่ GTO bot เขาเป็นมืออาชีพที่ดีที่สุดโดยใช้กลยุทธ์ GTO ดังนั้นโอกาสเดียวของ Negreanu ในการเอาชนะกองทหารก็คือถ้าการจำลองของ GTO Regiment ไม่แม่นยำและถ้าหลุมนั้นใหญ่พอที่ Negreanu จะค้นหาและใช้งานได้ ฉันสงสัยมัน. อีกทางเลือกหนึ่งคือถ้าพวกเขาเล่นสดและถ้า Polk มีท่าทางที่จะเปิดเผยไพ่ของเขาและถ้า Negreanu สามารถอ่านได้ด้วยวิธีนั้น หรือถ้ากรมทหารมีปัญหากับการเอนและเริ่มเบี่ยงเบนจาก GTO ถ้าเขาเล่นไพ่ไม่ดี ไม่น่าจะเป็นไปได้ หรือบางทีเกมอาจจะสั้นพอที่ Negreanu จะโชคดีในตัวอย่างเล็ก ๆ หลังจากเล่นกับ AlphaGo แล้ว Lee Sedol ก็หยิบเกมของเขาขึ้นมาและเริ่มบดขยี้ทุกคน (ไม่ใช่ว่าเขายังไม่ได้เล่น) แต่แล้วก็ออกจากเกม! เขายอมรับว่าเขาเก่งเกินจริง (ช่างเป็นแนวคิด!) และไม่มีมนุษย์คนไหนที่จะท้าทายผู้เล่นที่ดีที่สุดในโลก AlphaGo ลองดูว่า Negreanu มีความศักดิ์สิทธิ์เหมือนกันหรือไม่ ทวีตล่าสุดทำให้ฉันสงสัยเพราะ Negreanu ดูเหมือนจะตั้งคำถามกับเกมบอทและแสดงให้เห็นว่ามีเส้นแบ่งระหว่างอัจฉริยะและความโง่เขลา ฉันคิดว่าเขายังคงหวังว่าจะมีข้อบกพร่องในกลยุทธ์ GTO ไม่ ล่าสุดฉันได้ยินมาว่า Negreanu กำลังติดตามการแข่งขันและมีข้อบ่งชี้บางอย่างที่เป็นสาเหตุส่วนหนึ่งคือด้วยเครดิตของเขา Negreanu กำลังฝึกอบรมกับ PokerSnowie และปรับตัว! หาก Negreanu สามารถเรียนรู้กลยุทธ์ GTO ได้อย่างรวดเร็วเขาสามารถปรับระดับสนามแข่งขันซึ่งจะเป็นความสำเร็จอย่างมาก วิธีเดียวที่ไดโนเสาร์จะอยู่รอดได้คือการวิวัฒนาการ มาดูกันในปี 2021
[Next time, I’ll discuss some of the limitations and weaknesses of the poker bots, unless we thrash them out in the Comments below.]