המחשב שלמד לבלף והפך לאלוף העולם בפוקר

בשני העשורים האחרונים הבינה המלאכותית שוברת מחסום אחר מחסום, ומצליחה להביס בני אדם בתחומי התמחות רבים, כולל כאלה שנחשבים מורכבים ודורשים מגוון רחב של יכולות אנושיות. אם לפני עשרים שנה העולם הזדעזע כש"כחול עמוק" ניצח בשחמט את רב האמן גארי קספרוב, כיום כבר אפילו במשחק הסיני המורכב "גו", שמספר המצבים האפשריים בו גדול מסך כל האטומים ביקום, מחשבים התעלו על רבי האמנים הגדולים.

אבל גם בשחמט וגם בגו הלוח כולו חשוף לשחקנים ואין אי ודאות. כשחלק מהמידע נסתר מעיניהם של השחקנים, רמת המורכבות עולה, והדוגמה המוכרת ביותר למשחק מורכב שדורש חיזוי של מידע נסתר היא פוקר.

לפני שנתיים הציגו נועם בראון ותומס סנדהולם את ליברטוס (Libratus), שהתמודד ראש בראש נגד כמה שחקני פוקר מובילים בטורניר ארוך והביס את כולם. אבל עד כמה שמשחק פוקר "אחד על אחד" הוא מורכב, מסובכת עוד יותר היא הגרסה מרובת המשתתפים: טקסס הולדם. אלא שעכשיו גם המחסום הזה נשבר. בראון וסנדהולם הציגו את פלוריבוס (Pluribus), שכתש עד דק בטורניר של 12 יום את השחקנים הטובים בעולם, והרוויח סך של למעלה ממליון דולר במשחק הזה.

ננסה להבין איך פלוריבוס עובד. שיטות האימון הקלאסיות של בינה מלאכותית מתבססות על קלט אנושי, כך למשל אפשר להציג למכונה המון משחקים בין שני בני אדם ולגרום לה להסיק לבד כיצד נכון לשחק ואילו אסטרטגיות כדאי לפתח. אבל פלוריבוס, קצת כמו המחשב אלוף הגו אלפא-גו-זירו, התחיל לשחק נגד עצמו בלי להכיר שום אסטרטגיה, באקראי, ולאט לאט למד מה עובד טוב ומה פחות. בצורה הזו אפשר לפתח טקטיקות ומהלכים ששונים מאוד מהדרך שבה בני אדם משחקים. ובמשחק שמשלב אלמנטים של חיזוי התנהגות, של הסתברות ושל הבנת מצבים, זה עשוי להיות קריטי.

אחת האסטרטגיות הבסיסיות שלפיה פלוריבוס עבד היא נסיון ליצור מעין עץ של החלטות שהוא יכול לקחת, ואז לחזות את מהלך המשחק הפוטנציאלי העתידי בעקבותיו. עבור כל החלטה פלוריבוס יוצר "פונקצית חרטה" שאמורה להראות לאורך זמן עד כמה הוא מתחרט שהוא לקח את ההחלטה הזו ולא החלטה אחרת. המטרה הסופית היא למזער את ערכי החרטה, כך שההחלטות שהוא ייקח יהיו החלטות טובות.

ומסתבר שזה עובד. כאמור, הניצחון של פלוריבוס על השחקנים האנושיים היה מאוד חד משמעי. ג'ון לס, שהתמודד מול פלוריבוס, מספר שהיה מאוד קשה לחזות את הצעדים שלו בהשוואה לבני אדם. הדבר המדהים ביותר, לפי לס, היתה שהיכולת של פלוריבוס לשקר ולבלף, אחד העקרונות החשובים במשחק הפוקר ויכולת שנתפשת אנושית מאוד, היא מדהימה, ועולה בכמה רמות על זו של שחקנים אנושיים.

אז מה ההשלכות? אין ספק שמדובר בהישג אדיר לבינה המלאכותית. גם המחקר הזה מראה לנו שלמידת חיזוק ללא מעורבות של קלט אנושי יכולה להביא את המכונות להגיע למסקנות חדשות, ולפתח טקטיקות שונות מדרכי החשיבה של בני אדם. זה מרתק להבין את ההבדלים בינינו לבינם, ואפשר אולי ללמוד מכך גם עלינו עצמנו.

האינטרנט מלא בסרטונים ומאמרים שמנסים לנתח את מהלכיו של פלוריבוס ולהסיק מהם דברים חדשים (אני ממליץ לחובבי הפוקר להתעמק). אבל פוקר הוא רק תחום אחד, והעתיד הקרוב והרחוק עוד ייתן לנו הזדמנויות לבחון גבולות חדשים.

לכתבה שלי בדה-מרקר

Bloomberg