בינה מלאכותית  (אילוסטרציה: סאלי פאראג, shutterstock)
הבינה המלאכותית חווה הצלחה מסחררת. אולם, גם לה יש מגבלות | אילוסטרציה: סאלי פאראג, shutterstock

בשנים האחרונות חווה הבינה המלאכותית (Artificial Intelligence) הצלחה מסחררת, עם מגוון רחב של יישומים בהם אנו נתקלים מדי יום: השלמת מילות חיפוש בגוגל, זיהוי חברים בתמונות בפייסבוק, המלצות על סדרות בנטפליקס ועוד.

את החלק הארי של הצלחתה חבה הבינה המלאכותית למיתאר למידה הקרוי למידה מפוקחת (Supervised Learning). בלמידה מפוקחת מלמדים מערכת לתאר אובייקטים, כאשר הלימוד מבוסס על דוגמאות.

האובייקטים יכולים למשל להיות משפטים בעברית, כשהתיאור הרצוי של משפט הוא תרגום שלו לאנגלית. במקרה זה, המערכת לומדת לתרגם משפטים מעברית לאנגלית על בסיס דוגמאות של משפטים בעברית יחד עם תרגום שלהם לאנגלית.

למעשה, ניתן לומר שלמידה מחיזוקים, כלומר היכולת ללמוד לפעול באופן אסטרטגי בתוך סביבה משתנה, היא מהות הבינה

על אף שימושיה הרבים, למידה מפוקחת מוגבלת בסוג המשימות שמסוגלת לבצע. היא אינה מאפשרת, למשל, ללמד רובוט לבצע עבורנו משימות תחזוקה בבית, או ללמד תוכנה לשלוט על מפעל ייצור.

במשימות שכאלו, המערכת אותה לומדים נדרשת לא רק לספק תיאור של אובייקט נתון, אלא באופן רציף לחוש את סביבתה ולפעול בהתאם, במטרה להשיג יעד כלשהו (למשל סיום החלפת נורה במקרה של רובוט תחזוקה ביתית, או השלמת עיבוד חומר גלם מסוים במקרה של תוכנה לשליטה על מפעל ייצור). מיתאר זה נקרא למידה מחיזוקים (Reinforcement Learning). למעשה, ניתן לומר שלמידה מחיזוקים, כלומר היכולת ללמוד לפעול באופן אסטרטגי בתוך סביבה משתנה, היא מהות הבינה (Intelligence) באופן כללי.

הדרך ליישום בעולם האמיתי רצופה מכשולים

על אף הפוטנציאל העצום, למידה מחיזוקים היא כיום תחום אקדמי בעיקרו, עם מעט מאוד יישומים בעולם האמיתי. ישנם יישומים מוצלחים, אך אלו מוגבלים בעיקר לעולם של משחקים, למשל מערכת אלפא-גו (AlphaGo) של גוגל, שב-2017 ניצחה את אלוף העולם במשחק הלוח גו (Go). מדוע למידה מחיזוקים אינה מיושמת בעולם האמיתי כפי שמיושמת בעולם המשחקים?  הסיבה היא שורה של אתגרים עצומים, שבאים לידי ביטוי בעולם האמיתי, ואינם באים לידי ביטוי במשחקים.

ראשית, בבואנו ליישם למידה מחיזוקים על משחק, לרב אנו יודעים במדויק את חוקיו, ואלו משרים מודל מתמטי מלא של הסביבה בה תפעל המערכת הנלמדת. בעולם האמיתי לעומת זאת, קשה עד בלתי אפשרי להשיג מודל שכזה - מספר הגורמים המשפיעים על הסביבה בדרך כלל עצום, ואלו יכולים להיות מאוד סבוכים.

במקרה של מפעל ייצור למשל, תהליך הייצור יכול להיות מושפע ממזג אוויר, בלאי או תקלות בציוד, איכות חומרי גלם, בני אדם המבצעים פעולות תחזוקה, ועוד. היות ולא ניתן להגדיר מודל מתמטי שייקח את כל אלו בחשבון, אי אפשר לעשות שימוש באלגוריתמים המניחים מודל מתמטי מלא של הסביבה. מרבית אלגוריתמי הלמידה מחיזוקים הם כאלו, ולכן אינם ברי שימוש.

בעוד שהנזק שיכול להיגרם במסגרת משחק הוא לרב מוגבל, מערכת הפועלת בעולם האמיתי עשויה לגרום לנזק רב לרכוש, וחלילה, לפגיעה באנשים

אתגר שני המבדיל בין העולם האמיתי לבין עולם המשחקים הוא בטיחות. בעוד שהנזק שיכול להיגרם במסגרת משחק הוא לרב מוגבל, מערכת הפועלת בעולם האמיתי עשויה לגרום לנזק רב לרכוש, וחלילה, לפגיעה באנשים. כך, יכול למשל רובוט תחזוקה ביתי לפגוע בדרי הבית, ויכולה תוכנה לשליטה על מפעל ייצור להרוס ציוד בעלות של מיליארדי דולרים, או להביא לאסון רב נפגעים. משמעות הדבר היא שיישום למידה מחיזוקים בעולם האמיתי לרב כרוך באילוצי בטיחות רבים. אילוצים שכאלו בדרך כלל פוגעים מאוד בביצועי המערכת הנלמדת.

הסוגיה הבטיחותית מתקשרת לאתגר נוסף המאפיין את העולם האמיתי, והוא הקושי בלמידה על סמך ניסוי וטעיה. ביסודה, למידה מחיזוקים בנויה על העיקרון לפיו מערכת נלמדת באמצעות ניסוי וטעיה בסביבה בה היא נדרשת לפעול. בעוד שהמחיר (מבחינת סכנה בטיחותית, זמן וכסף) של ניסוי וטעיה במסגרת משחק הוא לרב נמוך (במיוחד אם מדובר במשחק שניתן לדמות במחשב), בעולם האמיתי הוא עלול להיות בלתי נסבל.

מעבר לסכנה הבטיחותית שבדבר (עליה דובר לעיל), ניסוי וטעיה בעולם האמיתי עלול לקחת זמן רב ולגרור עלות כספית עצומה. למשל, במקרה של תוכנה לשליטה על מפעל ייצור, ניסוי בודד שתערוך המערכת (כלומר ביצוע פעולה ובחינת השפעתה על הסביבה) עלול להימשך שעות רבות, במהלכן היעילות הכלכלית של המפעל נמוכה.

בינה מלאכותית. אחראית שליטה מרחוק על מפעלי ייצור (אילוסטרציה: סאלי פאראג, shutterstock)
בינה מלאכותית היא סוס מנצח | אילוסטרציה: סאלי פאראג, shutterstock

אינספור אתגרים אלגוריתמיים וטכניים

על אף האתגרים העצומים הכרוכים בכך, ניתן ליישם למידה מחיזוקים בעולם האמיתי. גישה אחת לבעיה היא השקעת משאבים, והרבה. דוגמא בולטת לגישה זו היא נהיגה אוטונומית. עשרות מיליארדי דולרים הושקעו עד כה בפיתוח מערכות לנהיגה ברכבים המבוססות על למידה מחיזוקים, ולמרות שהטכנולוגיה עדיין לא נמצאת בשימוש רחב, ישנה התקדמות משמעותית (חברת מובילאיי למשל מתכננת להשיק השנה שירות מוניות אוטונומיות).

ההשקעה העתירה ביישום למידה מחיזוקים על נהיגה אוטונומית מאפשרת להתמודד עם האתגרים שצוינו לעיל: ניתן להעסיק מדענים ומהנדסים רבים שיגדירו מודלים מתמטיים מאוד מדויקים, ומערך גדול של נהגי ניסוי שישגיחו על מערכות בזמן שאלו לומדות תוך ניסוי וטעיה (כך, למשל, מערכת נלמדת תוכל לנסות לסטות מהנתיב, ונהג הניסוי יסמן לה שזוהי טעות על ידי כך שישתלט על ההגה).

כך, יכולה המערכת ללמוד לפעול באופן מיטבי באמצעות ניסוי וטעיה, בזמן קצר, בעלות כספית מינימלית, וללא חשש מסכנות בטיחותיות

האם כל יישום עתידי של למידה מחיזוקים בעולם האמיתי יחייב השקעה של עשרות מיליארדים? לאו דווקא.  במקרים שונים יש גישה למידע היסטורי שנאסף מהסביבה (למשל, במקרה של תוכנה , לרב ישנה גישה למידע שנאסף מחיישנים לאורך שנים), וניתן לעשות שימוש במידע זה לטובת לימוד סימולטור מתמטי שידמה את הסביבה.

לאחר מכן ניתן ליישם למידה מחיזוקים, כאשר המערכת הלומדת פועלת מול הסימולטור המתמטי במקום בתוך הסביבה האמיתית.  כך, יכולה המערכת ללמוד לפעול באופן מיטבי באמצעות ניסוי וטעיה, בזמן קצר, בעלות כספית מינימלית, וללא חשש מסכנות בטיחותיות. לאחר שנלמדה בהסתמך על הסימולטור המתמטי, תופעל המערכת בסביבה האמיתית.  

כולי תקווה שזוהי רק סנונית ראשונה, ובעתיד נראה עוד ועוד יישומים של למידה מחיזוקים משפרים את העולם בו אנו חיים

שיטת הלמידה מחיזוקים שזה עתה תוארה, טומנת בחובה אינספור אתגרים אלגוריתמיים וטכניים, אך אפשרית.  באמצעות שיטה זו, פיתחנו באימיוביט טכנולוגיה לשליטה בזמן אמת על מפעלי ייצור תעשייתיים. מדובר על יישום למידה מחיזוקים בעולם האמיתי, שנבנה עם משאבים של חברת סטארט-אפ. כולי תקווה שזוהי רק סנונית ראשונה, ובעתיד נראה עוד ועוד יישומים של למידה מחיזוקים משפרים את העולם בו אנו חיים.

_OBJ

הכותב, ד"ר נדב כהן, הוא מייסד-שותף ומדען ראשי באימיוביט, ופרופסור למדעי המחשב