פעם בהרבה מאוד שנים, מגיעה פריצת דרך טכנולוגית שגורמת לך לחוש עמוק בפנים שאתה עד לנקודת ציון היסטורית. הפעם הלפני אחרונה שזה קרה לי היתה בשלהי 2007, כשחבר הראה לי בבית קפה בתל אביב את המכשיר החדש שהביא זה עתה מניו יורק - האייפון. כלומר, שמעתי עליו ועל ההייפ שהיה סביבו, אבל כשאחזתי בו ביד, זה הרגיש כמו כישוף בהשוואה לנייד שלי, שהיה אז מכשיר הדגל של תעשיית המובייל, הנוקיה ה- N95.
השבוע זה קרה לי שוב. פתאום נחתה בתיבת האימייל שלי הודעה מפתיעה ביותר: "התקבלת לבטא הסגורה של DALL·E 2". ידעתי מה זה DALL·E 2, אפילו דיברתי עליו עם דרור גלוברמן בפודקאסט שלנו. אבל לפני מספר ימים, כשניסיתי לראשונה את המנוע עצמו, הבנתי - זאת חוויה שמשנה את התפיסה לגבי מה אפשר לעשות עם טכנולוגיה. לא פחות.
"כלב קופץ מעל מדורה"
אבל אולי נתחיל מהתחלה. ב-2015, שני אנשים די מוצלחים בשם סם אלטמן, שהיה המנכ"ל של Y Combinator, אקסלרטור הסטארט אפים הכי מפורסם בעולם, ואילון מאסק - שאותו בטח לא צריך להציג - החליטו שהם צריכים להקים את המלכ"ר הכי מתקדם בעולם לחקר הבינה המלאכותית. אמרו - ועשו. הם קראו לזה OpenAI, וגייסו לטובת הפרוייקט סכום סיד צנוע של מיליארד דולר. די מהר הבינו השניים שעמותה ללא מטרות רווח זה לא ממש הם. גם מאסק הבין שהוא לא יכול לפתח את ה-AI הכי טוב בעולם ב-OpenAI ואז לספר שבעצם בטסלה הוא מחזיק את צוות הבינה המלאכותית הטוב בעולם, והוא עזב את OpenAI.
כמשתמש שראה טכנולוגיה פה ושם ואף מעבר, לא חוויתי שום דבר שדומה לכתיבת שורת טקסט פשוטה שמחזירה אמנות ברמה בלתי נתפסת. מבחינתי, זה הדבר הכי קרוב לבריאה של עולם
אבל גם בלי אלטמן ומאסק, החזון קרם עור ואלגוריתמים, ופאסט פורוורד ל-2020, OpenAI משחררת לעולם את GPT-3, מודל ה-NLP הכי מתקדם מסוגו כיום. NLP הוא תחום מחקר ותיק יחסית בבינה מלאכותית, שפה טבעית, ומטרתו לאפשר למכונות "לדבר" או "לכתוב" כמו בני אדם. התחושה בקרב חוקרים היתה שהדרך עוד ארוכה עד שמכונה תצליח לבטא רעיונות ומחשבות בצורה לא מחשידה. GPT-3 עשה את פריצת הדרך הזאת.
"רכב פנדה בכביש 66"
באפריל השנה, OpenAI הודיעה על אלגוריתם חדש, שיכול להפוך כל שורת טקסט שניתן לו, לתמונה ברזולוציה גבוהה. לאתגוריתם קוראים DALL·E 2 שזו מין הכלאה בין הצייר הסוריאליסטי סלבדור דאלי והרובוט החינני של פיקסאר Wall-E.
נתחיל בשורה התחתונה, ותרשו לי רגע להתנסח חופשי: התוצאות של DALL·E 2 פשוט מהממות! כמשתמש שראה טכנולוגיה פה ושם ואף מעבר, לא חוויתי שום דבר שדומה לכתיבת שורת טקסט פשוטה שמחזירה אמנות ברמה בלתי נתפסת. מבחינתי, זה הדבר הכי קרוב לבריאה של עולם. אני מדמיין באמצעות טקסט איזה עולם אני רוצה והוא נוצר בתוך שניות אחדות.
החוקרים עצמם מספרים במחקר שערכו ופרסמו שהם לא בדיוק יודעים איך התוצאות מתקבלות, והרבה מכך אלו פשוט תוצאות של ניסוי וטעיה. למשל הם ראו שאם הם מכניסים את שורת הטקסט של המשתמש למפענח טקסטואלי ורק אח"כ למנוע שיוצר תמונות, המחשב "מבין" הרבה יותר טוב את הכוונה, למרות שעל פניו מדובר בשלב מיותר מבחינת העיבוד.
לצד ההתלהבות, חשוב מאוד לתאם ציפיות: DALL·E 2 אינו בשל כרגע להחליף את ציירי העולם או את הארט-דירקטורים של משרדי הפרסום. יש עדיין לא מעט ארטיפקטים בתוצאה הסופית: האלגוריתם שולל המון מילים על הסף כדי שלא יעשה שימוש לרעה כך שלמשל מילים כמו הרג, דם וכו' - פסולות. המערכת גם לא מאפשרת ליצור דיפ-פייק, וכשניסיתי למשל לגרום לפוטין לרכוב על טיגריס, האלגוריתם פסל, אך כן איפשר להרכיב את אובמה על הטיגריס (התוצאה יצאה חלשה מאוד, עיניכם הרואות).
"אובמה רוכב על נמר"
דבר מוזר קרה כשביקשתי לצייר את רה"מ נפתלי בנט כגיבור על. נעניתי בסירוב. ביבי לעומת זאת זה סיפור אחר. בכל מקרה, דבר אחד ברור כשמש כבר כעת - אמנות תהיה משהו שכל אחד יוכל ליצור בהינף של מחרוזת מילים. זה רק עניין של זמן. להערכתי, בתוך פחות משנתיים נוכל לבקש ממודל כלשהו "צייר את הכלב שלי בסגנון ואן גוך בתקופה המוקדמת שלו", והתוצאה תהיה טובה לפחות כמו ציור אמיתי של ואן גוך.
ההתקדמות בתחום הבינה המלאכותית יותר מהירה ממה שצפו החוקרים ואנחנו חיים בתקופה שבה חוקרים שמפתחים מערכות מתבלבלים וחושבים שמחשבים מפתחים רגשות. מהר מאוד המחשב ילחין את השיר החדש של הביטלס בדיוק כמו מקרתני ויצייר דיוקן של נועה קירל לפחות כמו דה וינצ׳י או רמברנדט. השאלה העיקרית שתעסיק אותנו בעתיד הקרוב היא לא מי אמן מוצלח יותר, אלא איזה אלגוריתם כדאי להשתמש.
אני צופה שגם נצליח בתוך שנים לא רבות להדפיס חלק מהיצירות שלנו – אם אחפוץ בספה בצורת אבוקדו או במכונית בצורת פנדה, פשוט אדפיס אותן ואשתמש להנאתי. אז עד שסקיינט יגיע ויחסל את כולנו, אני הולך לייצר עוד תמונות של פודל ורוד רוכב על סקייטים.
והנה עוד כמה תמונות נפלאות שמצאנו ברשת, בחשבון הטוויטר המומלץ Dalle2Pics:
what can't this bot do? Keep hitting me with DALL-E 2 prompts! #dalle2 #dalle https://t.co/UqSNiWqaWB pic.twitter.com/gAbOI3Q48e
— Dalle2 Pics (@Dalle2Pics) June 15, 2022
scenic views in this National Park made of baking ingredients from #dalle2 #dalle pic.twitter.com/CkJbMuZbia
— Dalle2 Pics (@Dalle2Pics) May 17, 2022
"an invisible man, wearing glasses and sitting at a desk in front of a computer" made with #dalle2 #dalle
— Dalle2 Pics (@Dalle2Pics) June 17, 2022
Credit: @pbrody pic.twitter.com/6TWNaMpDQ2
מוזמנות ומוזמנים להירשם לרשימת ההמתנה כאן.
דני פלד, הכותב, הוא שותף מנהל Stardom Ventures - קרן המדיה-טק שקבוצת קשת היא שותפה בה.