הלסת של כולנו נשמטה מהאמנות של האמן המפורסם Dall-E 2, שמציפה את הרשתות החברתיות בחודשיים האחרונים. למרות שאין ספק שמדובר בקפיצת מדרגה משמעותית מהכלים הדיגיטליים שעמדו לרשות אמנים בעבר, כלים דומים כבר קיימים הרבה זמן. Dall-E 2 אמנם מהווה קפיצת מדרגה - אבל קפיצת מדרגה של תחום יחסית גדול שעד לאחרונה היה פחות מוכר לציבור שמחוץ לאקדמיה.
רגע, מחקר במדעי המחשב שעומד לרשות אמנים? ובכן, כן! בתוך התחום היחסית רחב שנקרא ״ראייה ממוחשבת״ מתקיים כבר עשורים תחום ששמור לחוקרים שאמנות קרובה לליבם. התחום הזה נקרא: Non Photorealistic Rendering (או בקיצור, NPR) והוא עוסק ביכולת של מחשבים ליצור דימויים ויזואלים מגניבים, שיכולים לעזור (או להחליף?) לבני אדם במלאכה המורכבת הזאת.
אז, מה זה בעצם ״רינדור לא-ריאליסטי״? רינדור ריאליסטי הוא יצירה של תמונות אמיתיות ככל הניתן, ורינדור לא ריאליסטי הוא ההיפך - יצירה של סצינות אומנותיות יותר. מה זה בעצם אומר? יצירת דימויים מופשטים מתמונות אמיתיות, הפיכת פורטרט לדמות מצויירת, יצירת pixel art מתמונה ועוד. חוקרים ואמנים יושבים יחדיו ועוסקים בחיבור הזה כבר עשרות שנים במקומות כמו מעבדות המחקר של דיסני בארה״ב, כשאת התוצרים אנחנו רואים בסרטים שהם מפיקים.
כמו בהרבה תחומים אחרים במדעי המחשב, ״למידה עמוקה״ (deep learning או רשתות ניורונים, "neural networks״) נכנסה לחיינו לפני כעשור ועשתה מהפיכה בתחום. הטכנולוגיה החדשה הזאת אפשרה לנו - למשל - להעתיק סגנונות איור בצורה "חכמה" יותר. במקום להסתכל על הפרטים הקטנים שבתמונות בצורה ידנית, למידה עמוקה אפשרה לעבד מספר ענק של תמונות של אמן מסוים לצד הבנה של ה״סגנון״ הייחודי שלו.
אחת העבודות הראשונות שהראתה את הפוטנציאל המטורף של למידה עמוקה הייתה עבודה פורצת דרך בשם הקליט Neural Style Transfer - או בעברית, ״העתקת סגנון עצבית״. העבודה אפשרה לקחת ציור של אמן כלשהו ביחד עם תמונה אמיתית ובתוך כמה דק׳ לקבל ״העתקה״ יפהפיה של סגנון האיור על גבי התמונה. כשהעבודה יצאה בשנת 2016 התוצאות היו כל כך טובות שהן הציתו ויכוח ער ב-reddit לגבי האמינות של המאמר והעבודה - כשהיה קונצנזוס ממשי שהן יוצרו ידנית בפושוטופ.
זוכרים את האפליקציה Prisma שהעיפה לכולנו את המוח לפני מספר שנים, עם סלפים שהפכו לציורים של אמנים מפורסמים? גם באותה תקופה איימו על מותם של האמנים והאמנות ובסוף האפליקציה נשכחה והחיים של כולנו המשיכו וכך גם האמנות. ומה לגבי thispersondoesntexist והפרצופים האמיתיים לגמרי של אנשים שלא קיימים? שם, בערך, התחילה המהפיכה הזאת.
פרצופים שלא באמת קיימים, תחילתה של המהפכה הדיגיטלית המאויירת | צילום: https://arxiv.org/abs/1912.04958, יחצ
במקביל לכל הכיף שקרה בעולם התמונות (ראייה ממוחשבת) - גם ניתוח של שפה טבעית (Natural Language Processing - NLP) התפתח מאוד. כמו שמחשבים למדו להבין תמונות, הם למדו גם להבין משפטים מורכבים. היכולת להסתכל על תמונה וטקסט בו-זמנית התפתחה ואיתה היכולת להבין את הקשר בין תמונה למלל שמתאר אותה. ומה אם נלמד "להפוך" את הקשר הזה? האם זה יאפשר לנו ״ליצור״ אמנות באמצעות מלל, כמו שהיינו מבקשים מאמן? מסתבר שכן!
אז לא, זה לא קרה פתאום - תוצרים דומים לאלו של דאלי 2 קיימים זמן מה - הם פשוט היו בינוניים ולא מרגשים. גם Dall-E הראשון יצא לפני שנה וחצי ופשוט לא ריגש אף אחד מהסיבה הזאת. המחקר האקדמי מאחורי הקלעים היה צריך לעבוד קשה מאוד כדי שנקבל את התוצאות המרגשות האלה, והרגע הזה הגיע, ואיתו ההתרגשות!
אז ממה נשאר לנו להתרגש? האם סיימנו? ובכן, לדעתי לא. התוצרים של דאלי יפים אבל כשנעמיק בהם נראה שפרטים חשובים כמו שיער, פנים וכו׳ פשוט נראים רע. הם יכולים לשמש כקנבס מדהים לאמנים דיגיטליים ואני בטוח שנראה שימושים כאלה. דאלי גם לא מצליח כ״כ ליצור סצינות ריאליסטיות - בכך דווקא גוגל מצטיינים יותר עם עבודה דומה שנקראת Imagen. אני מנחש ש-Dall-E 3 כבר מתבשל במעבדות OpenAI ברגעים אלו ממש ויפוצץ לנו את המוח בהתאם. הלוואי שאפשר היה כבר להירשם מעכשיו.
כותב: ניר בן-צבי, יועץ בתחום הראייה הממוחשבת