תיוג תמונות (צילום: shutterstock)
תיוג תמונות (אילוסטרציה). "המודלים האלה יכולים להוציא דברים מאוד רעים" | צילום: shutterstock

"התיוג הוא למעשה המהות של AI", מסביר ערן שלמה, מנכ"ל חברת ה-AI דאטהלופ. "זה נשמע הדבר הכי אבסורד בעולם – עובדים הודים שמסמנים תמונות או טקסט או אודיו – הם הלב של ה-AI? אבל מכונות לא יכולות לתכנת את עצמן. מי שתכנת את המכונה להבין מה זה חתול, היה אדם". 

כששלמה מדבר על "תיוג", הוא מדבר על תעשיית תיוג הנתונים, הבסיס של עולמות הבינה המלאכותית ולמידת המכונה (ML). כדי ללמד מכונה מה היא רואה, או שומעת, או קוראת, צריך לתייג עבורה את הנתונים: לציין "זה חתול", "זה כלב". אחרי אימון עם הרבה חתולים וכלבים, המכונה תזהה חתולים, או סכנה בכביש, או גידול במעיים. הבעיה היא, שתהליך התיוג הוא עתיר כוח אדם, טכני מאוד ומשעמם נורא - מה שמוביל לשכר נמוך ולהתמקמות של תעשיית התיוג בהודו, סרי לנקה, וייטנאם. ועדיין, עלות תיוג הנתונים היא החלק היקר בכל פרוייקט פיתוח מערכת לימוד מכונה.

"מהפכת ה-AI אינה מהפיכה של 'מכונות חושבות'", מחייך שלמה בהמשך לדבריו. "זה חומר טוב לשיווק ומצגות משקיעים, אבל המציאות היא שמדובר במהפיכה של פיתוח דאטה".

תיוג? זה לא קצת אנכרוניסטי לאור ההתפתחויות האחרונות בתחום?
"הכל שטויות. אל תתן לאנשים שמשתמשים במילים מסובכות לקחת ממך את הפשטות. הנרטיב כאילו מכונות יכולות ללמוד לבד הוא שגוי מיסודו".

"כשאתה שם האשטג בפייסבוק, אתה למעשה מתייג דאטה עבורה. טיקטוק בודקת כמה זמן אתה צופה בסרטון ומתי אתה עובר הלאה וזה התיוג שלה. והיא לומדת את זה בצורה מהירה ומטורפת"

ואם נדרש תיוג, הרי שבנקודה הזו מגיע הפיתרון של דאטהלופ, שהודיעה השבוע על גיוס של 33 מיליון דולר: כלים חכמים לעבודת התיוג, שניתנים כשירותי ענן ומאפשרים ללקוחות לעקוף את הצורך בקבוצות של אלפי מתייגים ולבצע את התיוג באמצעות מספר קטן של מתייגים - בתוספת תיוג אוטומטי. זאת, באמצעות מערכת לניהול דאטה, שמקבילה למערכות המוכרות של ניהול פיתוח הקוד. 

ערן שלמה, מנכ"ל Dataloop (צילום: יחצ)
ערן שלמה. "בסוף הצלחה נמדדת על ידי כמה העובדים שותפים להצלחה" | צילום: יחצ

בזכות המערכת הזו, ולמרות תנאי השוק הקשים, הצליחה דאטהלופ לגייס סבב B משורה של קרנות הון סיכון. הזירה שבה דאטהלופ פועלת תחרותית במיוחד: ענקיות AI כמו Scale AI ,Labelbox וגם גוגל, אמזון, Snowflake ו-Microsoft - כולן חלק מהתעשיה הצפופה.

אני חוזר רגע בכל זאת למכונות שלומדות בעצמן. מה לגבי מערכות AI בתחום הבריאות, שמשוות סריקות של חולה לסריקות דומות של חולים שידוע איך התפתחה המחלה שלהם, וכך הן לומדות בעצמן איזה חולה במצב מסוכן.
"אתה צודק. כשאתה מחפש גידול בצילום MRI אתה מחפש שינוי מהנורמה. אבל אם תדבר עם רופא תראה שבסוף רופאים מתווכחים – כולם מסכימים שיש בעיה ואיך היא נראית, אבל מה המשמעות שלה? כאן נכנסת הדעה של האדם".

שלמה מסביר שמערכות שמשוות סריקות של חולים קודמים מתבססות למעשה על חוות הדעת של הרופאים על חולים קודמים ומשתמשות בהן כתיוג. הרופא שמסמן מצב רפואי כמסוכן הוא מקור התיוג האנושי שממנו לומדת המכונה. ויש הרבה מערכות AI שבנויות בשיטה הזו.

"כשאתה שם האשטג בפייסבוק, אתה למעשה מתייג דאטה עבורה. החברות מבינות שאם הן מצליחות להשתמש בתיוגים האלה מהר, הן מתקדמות בצורה מטורפת. טיקטוק בודקת כמה זמן אתה צופה בסרטון ומתי אתה עובר הלאה וזה התיוג שלה. והיא לומדת את זה בצורה מהירה ומטורפת".

עובדי דאטהלופ, השבוע. ולואציה לא בסטרטוספרה

לדברי שלמה, גם ה-AI הגנרטיבי, למשל המערכות שמייצרות ציורים מדהימים כמו Dall-e, אינו שונה: "אתה יכול להגיד – 'הנה, כאן אף אחד לא תייג כלום'. אבל אם תסתכל בפנים תראה שהדברים מבוססים על מערכי נתונים שתוייגו. במקרה הזה המכונה מוציאה מה שהיא מוציאה ואחר כך מתייגים את התוצאה, מסמנים את התמונות שיצאו טובות". 

כלומר עכשיו, כשהם פתחו את השימוש לציבור, הם מרוויחים קהל גדול של מתייגים?
"בדיוק. הם רואים מה אתה אוהב, מה אתה בוחר, ולפי זה הם משפרים את המודל. אני יכול לספר שמאחורי הקלעים חלק מהחברות שעוברות עם דאטהלופ מתייגות את הפלט כי המודלים האלה יכולים להוציא דברים מאוד רעים".

שלמה אומר שהטכנולוגיה של דאטהלופ פועלת בצורה דומה לרשתות החברתיות כשהיא שואפת לסגור במהירות את הלופ (ומכן שמה) בין התיוג לבין קבלת ההחלטות של ה-AI: "דאטהלופ אומרת שב-99.9% מהמקרים אפשר לבצע למידה אוטומטית של ה-AI, אבל עדיין התיוג ידני לא יעלם, וזה הבדל עצום". 

"התברר שאי אפשר להרוויח מזה כסף"

היה שלב שדאטהלופ נאלצה לעשות פיבוט במוצר שלה. זה היה כשהתברר שכלים לניהול דאטה ותיוגים לא מצליחים להתמודד בשוק שבו עיקר התשלום של הלקוחות הוא על צבא המתייגים הנלווה. החברות המתחרות תמחרו את השירות על בסיס עלות כוח האדם כשעלות התוכנה זניחה. "התברר שאי אפשר להרוויח מזה כסף. שילמנו עד היום 15-20 מיליון דולר על פיתוח כלי תיוג וקיבלנו בחזרה מיליון או שניים", אומר שלמה.

השינוי קרה כשדאטהלופ עברה למתן כלי תיוג כשירותי ענן, מה שמאפשר לחברות לבצע תהליכים אוטומטיים, לשלב בין תיוג אוטומטי לתיוג אנושי ולהתאים את הכלים לצרכיהן באמצעות API וכלים אחרים. "מרגע שהשקנו את שירותי הענן ההכנסות שלנו צמחו בקצב מטורף. אנחנו הראשונים שהוכחנו את המודל הזה. כשנפגשנו עם הקרנות הגדולות הן אמרו: 'סיפור מדהים. הבעיה שכל המתחרים שלך גמרו כחברת שירותים בהודו. אז למה שאתה לא תגמור אותו דבר?' חלפו שנה וחצי, המספרים עפו לשמיים, ועכשיו סגרנו את הסיבוב. בסביבה העסקית של היום היינו צריכים לבוא עם תעודה ממש טובה כדי לקבל 'עובר'".

תמונות שנוצרו ע"י DALL-E 2 (צילום:  DALL-E 2)
תמונה שנוצרה ב-Dall-E. "המכונה מוציאה מה שהיא מוציאה ואחר כך מתייגים את התוצאה" | צילום: DALL-E 2

חברת דאטהלופ הוקמה ב-2017 על ידי ערן שלמה ואבי ישר, שניהם יוצאי אינטל. הגיוס הנוכחי, בהיקף 33 מיליון דולר, הובל על ידי הקרנות Nokia Capital (NGP) ו-Alpha Wave Global והשתתפו בו המשקיעים הקודמים - הקרנות Amiti III של בן רבינוביץ', F2 Venture Capital II של ג'וני סאקס, NextLeap Ventures של עודד אגם וקבוצת יוצאי אינטל, קרן Onnivation מהודו, קרן OurCrowd הירושלמית של ג'ון מדווד וקרן המיקרו - VC SeedIL Ventures. כמו כן השתתף בגיוס המשקיע הפרטי אייל גורה. עד היום גייסה החברה כ-50 מיליון דולר.

 

_OBJ

מה קרה שהצדיק מבחינת המשקיעים את סבב גיוס ההון הנוסף?
"החברה הגיעה להכנסות שמצדיקות סיבוב B. אנחנו עם הכנסות בקצה הגבוה של המיליונים הבודדים, בדרך להיות חברה מבוססת פיננסית. היה לנו ראנווי של שנה וחצי כשבתוך שנה אנחנו מתכננים להגיע לרווחיות. כשהמשקיעים ראו את המספרים, זה נראה כמו ציפור נדירה – גם הכנסות, גם מרג'ינים, גם התרחבות השימוש אצל לקוחות, גם ולואציה שהיא לא בסטרטוספרה..."

הרגשתם הבדל בין הוולואציה בגיוס הקודם באוקטובר 2020 לבין הנוכחי?
"ברור, הוולואציות כל הזמן יורדות. מבטיח לך שאם מישהו מגייס עכשיו, בעוד שלושה חודשים הוא יראה הבדל לעומת מה שהוא רואה היום. זה כל הזמן חוטף. אבל הוולואציה אצלנו לא מנותקת מהמציאות ומהכלכלה. נורא חשוב לנו לשמור אותה תקינה גם כי אנחנו מעודדים את העובדים להחזיק במניות, כל הזמן רוצים לתת לעובדים יותר החזקות. בסוף הצלחה נמדדת על ידי כמה העובדים שותפים להצלחה".

"חברות מתקשות להתחרות ואו שהן צריכות לפטר, אין להן ברירה, או שהן צריכות להביא פחות אנשים, או שמתפשרים על איכות האנשים. בכל מקרה אתה מפסיד. בטווח הארוך קורה פה נזק ברמת התעשייה"

אתם מתכוונים לגייס עובדים חדשים?
"יש בדאטהלופ 60 עובדים והתוכנית היא להגיע ל-150 עובדים, אבל צריך לראות את הדברים מסתדרים".

זו נראית כמו תקופה טובה לגייס עובדים.
"זה עדיין קשה, [אם כי] אתה מתחיל לראות תנאים יותר מציאותיים מהצד של העובדים. הבעיה היא שהשוק הישראלי מאבד מהאטרקטיביות שלו כי בסוף כולנו נלחמים על כל טאלנט. המון סטארטאפים בישראל לא יעילים כי עלויות כוח האדם שלהם מאוד גבוהות. הרבה מהסטארטאפים אין להם ברירה: 'או אני אעלה משכורות או שאני לא אגיע ליעדים שלי. זה לבחור בין ברירה רעה אחת לאחרת".

אם היינו מנהלים את השיחה הזו לפני שנה זה היה נשמע הגיוני. אבל עכשיו, כששומעים על פיטורי עובדים כל הזמן? 
"עלויות ההעסקה עברו מלהיות במקום לא הגיוני למקום של תחרות מאוד קשה על סכומים שהשוק מוכן לשלם אותם. הנקודה היא, שיש פה סיכון מאוד גדול לאקוסיסטם הישראלי. חברות מתקשות להתחרות ואתה רואה - או שהן צריכות לפטר, אין להן ברירה, או שהן צריכות להביא פחות אנשים, או שמתפשרים על איכות האנשים. בכל מקרה אתה מפסיד. בטווח הארוך קורה פה נזק ברמת התעשייה".

אז יש מצב שתגייס עובדים לא בישראל?
"עד היום היינו 100% כחול לבן. עכשיו אנחנו מתרחבים לחו"ל, גם מכירות בארה"ב וגם פעילות מול הלקוחות שלנו בהודו. אם אני מסתכל קדימה אני לא רואה את פיתוח המערכת והליבה יוצא מהארץ. אבל אני צריך להיות מעשי. אם אני נותן לחבר'ה לפתח אפליקציה, יש לה מחיר ברור. ואם אומרים לי שלפתח את האפליקציה בחוץ יעלה רבע ותצא אותה איכות, אז אנחנו מתחילים להפסיד".