מה המשמעות של טקסט לתלת-ממד החדש של Nvidia עבור הנדסה ועיצוב מוצר

tl; dr: AI גנרטיבי מתפתח בקצב מלהיב. האלגוריתם האחרון של Nvidia ממיר טקסט לרשת תלת-ממדית פי שניים מהר יותר מאשר פרויקטים שפורסמו לפני חודשיים בקושי. המשמעות היא שהיכולות הטכניות כבר עולות על היכולת שלנו לעבוד איתן.

שבועות אחרונים מאמר על ידי מדעני Nvidia הדגימו את המהירות האקספוננציאלית שבה מתפתח מרחב הבינה המלאכותית הגנרטיבית. פיצוץ הפעילות הזה - הנראה במיוחד במהלך 9 החודשים האחרונים - ישפיע על כל חלק בחיים, לא פחות על עיצוב המוצר, ההנדסה והייצור. השינויים ישחררו את התעשייה ממגבלות מבניות באופן שבו רעיונות מועברים, יעצימו מחזורי חדשנות מהירים יותר ובסופו של דבר יאפשרו לה לעמוד בהבטחות הקיימות שלה.

רשתות לדוגמה מאלגוריתמי ה-Magic 3D של Nvidia Research, עם ההנחיות המשמשות ליצירתם.

Nvidia Deep Imagination Research

לאחר שנאמר במשך שנים שבינה מלאכותית תחולל מהפכה מהותית באופן שבו אנו עובדים, מעטים ציפו שהמגזר היצירתי יהיה בין הקורבנות הראשונים שלו. הופעתו של מחולל טקסט דמוי אדם של GPT-3 בשנת 2020 הביאה את האפשרויות למיקוד חד יותר. זו הייתה נסיעה פרועה מאז: DALL-E (טקסט לתמונה), Whisper (זיהוי דיבור), ולאחרונה Stable Diffusion (טקסט לתמונה) לא רק הגדילו את היכולות של דיבור וכלי AI חזותיים, אלא גם הפחית את המשאבים הנדרשים לשימוש בהם (מ-175 מיליארד פרמטרים עבור GPT-3 ל-900 מיליון עבור דיפוזיה יציבה).

הגודל של Stable Diffusion אומר פחות מ-5gb שטח דיסק - ניתן להפעיל אותו בכל מחשב נייד. לא רק זה; בניגוד ל-OpenAI (שממומנת בעיקר על ידי מיקרוסופט ומפרסמת את GPT-3, DALL-E ו- Whisper), Stable Diffusion הוא קוד פתוח, כלומר אחרים יכולים לבנות על הלמידה שלו הרבה יותר בקלות. זה אומר שאנחנו רואים רק את תחילתו של המחזור החדשני - יש עוד הרבה לבוא, כפי שמראה כעת המאמר של Nvidia.

התומכים של Stable Diffusion (stability.ai) מגבירים את המגמה הזו על ידי מתן מענקים טכנולוגיים ופיננסיים לצוותים אחרים שלוקחים את החקירה לכיוונים חדשים. בנוסף, שפע של פרויקטים הופכים את הכלים לזמינים למגוון רחב יותר ויותר של משתמשים. ביניהם תוספים לבלנדר, כלי עיצוב בקוד פתוח, ומקבילה הקניינית של Adobe לפוטושופ. גישת API מלאה לכלים ממומנת בדולרים גדולים של הון סיכון, כלומר מאות מיליוני מפתחי תוכנה, לא רק כמה מאות אלפי מהנדסי נתונים, ייצרו כעת כלים משלהם על האלגוריתמים הללו.

דיבור, תמונות וטקסט הם בין האנכיות הראשונות שהושבשו על ידי טכנולוגיות אלו. אבל תלת מימד לא רחוק מאחור. מעבר לאמנות יוצרת נישה, קריקטורות הן נקודת היישום הראשונה הברורה. יש כבר מחולל פוקימון המבוסס על דיפוזיה יציבה. אפקטים ויזואליים וסרטים הם הבאים. אבל סקטורים רבים אחרים צפויים להיות מופרעים - ביניהם עיצוב פנים עם Interiorai.com המובילה.

בתוך כל ההתרגשות הזו, יישום החידושים לעיצוב והנדסה מרגיש כמו מחשבה שלאחר מכן. עם זאת, סביר להניח שזה יהיה האזור שבסופו של דבר השפיע בצורה משמעותית ביותר. כמובן, יש אתגרים ראשוניים: למשל, Stable Diffusion ובני ארצו עדיין לא מאוד מדויקים. זו לא בעיה עבור קריקטורות, אבל זה אתגר גדול לכל ניסיון להפוך טקסט לגאומטריות תלת-ממדיות מלאות המשמשות בהקשרים תעשייתיים. זה תחום שהיה לו עניין בתחילת דרכו (פרויקט בשם Bits3 הושק בישראל ב-101). זה אולי הגביע הקדוש של התעשייה, אבל יש אתגרי ביניים רבים שאולי יהיה הרבה יותר קל לפתור. אלה כוללים זיהוי אובייקט משופר (אלגוריתם Yolo כבר נמצא בשימוש רב), שיוביל לשיפור הציטוט והביאורים - שיפור האיכות והפחתת הטעויות. תוספים צריכים גם להקל על השימוש ב- Generative AI לפיתוח עיצובים בסיסיים (Primitives), שאותם ניתן לערוך בהמשך בכלי עיצוב כדי לשפר את הסובלנות לפי דרישה. זו גישה שכבר השתמשה ב-Inspire של Altair, שהשתמשה בניתוח אלמנטים סופיים כדי לעשות את אותו הדבר. הפרימיטיבים הללו יכולים לשמש גם כבסיס נתונים סינתטי של מודלים מוערים, שקיים מחסור בהם בתעשיית התלת מימד CAD. מנכ"ל ומייסד פיזינה מציין זאת במאמר פירוט הניסיונות שלהם להשתמש בשיטות החדשות הללו כדי ליצור עיצובים תלת-ממדיים מפורטים, מה שמדגיש גם מספר מלכודות בשימוש בנתונים סינתטיים כדי להניע אלגוריתמים אלה. ספריית בלאי כלי כדי לקבוע את אסטרטגיות העיבוד הטובות ביותר.

אתגרים אלו חשובים ומשתלמים להתמודד בעצמם. עם זאת, ההשפעה העיקרית שלהם תהיה לעזור לפתח את מסלול הרעיון לעיצוב על ידי הפחתת ההסתמכות על עיצובים תלת מימדיים כדי לתקשר כוונות. עיצובים, בין אם דו-ממדיים או תלת-ממדיים, שימשו כאמצעי העיקרי לתרגום צרכי הלקוחות למוצרים סופיים. זה מגביל את התעשייה מכיוון שהעיצובים הללו משמשים כקופסה שחורה שבה כל אותן תובנות יקרות ערך של לקוחות, אילוצי ייצור ומטרות החברה מאוחסנות, ללא אפשרות להתפרק, ועם זאת לזהות לבד. זה אומר שכאשר משהו משתנה, זה כמעט בלתי אפשרי פשוט להתאים את העיצוב. זו הסיבה שליצור חידושים כגון הדפסת תלת מימד לוקח כל כך הרבה זמן לאמץ ולאכזב משקיעים לטווח קצר. הרכיבים המרכיבים מטוס "מוגדרים" מרגע עיצובם, למרות חיים פרודוקטיביים של 3 שנה+. אין כמעט היקף חדשנות - אלה חייבים להמתין להשקת הדור הבא.

היכולת לשנות אילוץ בודד ולאפשר לאלגוריתם כמו Stable Diffusion לשחזר את פרמטרי התכנון והייצור תאיץ משמעותית את אימוץ החידושים החדשים ותאפשר לנו לבנות מוצרים קלים יותר, בעלי ביצועים טובים יותר, מהר יותר. כפי שהם עושים בפורמולה 1 או בעיצוב מערכות, מהנדסים עתידיים יפעלו כמנהלי אילוצים המסוגלים לבטא במילים ובהתייחסות למקורות נתונים מהן המטרה והמגבלות של המוצר.

מבלי להאיץ את תהליך ההנדסה של מוצרים חדשים וקיימים בדרך זו אין לנו כמעט כל אמצעי להשיג את יעדי הקיימות השאפתניים שעלינו להציב לעצמנו. כדי לעשות זאת, ראשית עלינו להסכים על שפה שבה נוכל להשתמש כדי לתקשר מעבר לעיצובים. המודל הסמנטי החדש הזה הוא הפער הברור בחידושים שתוארו לעיל. מספר חברות כבר החלו להתנסות בו, כגון nטופולוגיה עם מושגי השדות שלה. ועדיין, קצב השינוי איטי, בניגוד לאלגוריתמים שהמודל הסמנטי יזין. האלגוריתם החדש של Nvidia עולה פי שניים מהר יותר מזה DreamFusion, פורסם לפני פחות מחודשיים. חברות מוצר והנדסה צריכות לעבוד כעת על לכידת הרעיונות שלהן בדרכים חדשות וחסינות לעתיד כדי להפיק את המרב מהאפשרויות שהפיצוץ הזה של AI גנרטיבי טומן בחובו. מהירות השינוי באלגוריתמים הראתה, שוב, שחוק מורס חל בכל מקום שבו כלים עוברים דיגיטציה. האתגר הוא חוסר היכולת האנושית שלנו לאמץ את השינוי הזה ולפרוס שיטות תקשורת חדשות המסוגלות לנצל את הפוטנציאל שלהן, למרות דחיפות המשימה.

מקור: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/