יום הדין המשפטי לצ'אט גנרטיבי בינה מלאכותית GPT אם נתפס בגניבה או בהפרה, מזהיר אתיקה של בינה מלאכותית וחוקי בינה מלאכותית

האם בינה מלאכותית גנרטיבית כמו ChatGPT תולשת את האתרים שלנו ואת התוכן שנוצר על ידי אנוש? תהיה מודע, תהיה ... [+] עצבני, תהיה מוכן.

גטי

תן קרדיט היכן שצריך אשראי.

זו קצת חוכמת חכמים שאולי חונכתם להאמין בה בתוקף. אכן, אדם משער או מדמיין שכולנו יכולים להסכים במידה סבירה שזהו כלל אצבע הוגן והגיוני בחיים. כשמישהו עושה משהו שראוי להכרה, ודא שהוא מקבל את ההכרה הראויה לו.

נקודת המבט הנגדית תיראה הרבה פחות משכנעת.

אם מישהו הסתובב והתעקש שהקרדיט צריך לֹא להיות מוכר כאשר מגיע קרדיט, ובכן, אתה יכול לטעון שאמונה כזו היא לא מנומסת ואולי גם נבוכה. לעתים קרובות אנו מוצאים את עצמנו מוטרדים בקול רם כאשר מרמים קרדיט של מישהו שהשיג משהו ראוי לציון. אני מעז לומר שאנו שוללים במיוחד כאשר אחרים לוקחים קרדיט כוזב על עבודתם של אחרים. זו התעללות כפולה מטרידה. האדם שהיה צריך לקבל את הקרדיט נמנע מהרגע שלו בשמש. בנוסף, הטריקסטר מתענג על אור הזרקורים למרות שהם מטעים אותנו בטעות לנצל את החיבה החיובית שלנו.

למה כל השיח הזה על גיוס קרדיט בדרכים הנכונות ביותר והימנעות מהדרכים השגויות והבזויות?

כי נראה שאנו מתמודדים עם מצוקה דומה בכל הנוגע לחדשות הבינה המלאכותית (AI).

כן, הטענות הן שזה קורה באופן מופגן באמצעות סוג של AI המכונה AI Generative. יש הרבה ידיים ש-Generative AI, ה-AI החם ביותר בחדשות בימים אלה, כבר לקח קרדיט על מה שלא מגיע לו לקחת קרדיט עליו. וזה צפוי להחמיר ככל שה-AI הגנרטיבי יתרחב וינוצל יותר ויותר. יותר ויותר קרדיט מעניק לבינה המלאכותית הגנרטיבית, בעוד שלמרבה הצער אלה שמגיעים להן הקרדיט האמיתי נשארים באבק.

הדרך המוצעת שלי לסמן בצורה חדה את התופעה כביכול היא באמצעות שני ביטויים מטופשים:

1) פלגיאט בקנה מידה
2) הפרת זכויות יוצרים בקנה מידה

אני מניח שאתה עשוי להיות מודע לבינה מלאכותית גנרטיבית בגלל אפליקציית בינה מלאכותית פופולרית המכונה ChatGPT ששוחררה בנובמבר על ידי OpenAI. אני אספר עוד על AI גנראטיבי ו-ChatGPT לרגע. תחזיקי מעמד.

בוא נגיע מיד לעיקר של מה שמקבל עזים של אנשים, כביכול.

חלקם התלוננו בלהט שבינה מלאכותית גנרטיבית עלולה לקרוע בני אדם שיצרו תוכן. אתה מבין, רוב אפליקציות הבינה המלאכותית הינרטיביות הן נתונים שהוכשרו על ידי בחינת נתונים שנמצאו באינטרנט. בהתבסס על הנתונים הללו, האלגוריתמים יכולים לחדד רשת פנימית עצומה של התאמת דפוסים בתוך אפליקציית הבינה המלאכותית שיכולה לאחר מכן לייצר תוכן חדש לכאורה שנראה להפליא כאילו הומצא על ידי יד אנושית ולא חתיכת אוטומציה

ההישג המדהים הזה נובע במידה רבה משימוש בתוכן סרוק באינטרנט. ללא הנפח והעושר של תוכן אינטרנט כמקור לאימון נתונים, הבינה המלאכותית הגנרטיבית תהיה כמעט ריקה ומעוררת עניין מועט או ללא עניין לשימוש. בכך שה-AI בודק מיליונים על מיליוני מסמכים וטקסט מקוונים, יחד עם כל מיני תוכן משויך, התאמת הדפוסים נגזרת בהדרגה כדי לנסות ולחקות תוכן שיוצר על ידי אדם.

ככל שיבדקו יותר תוכן, רוב הסיכויים שהתאמת הדפוסים תשתכלל במידה רבה יותר ותשתפר אפילו בחיקוי, כל השאר שווה.

הנה אם כן שאלת מיליון הדולר:

שאלה גדולה: אם יש לך או לאחרים תוכן באינטרנט שעליו הוכשרה אפליקציית בינה מלאכותית כלשהי, עושה זאת ככל הנראה ללא רשותך הישירה ואולי לחלוטין ללא מודעותך כלל, האם תהיה זכאי לחלק מהעוגה בכל ערך שיצמח ממנו אימון נתונים גנרטיבי בינה מלאכותית?

יש הטוענים בתוקף שהתשובה הראויה היחידה היא יש, במיוחד שאותם יוצרי תוכן אנושיים אכן ראויים לחתוך שלהם מהפעולה. העניין הוא שיהיה לך קשה למצוא מישהו שקיבל את חלקו ההוגן, וחמור מכך, כמעט אף אחד לא קיבל חלק כלשהו. יוצרי התוכן באינטרנט שתרמו שלא מרצונם ובלי ידיעתו, נשללים בעצם הקרדיט הראוי שלהם.

זה עשוי להיות מאופיין כזוועה ומקומם. זה עתה עברנו על פירוק חכמת החכמים שיש לתת קרדיט היכן שצריך קרדיט. במקרה של AI גנרטיבי, כנראה שלא כך. נראה שכלל האצבע הוותיק והטוב בנוגע לאשראי מופר באופן קשוח.

וואו, נאמר בתשובה, אתה מגזים לחלוטין ומטעה את המצב. בטח, הבינה המלאכותית הגנרטיבית אכן בדקה תוכן באינטרנט. בטח, זה היה מועיל בשפע כחלק מהדרכת הנתונים של ה-AI הגנרטיבי. יש להודות, אפליקציות הבינה המלאכותית המרשימות כיום לא היו מרשימות ללא הגישה השקולה הזו. אבל הלכתם גשר רחוק מדי כשאמרתם שצריך להקצות ליוצרי התוכן כל מראית עין מסוימת של קרדיט.

ההיגיון הוא כדלקמן. בני אדם יוצאים לאינטרנט ולומדים דברים מהאינטרנט, עושים זאת בשגרה וללא כל מהומה כשלעצמה. אדם שקורא בלוגים על אינסטלציה ואז צופה בבולמוס בסרטוני תיקון אינסטלציה זמינים בחינם, עשוי למחרת לצאת לעבוד בתור שרברב. האם הם צריכים לתת חלק מההעברה שלהם הקשורה לאינסטלציה לבלוגר שכתב על איך לצנרת כיור? האם הם צריכים לתת תשלום לווגר שעשה את הסרטון המציג את השלבים לתיקון אמבטיה דולפת?

כמעט בטוח שלא.

אימון הנתונים של ה-AI הגנרטיבי הוא רק אמצעי לפיתוח דפוסים. כל עוד התפוקות מ-AI גנרטיבי אינן רק ריגורג'יטציה של בדיוק מה שנבדק, אתה יכול לטעון באופן משכנע שהם "למדו" ולכן אינם כפופים להענקת קרדיט ספציפי למקור ספציפי כלשהו. אלא אם כן אתה יכול לתפוס את ה-AI הגנרטיבי בביצוע רגורגיטציה מדויקת, האינדיקציות הן שה-AI הכליל מעבר לכל מקור מסוים.

שום קרדיט לא מגיע לאף אחד. או, אפשר להניח, אפשר לומר שהקרדיט מגיע לכולם. הטקסט הקולקטיבי ותכנים אחרים של המין האנושי שנמצאים באינטרנט מקבלים את הקרדיט. כולנו מקבלים את הקרדיט. הניסיון לאתר קרדיט למקור מסוים הוא חסר טעם. תהיו שמחים שה-AI מתקדם ושכל האנושות תועיל. הפרסומים האלה באינטרנט צריכים להרגיש כבוד שהם תרמו לעתיד של התקדמות ב-AI וכיצד זה יעזור למין האנושי לנצח.

יהיה לי עוד מה לומר על שתי הדעות המנוגדות הללו.

בינתיים, האם אתה נוטה לכיוון המחנה שאומר שהקרדיט מגיע ואיחור עבור אלה שיש להם אתרים באינטרנט, או שאתה מוצא שהצד שכנגד שאומר שיוצרי תוכן באינטרנט הם בהחלט לֹא להיקרע זה יציבה קוגנטית יותר?

חידה וחידה כולן נתקעו יחד.

בואו נפרק את זה.

בטור של היום, אתייחס לדאגות המובעות הללו מכך שבינה מלאכותית גנרטיבית היא בעצם גניבת עין או אולי מפרה את זכויות היוצרים של תוכן שפורסם באינטרנט (שנחשב לעניין של זכויות קניין רוחני או IP). נבחן את הבסיס לתהיות אלה. מדי פעם אתייחס ל-ChatGPT במהלך הדיון הזה מכיוון שזו הגורילה של 600 פאונד של AI גנרי, אם כי זכור שיש עוד המון אפליקציות AI גנריות והן בדרך כלל מבוססות על אותם עקרונות כלליים.

בינתיים, אולי אתה תוהה מה זה בעצם AI גנרטיבי.

תחילה נסקור את יסודות הבינה המלאכותית הגנרטיבית ולאחר מכן נוכל להסתכל מקרוב על העניין הקשה שעל הפרק.

לתוך כל זה נכנסים שלל שיקולי אתיקה של בינה מלאכותית ומשפטי בינה מלאכותית.

אנא שים לב שיש מאמצים מתמשכים להטמיע עקרונות בינה מלאכותית אתית בפיתוח ובתחום של אפליקציות בינה מלאכותית. קבוצה הולכת וגדלה של אתיקאי בינה מלאכותית מודאגים וקודמים מנסים להבטיח שהמאמצים לתכנן ולאמץ בינה מלאכותית לוקחים בחשבון נקודת מבט של עשייה AI לתמיד והימנעות AI למען הרע. כמו כן, מוצעים חוקי בינה מלאכותית חדשים שמסתובבים כפתרונות פוטנציאליים כדי למנוע ממאמצי הבינה המלאכותית להשתולל על זכויות אדם וכדומה. לסיקור המתמשך והענף שלי על אתיקה של בינה מלאכותית וחוק בינה מלאכותית, ראה הקישור כאן ו הקישור כאן, רק כדי שם כמה.

הפיתוח והפרסום של חוקי AI אתיים נמשכים בתקווה למנוע מהחברה ליפול למספר עצום של מלכודות מעוררות בינה מלאכותית. לסיקור שלי על עקרונות האתיקה של האו"ם AI כפי שהוכנו ונתמכו על ידי כמעט 200 מדינות באמצעות מאמצי אונסק"ו, ראה הקישור כאן. ברוח דומה, חוקי AI חדשים נבדקים כדי לנסות לשמור על AI על קייל אחיד. אחד הבדיקות האחרונות מורכב מקבוצה של מוצעים מגילת זכויות AI שהבית הלבן האמריקאי פרסם לאחרונה כדי לזהות זכויות אדם בעידן של AI, ראה הקישור כאן. דרוש כפר כדי לשמור על מפתחי בינה מלאכותית ובינה מלאכותית בנתיב הנכון ולהרתיע את המאמצים המכוונים או המקריים שעלולים לפגוע בחברה.

אני אשתלב בדיון הזה שיקולים הקשורים לחוק בינה מלאכותית.

יסודות הבינה המלאכותית הגנרטיבית

המופע הידוע ביותר של AI גנרטיבי מיוצג על ידי אפליקציית AI בשם ChatGPT. ChatGPT צץ לתודעת הציבור עוד בנובמבר כאשר הוא שוחרר על ידי חברת המחקר בינה מלאכותית OpenAI. מאז ש-ChatGPT צבר כותרות מוגזמות וחרג באופן מדהים על חמש עשרה דקות התהילה שהוקצו לה.

אני מנחש שבטח שמעת על ChatGPT או אולי אפילו מכיר מישהו שהשתמש בו.

ChatGPT נחשב ליישום AI מחולל מכיוון שהוא לוקח כקלט טקסט כלשהו ממשתמש ולאחר מכן מייצר או מפיקה פלט המורכב מחיבור. ה-AI הוא מחולל טקסט-לטקסט, אם כי אני מתאר את ה-AI כמחולל טקסט-לחיבור, מכיוון שזה מבהיר ביתר קלות למה הוא משמש בדרך כלל. אתה יכול להשתמש בבינה מלאכותית גנרטיבית כדי לחבר יצירות ארוכות או שאתה יכול לגרום לו להציע הערות קצרות למדי. הכל לפי הצעתך.

כל מה שאתה צריך לעשות הוא להזין הנחיה ואפליקציית הבינה המלאכותית תיצור עבורך חיבור שינסה להגיב להנחיה שלך. הטקסט המורכב ייראה כאילו החיבור נכתב על ידי היד והמוח האנושיים. אם הייתם נכנסים להודעה שאומרת "ספר לי על אברהם לינקולן", הבינה המלאכותית הגנרטיבית תספק לכם חיבור על לינקולן. ישנם מצבים אחרים של AI גנרטיבי, כגון טקסט לאמנות וטקסט לווידאו. אני אתמקד כאן בווריאציה של טקסט לטקסט.

המחשבה הראשונה שלך עשויה להיות שהיכולת היצירתית הזו לא נראית כמו עניין כל כך גדול מבחינת הפקת מאמרים. אתה יכול בקלות לבצע חיפוש מקוון באינטרנט ולמצוא בקלות המון המון חיבורים על הנשיא לינקולן. העיקר במקרה של AI גנראטיבי הוא שהחיבור שנוצר הוא ייחודי יחסית ומספק קומפוזיציה מקורית ולא העתקה. אם הייתם מנסים למצוא את החיבור שהופק בינה מלאכותית במקום כלשהו באינטרנט, לא סביר שתגלו אותו.

AI גנרטיבי מאומן מראש ועושה שימוש בניסוח מתמטי וחישוב מורכב שהוקם על ידי בחינת דפוסים במילים כתובות ובסיפורים ברחבי הרשת. כתוצאה מבדיקת אלפי ומיליוני קטעים כתובים, הבינה המלאכותית יכולה לפלוט חיבורים וסיפורים חדשים שהם תערובת של מה שנמצא. על ידי הוספת פונקציונליות הסתברותית שונות, הטקסט המתקבל הוא די ייחודי בהשוואה למה שהיה בשימוש בערכת האימונים.

ישנן חששות רבים לגבי AI גנרטיבי.

חיסרון מכריע אחד הוא שבחיבורים המופקים על ידי אפליקציית AI מבוססת-גנרטיבית יכולים להיות מוטמעים שקרים שונים, כולל עובדות לא נכונות בעליל, עובדות שמתוארות בצורה מטעה ועובדות לכאורה שהן מפוברקות לחלוטין. היבטים מפוברקים אלה מכונים לעתים קרובות כצורה של הזיות בינה מלאכותית, משפט קטלני שאני מתנגד לו, אבל נראה שבכל זאת הוא זוכה לתפיסה פופולרית בכל מקרה (להסבר המפורט שלי למה זה טרמינולוגיה עלובה ולא מתאימה, עיין בסיקור שלי ב- הקישור כאן).

דאגה נוספת היא שבני אדם יכולים בקלות לקחת קרדיט על חיבור שיוצר בינה מלאכותית, למרות שלא חיברו את החיבור בעצמם. אולי שמעתם שמורים ובתי ספר די מודאגים מהופעתם של אפליקציות בינה מלאכותית. סטודנטים יכולים להשתמש ב-AI גנרטיבי כדי לכתוב את החיבורים שהוקצו להם. אם תלמיד טוען שמאמר נכתב בידם, יש סיכוי קטן שהמורה יוכל להבחין אם הוא זויף במקום זאת על ידי AI מחולל. לניתוח שלי של הפן המבלבל הזה של תלמיד ומורה, עיין בסיקור שלי ב הקישור כאן ו הקישור כאן.

היו כמה טענות מטורפות במדיה החברתית בנושא AI Generative בטענה שהגרסה האחרונה של AI היא למעשה AI חיוני (לא, הם טועים!). העוסקים באתיקה של בינה מלאכותית ובחוק בינה מלאכותית מודאגים במיוחד מהמגמה המתפתחת הזו של טענות מורחבות. אפשר לומר בנימוס שחלק מהאנשים מגזימים במה שה-AI של היום באמת יכול לעשות. הם מניחים של-AI יש יכולות שעדיין לא הצלחנו להשיג. זה מצער. גרוע מכך, הם יכולים להרשות לעצמם ולאחרים להגיע למצבים קשים בגלל ההנחה שה-AI יהיה חיוני או דומה לאדם ביכולת לנקוט בפעולה.

אל תעשה אנתרופומורפיזציה של AI.

פעולה זו תילכד אותך במלכודת הסתמכות דביקה ועמומה של ציפייה שה-AI יעשה דברים שהוא לא מסוגל לבצע. עם זאת, הגרסה האחרונה בתחום הבינה המלאכותית הגנרטיבית מרשימה יחסית למה שהיא יכולה לעשות. עם זאת, שים לב שישנן מגבלות משמעותיות שעליך לזכור ללא הרף בעת שימוש באפליקציית AI גנרטיבית.

אזהרה אחת אחרונה לעת עתה.

מה שאתה רואה או קורא בתגובת AI מחוללת זה נראה כדי להיות מועבר כעובדתי בלבד (תאריכים, מקומות, אנשים וכו'), הקפידו להישאר סקפטיים ולהיות מוכנים לבדוק שוב את מה שאתם רואים.

כן, אפשר לרקוח תאריכים, אפשר להמציא מקומות, ואלמנטים שאנחנו בדרך כלל מצפים שיהיו מעל לכל דופי הם את כל נתון לחשדות. אל תאמין למה שאתה קורא והקפיד על עין סקפטית כשאתה בוחן חיבורים או תפוקות של בינה מלאכותית. אם אפליקציית בינה מלאכותית תספר לכם שאברהם לינקולן טס ברחבי הארץ במטוס הפרטי שלו, ללא ספק הייתם יודעים שמדובר בבעייתיות. לרוע המזל, ייתכן שחלק מהאנשים לא יבינו שמטוסי סילון לא היו בסביבה בימיו, או שהם עשויים לדעת אך לא לשים לב שהחיבור מעלה את הטענה החצופה והשגויה להחריד.

מנה חזקה של ספקנות בריאה והלך רוח מתמשך של חוסר אמון יהיו הנכס הטוב ביותר שלך בעת שימוש בבינה מלאכותית גנרטיבית.

אנו מוכנים לעבור לשלב הבא של ההבהרה הזו.

האינטרנט ובינה מלאכותית גנרטיבית נמצאים בזה ביחד

עכשיו, כשיש לך מראית עין של מה זה בינה מלאכותית גנרטיבית, אנחנו יכולים לחקור את השאלה המטרידה האם בינה מלאכותית גנרית "מנפת" בצורה הוגנת או לא הוגנת, או שיש שיגידו באופן בוטה מנצל תוכן אינטרנט.

להלן ארבעת הנושאים החיוניים שלי הרלוונטיים לעניין זה:

1) בעיה כפולה: פלגיאט והפרת זכויות יוצרים
2) ניסיון להוכיח פלגיאט או הפרת זכויות יוצרים יהיה ניסיון
3) טענת גניבה או הפרת זכויות יוצרים
4) מוקשים חוקיים ממתינים

אני אכסה כל אחד מהנושאים החשובים הללו ואציע שיקולים מעוררי תובנה שכולנו צריכים לשקול בתשומת לב. כל אחד מהנושאים הללו הוא חלק בלתי נפרד מחידה גדולה יותר. אתה לא יכול להסתכל רק על חתיכה אחת. אתה גם לא יכול להסתכל על כל חלק במנותק מהחלקים האחרים.

זהו פסיפס מורכב ויש לתת את כל הפאזל להתייחסות הרמונית ראויה.

צרות כפולות: פלגיאט והפרת זכויות יוצרים

הבעיה הכפולה העומדת בפני אלה שמייצרים ומציגים בינה מלאכותית מחוללת היא שהסחורה שלהם עשויה לעשות שני דברים רעים:

1) פלגיאט. ניתן לפרש את הבינה המלאכותית הגנרטיבית כ פלגיאט תוכן שקיים באינטרנט לפי סריקת האינטרנט שהתקיימה במהלך אימון הנתונים של ה-AI.
2) הפרת זכויות יוצרים. ניתן לתבוע את הבינה המלאכותית הגנרטיבית כעל התחייבות הפרת זכויות יוצרים קשור לתוכן האינטרנט שנסרק במהלך אימון הנתונים.

כדי להבהיר, יש הרבה יותר תוכן באינטרנט ממה שנסרק בדרך כלל לאימון נתונים של AI גנראטיבי. רק חלק זעיר מהאינטרנט מועסק בדרך כלל. לפיכך, ניתן להניח שלכל תוכן שלא נסרק במהלך אימון הנתונים אין בשר בקר מיוחד עם AI יצירתי.

עם זאת, ניתן להתווכח על כך במידת מה מכיוון שאתה יכול לשרטט קו שמחבר בין תוכן אחר שנסרק לתוכן שלא נסרק. כמו כן, הסתייגות חשובה נוספת היא שגם אם יש תוכן שלא נסרק, עדיין אפשר לטעון שהוא גניבת עין ו/או הפרת זכויות יוצרים אם הפלטים של ה-AI הגנרטיבי ינחתו על אותה מילה. הנקודה שלי היא שיש הרבה קישקוש בכל זה.

בשורה תחתונה: בינה מלאכותית גדושה בחידות משפטיות פוטנציאליות של בינה מלאכותית ודיני בינה מלאכותית בכל הנוגע לגניבת עין והפרת זכויות יוצרים המבססת את שיטות האימון הרווחות בנתונים.

עד כה, יצרני בינה מלאכותית וחוקרי בינה מלאכותית החליקו על זה כמעט ללא סקוט, למרות החרב המתנשאת והמשתלשלת באופן מסוכן שתלויה מעליהם. רק כמה תביעות משפטיות נפתחו עד היום נגד פרקטיקות אלה. ייתכן ששמעת או ראית כתבות חדשותיות על פעולות משפטיות כאלה. האחת, למשל, כוללת את חברות הטקסט לתמונה של Midjourney ו-Stability AI על הפרת תוכן אמנותי שפורסם באינטרנט. אחד נוסף כרוך בהפרת טקסט לקוד נגד GitHub, Microsoft ו-OpenAI עקב תוכנת Copilot המייצרת אפליקציות בינה מלאכותית. Getty Images גם שואפת ללכת אחרי Stability AI עבור הפרת טקסט לתמונה.

אתה יכול לצפות שיוגשו עוד תביעות כאלה.

נכון לעכשיו, זה קצת סיכוי להשיק את התביעות הללו מכיוון שהתוצאה לא ידועה יחסית. האם בית המשפט יעמוד לצד יצרני הבינה המלאכותית או שמא אלו שיאמינו שהתוכן שלהם נוצל בצורה לא הוגנת יהיו המנצחים? מאבק משפטי יקר הוא תמיד עניין רציני. יש לשקול את הוצאת העלויות המשפטיות בקנה מידה גדול מול הסיכויים לזכות או להפסיד.

נראה שליצרני הבינה המלאכותית אין ברירה אלא להלחם. אם הם היו מתחמקים, ולו במעט, רוב הסיכויים שייגרמו שטף של תביעות משפטיות נוספות (בעצם, פתיחת הדלת לסיכויים מוגברים שגם אחרים ינצחו). ברגע שיש דם חוקי במים, הכרישים החוקיים הנותרים ימהרו אל ה"ניקוד הקל" הנחשב, ומרחץ דמים כספי מוחץ ומכה בוודאי יתרחש.

יש הסבורים שעלינו להעביר חוקי AI חדשים שיגנו על יצרני AI. ההגנה עשויה להיות אפילו רטרואקטיבית. הבסיס לכך הוא שאם אנחנו רוצים לראות התקדמות בינה מלאכותית, עלינו לתת ליצרני הבינה המלאכותית איזשהו מסלול של אזור בטוח. ברגע שתביעות משפטיות יתחילו להשיג ניצחונות נגד יצרני הבינה המלאכותית, אם זה יקרה (אנחנו לא יודעים עדיין), החשש הוא שה-AI הגנרטיבי יתאדה מכיוון שאף אחד לא יהיה מוכן לתת גיבוי לחברות הבינה המלאכותית.

כפי שצוין בכישרון במאמר שפורסם לאחרונה בחוק בלומברג בשם "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" מאת ד"ר איליה קולוצ'נקו וגורדון פלאט, בלומברג חוק, פברואר 2023, הנה שני קטעים חיוניים המהדהדים נקודות מבט אלה:

"וויכוח סוער מתנהל כעת בין חוקרי משפט ארה"ב ופרופסורים למשפטי IP בשאלה האם הגרידה הבלתי מורשית והשימוש הבא בנתונים המוגנים בזכויות יוצרים מסתכמים בהפרת זכויות יוצרים. אם דעתם של גורמים משפטיים שרואים הפרות של זכויות יוצרים בפרקטיקה כזו תנצח, משתמשים במערכות בינה מלאכותיות כאלה עלולים להיות אחראים גם להפרה משנית ועשויות להתמודד עם השלכות משפטיות".
"כדי להתמודד בצורה מקיפה עם האתגר, על המחוקקים לשקול לא רק לחדש את חקיקת זכויות היוצרים הקיימת, אלא גם ליישם סדרה של חוקים ותקנות ספציפיים ל-AI."

נזכיר כי כחברה אכן קבענו הגנות משפטיות עבור הרחבה של האינטרנט, כפי שעולה כעת על ידי בית המשפט העליון הסוקר את סעיף 230 המפורסם או הידוע לשמצה. לפיכך, נראה כי הגיוני ותקדימי אנו עשויים להיות מוכנים לעשות כמה הגנות דומות לקידום הבינה המלאכותית הגנרטיבית. אולי ניתן להגדיר את ההגנות באופן זמני, שתוקפם יפוג לאחר שה-AI הגנרטיבי הגיע לרמת מיומנות מוגדרת מראש. אפשר להמציא הוראות הגנה אחרות.

בקרוב אפרסם את הניתוח שלי לגבי האופן שבו הערכת בית המשפט העליון והפסיקה הסופית בסעיף 230 עשויים להשפיע על הופעת הבינה המלאכותית הגנרטיבית. חפשו את הפוסט הקרוב הזה!

בחזרה לדעה המושמעת בקול רם, שעלינו לתת מרחב פעולה לחדשנות הטכנולוגית מעוררת היראה החברתית המכונה בינה מלאכותית גנרטיבית. יש שיגידו שגם אם הפרת זכויות היוצרים הנטענת מתרחשת או מתרחשת, החברה כולה צריכה להיות מוכנה לאפשר זאת למטרות ספציפיות של קידום בינה מלאכותית.

התקווה היא שחוקי AI חדשים יהיו מעוצבים בקפידה ומכוונים לפרטים הקשורים לאימון נתונים עבור AI גנרטיבי.

יש הרבה טיעוני נגד לרעיון הזה של תכנון חוקי AI חדשים למטרה זו. דאגה אחת היא שכל חוק AI חדש כזה יפתח את השערים לכל מיני הפרות של זכויות יוצרים. אנו חבל על היום שבו אפשרנו לחוקי AI חדשים כאלה לנחות על הספרים. לא משנה כמה תנסו להגביל את זה רק לאימון נתוני בינה מלאכותית, אחרים ימצאו בהתגנבות או בחוכמה פרצות שיסתכמו בהפרה בלתי מוגבלת ומשתוללת של זכויות יוצרים.

הויכוחים הולכים וסובבים.

טיעון אחד שאינו מחזיק מים במיוחד קשור לניסיון לתבוע את ה-AI עצמו. שימו לב שהתייחסתי ליצרן הבינה המלאכותית או לחוקרי הבינה המלאכותית כבעלי העניין האשמים. אלה אנשים וחברות. חלקם מציעים שעלינו למקד את AI כצד להיתבע. דיברתי בהרחבה בטור שלי שאנחנו עדיין לא מייחסים אישיות משפטית לבינה מלאכותית, ראה הקישור כאן למשל, ולפיכך תביעות כאלה שמטרתן AI כשלעצמה ייחשבו חסרות טעם כרגע.

כתוספת לשאלה את מי או מה יש לתבוע, זה מעלה עוד נושא עסיסי.

נניח שאפליקציית בינה מלאכותית יצירתית מסויימת נוצרה על ידי יצרנית בינה מלאכותית שאותה נקרא חברת הווידג'טים. חברת Widget היא קטנה יחסית בגודלה ואין לה הרבה הכנסות, וגם לא הרבה נכסים. תביעה נגדם לא צפויה לצבור את העושר הגדול שאדם עשוי לחפש. לכל היותר, יהיה לך רק את הסיפוק לתקן את מה שאתה תופס כשגוי.

אתה רוצה ללכת אחרי הדג הגדול.

הנה איך זה הולך להתעורר. יצרנית בינה מלאכותית בוחרת להפוך את ה-AI הגנרטיבי לזמין לחברת ביג טיים, קונגלומרט גדול עם טונות של בצק וטונות של נכסים. תביעה ששמה לחברת היישומונים תהיה כעת מטרה טובה יותר, כלומר גם על ידי מתן שם לחברת ביג טיים. זהו מאבק בין דוד וגוליית שעורכי דין יתענגו עליו. כמובן שחברת ביג טיים תנסה ללא ספק להתנועע מקרס הדיג. אם הם יכולים לעשות זאת זו שוב שאלה משפטית שאינה ודאית, והם עלולים להשתקע בלי תקווה בבוץ.

לפני שנתקדם הרבה יותר בעניין הזה, אני רוצה לשים משהו מכריע על השולחן לגבי הפריצות הנטענות של AI גנרטיבי עקב אימון נתונים. אני בטוח שאתה מבין באופן אינטואיטיבי שגניבת דעת והפרת זכויות יוצרים הן שתי חיות שונות במקצת. יש להם הרבה מן המשותף, אם כי הם גם שונים באופן משמעותי.

הנה תיאור תמציתי מאוניברסיטת דיוק שמסביר את השניים:

"פלגיאט עדיף להגדיר כשימוש לא מוכר בעבודתו של אדם אחר. מדובר בסוגיה אתית הכרוכה בתביעת זיכוי בגין עבודה שהתובע לא יצר. אפשר לעשות פלגיאט על יצירה של מישהו אחר ללא קשר לסטטוס זכויות היוצרים של אותה יצירה. לדוגמה, בכל זאת מדובר בגניבת דעת להעתיק מתוך ספר או מאמר שישנים מכדי שעדיין יהיו תחת זכויות יוצרים. זה גם גניבת דעת להשתמש בנתונים שנלקחו ממקור לא מוכר, למרות שחומר עובדתי כמו נתונים עשוי להיות לא מוגן בזכויות יוצרים. גניבת דעת, לעומת זאת, ניתנת לריפוי בקלות - ציטוט מתאים למקור החומר המקורי".
"הפרת זכויות יוצרים, לעומת זאת, היא שימוש בלתי מורשה ביצירה של אחר. זוהי סוגיה משפטית שתלויה בשאלה אם היצירה מוגנת בזכויות יוצרים מלכתחילה או לא, כמו גם בפרטים ספציפיים כמו כמות השימוש ומטרת השימוש. אם מעתיקים יותר מדי יצירה מוגנת, או מעתיקים למטרה לא מורשית, עצם ההכרה במקור המקורי לא תפתור את הבעיה. רק על ידי בקשת אישור מראש מבעל זכויות היוצרים נמנע את הסיכון לחיוב על הפרה".

אני מציין את החשיבות של שני החששות האלה כדי שתבין שהתרופות יכולות להיות שונות בהתאם. כמו כן, שניהם שקועים בשיקולים החודרים לאתיקה של בינה מלאכותית ולחוק בינה מלאכותית, מה שהופך אותם לשווים באותה מידה לבחינה.

הבה נחקור תרופה או פתרון נטענים. אתה תראה שזה עשוי לעזור לאחת מהבעיות הכפולות, אבל לא לשנייה.

חלקם התעקשו שכל מה שיצרני הבינה המלאכותית צריכים לעשות הוא לצטט את המקורות שלהם. כאשר AI גנרטיבי מייצר חיבור, פשוט כלול ציטוטים ספציפיים לכל מה שצוין במאמר. תן כתובות URL שונות ואינדיקציות אחרות לאיזה תוכן אינטרנט נעשה שימוש. נראה שזה ישחרר אותם מהתלבטויות לגבי גניבת עין. יש להניח שהחיבור המופק יזהה בבירור באילו מקורות נעשה שימוש לניסוח המופק.

יש כמה התלבטויות בפתרון הנטען הזה, אבל ברמה של 30,000 רגל נניח שזה כן משמש תרופה מספקת למחצה לדילמת גניבת עין. כפי שצוין לעיל בהסבר על הפרת זכויות יוצרים, ציטוט של חומר מקור לא בהכרח מוציא אותך מבית הכלבים. בהנחה שהתוכן היה מוגן בזכויות יוצרים, ובהתאם לגורמים אחרים כמו כמות החומר שנעשה בהם שימוש, החרב הממתינה של הפרת זכויות יוצרים יכולה להתנודד בחדות ובסופיות.

צרות כפולות היא מילת המפתח כאן.

ניסיון להוכיח פלגיאט או הפרת זכויות יוצרים יהיה ניסיון

נסה זאת!

זה הפזמון השחוק שכולנו שמענו בתקופות שונות בחיינו.

אתה יודע איך זה הולך. אתה יכול לטעון שמשהו קורה או קרה. אולי אתה יודע בלב ליבך שזה התרחש. אבל כשזה מגיע לדחיפה מול דחיפה, אתה חייב לקבל את ההוכחה.

בעגה של היום, אתה צריך להראות את קבלות, כמו שהם אמרו.

השאלה שלי אליך היא כזו: איך אנחנו הולכים להוכיח באופן מופגן שבינה מלאכותית גנרטיבית ניצלה תוכן אינטרנט באופן לא הולם?

אחד מניח שהתשובה צריכה להיות קלה. אתה מבקש או אומר ל-AI הגנרטיבי להפיק מאמר מופק. לאחר מכן אתה לוקח את החיבור ומשווה אותו למה שניתן למצוא באינטרנט. אם תמצא את החיבור, באם, יש לך את הבינה המלאכותית הגנרטיבית ממוסמרת לקיר הפתגמי.

נראה שהחיים אף פעם לא כל כך קלים.

דמיינו שנקבל AI גנרטיבי כדי לייצר חיבור שמכיל כ-100 מילים. אנחנו מסתובבים ומנסים להגיע לכל פינות האינטרנט, ומחפשים את 100 המילים האלה. אם נמצא את 100 המילים, המוצגות באותו סדר בדיוק ובאופן זהה, נראה שתפסנו את עצמנו לוהטת.

אם כי נניח שאנו מוצאים באינטרנט מאמר "שווה" לכאורה, למרות שהוא תואם רק 80 מתוך 100 המילים. זה נראה עדיין מספיק, אולי. אבל דמיינו שאנחנו מוצאים רק מופע של 10 מילים מתוך ה-100 שמתאימות. האם זה מספיק כדי לזעזע שהתרחשה פלגיאט או שהתרחשה הפרת זכויות יוצרים?

אפרוריות קיימת.

טקסט מצחיק ככה.

השווה זאת לנסיבות טקסט לתמונה או טקסט לאמנות. כאשר AI גנרטיבי מספק יכולת טקסט לתמונה או טקסט לאמנות, אתה מזין בקשת טקסט ואפליקציית AI מייצרת תמונה המבוססת במידה מסוימת על ההנחיה שסיפקת. התמונה עשויה להיות שונה מכל תמונה שנראתה אי פעם על כוכב לכת זה או אחר.

מצד שני, התמונה עשויה להזכיר תמונות אחרות שכן קיימות. אנחנו יכולים להסתכל על התמונה המיוצרת בינה מלאכותית וקצת על פי אינסטינקט הבטן לומר שהיא בטוח נראית כמו תמונה אחרת שראינו בעבר. באופן כללי, ה חזותי היבטים של השוואה וניגודיות ניתנים לביצוע קצת יותר בקלות. עם זאת, אנא דעו כי ויכוחים משפטיים ענקיים מבטיחים מה מהווה חפיפה או שכפול של תמונה אחת לאחרת.

מצב דומה נוסף קיים עם מוזיקה. ישנן אפליקציות בינה מלאכותיות המאפשרות לך להזין בקשת טקסט והפלט שמפיק ה-AI הוא מוזיקת אודיו. יכולות הבינה המלאכותית של טקסט לאודיו או טקסט למוזיקה רק עכשיו מתחילות להופיע. דבר אחד שאתה יכול להמר עליו את המחיר הגבוה ביותר שלך הוא שהמוזיקה המופקת על ידי בינה מלאכותית גנראטיבית הולכת להיבדק היטב על הפרה. נראה שאנו יודעים כאשר אנו שומעים הפרה מוזיקלית, אם כי שוב זוהי סוגיה משפטית מורכבת שאינה מבוססת רק על התחושה שלנו לגבי השכפול הנתפס.

הרשו לי עוד דוגמה אחת.

AI מחולל טקסט לקוד מספק לך את היכולת להזין בקשת טקסט וה-AI יפיק עבורך קוד תכנות. לאחר מכן תוכל להשתמש בקוד זה להכנת תוכנית מחשב. ייתכן שתשתמש בקוד בדיוק כפי שנוצר, או שתבחר לערוך ולהתאים את הקוד כך שיתאים לצרכים שלך. יש גם צורך לוודא שהקוד מתאים וניתן לעבודה שכן יתכן שיכולות להופיע שגיאות ושקריות בקוד שנוצר.

ההנחה הראשונה שלך עשויה להיות שקוד התכנות אינו שונה מטקסט. זה רק טקסט. בטח, זה טקסט שמספק מטרה מסוימת, אבל זה עדיין טקסט.

ובכן, לא בדיוק. לרוב שפות התכנות יש פורמט ומבנה קפדניים לאופי הצהרות הקידוד של אותה שפה. זה במובן מסוים הרבה יותר צר משפה טבעית זורמת חופשית. אתה קצת מסוגר לגבי אופן הניסוח של הצהרות הקידוד. כמו כן, הרצף והאופן שבו ההצהרות מנוצלות ומסודרות מסודרים במקצת.

בסך הכל, האפשרות להציג לראווה שקוד התכנות בוצע בגניבה גניבה או הופר היא כמעט קלה יותר מהשפה הטבעית. לפיכך, כאשר AI מחולל הולך לסרוק קוד תכנות באינטרנט ומאוחר יותר מייצר קוד תכנות, הסיכוי לטעון שהקוד שוכפל באופן בוטה הולך להיות יותר משכנע יחסית. לא סלאמי דאנק, אז צפו לקרבות מרים שיתנהלו על זה.

הנקודה העליונה שלי היא שיהיו לנו אותן בעיות אתיקה של בינה מלאכותית וחוק בינה מלאכותית שיתמודדו עם כל מצבי הבינה המלאכותית הגנרטיבית.

פלגיאט והפרת זכויות יוצרים יהיו בעייתיים עבור:

טקסט לטקסט או טקסט לחיבור
טקסט לתמונה או טקסט לאמנות
טקסט לאודיו או טקסט למוזיקה
טקסט לווידאו
טקסט לקוד
וכו '

כולם נתונים לאותן חששות. חלקם אולי קצת יותר קל "להוכיח" מאחרים. לכולם הולך להיות מגוון משלהם של סיוטים של בסיס אתיקה של AI וחוק AI.

טענה לגניבת דעת או הפרת זכויות יוצרים

למטרות דיון, בואו נתמקד ב-AI מחולל טקסט לטקסט או טקסט לחיבור. אני עושה זאת חלקית בגלל הפופולריות האדירה של ChatGPT, שהוא סוג הטקסט לטקסט של AI גנרי. יש הרבה אנשים המשתמשים ב-ChatGPT, יחד עם רבים אחרים המשתמשים באפליקציות בינה מלאכותית דומות דומות לטקסט לטקסט.

האם האנשים האלה שמשתמשים באפליקציות AI גנרטיביות יודעים שהם עלולים להסתמך על פלגיאט או הפרת זכויות יוצרים?

נראה שספק אם כן.

הייתי מעז לומר שההנחה הרווחת היא שאם אפליקציית הבינה המלאכותית הגנרטיבית זמינה לשימוש, יצרנית הבינה המלאכותית או החברה ששלחה את הבינה המלאכותית חייבת לדעת או להיות בטוחה שאין שום דבר לא רע בסחורה שהם מציעים לשימוש. אם אתה יכול להשתמש בו, זה חייב להיות מעל הסיפון.

בוא נחזור על הערה הקודמת שלי לגבי איך אנחנו הולכים לנסות ולהוכיח שבינה מלאכותית מחוללת מסוימת עובדת על בסיס שגוי לגבי אימון הנתונים.

אני יכול גם להוסיף שאם נוכל לתפוס בינה מלאכותית אחת עושה זאת, הסיכוי לתפוס את האחרים צפויים להיות משופרים. אני לא אומר שכל אפליקציות הבינה המלאכותית הגנרטיביות יהיו באותה סירה. אבל הם הולכים למצוא את עצמם בים קשה למדי ברגע שאחד מהם יוצמד לקיר.

לכן גם יהיה כדאי מאוד לפקוח עין על התביעות הקיימות. הראשון שינצח באשר להפרה הנטענת, אם זו תתרחש, אולי יהווה אבדון וקודר עבור אפליקציות הבינה המלאכותית האחרות, אלא אם כן צרות מסויימת תחמוק מהבעיות הרחבות יותר שעל הפרק. אלה שמפסידים באשר להפרה הנטענת, לא אומרות בהכרח שאפליקציות הבינה המלאכותית היצירתיות יכולות לצלצל בפעמונים ולחגוג. יכול להיות שההפסד מיוחס לגורמים אחרים שאינם רלוונטיים באותה מידה לאפליקציות הבינה המלאכותיות האחרות, וכן הלאה.

ציינתי שאם ניקח חיבור של 100 מילים וננסה למצוא את המילים המדויקות האלה באותו רצף בדיוק באינטרנט, אולי יהיה לנו טענה מוצקה יחסית לגניבת עין או הפרת זכויות יוצרים, כל השאר שווה. אבל אם מספר המילים שהתאימו נמוך, נראה שאנחנו על קרח דק.

הייתי רוצה להעמיק בזה.

היבט ברור של ביצוע השוואה מורכב מאותן מילים בדיוק באותו רצף. זה עשוי להתרחש עבור קטעים שלמים. זה יהיה נוח לזהות, כמעט כמו שמגישים לנו על מגש כסף.

אנו עלולים גם לחשוד אם רק קטע מילים תואם. הרעיון יהיה לראות אם הן מילים חיוניות או אולי מילות מילוי שנוכל להסיר בקלות או להתעלם מהן. אנחנו גם לא רוצים להטעות אותנו על ידי שימוש במילים בזמן העבר או העתיד שלהן, או שטות אחרת. יש לשקול גם את הווריאציות הללו במילים.

רמה נוספת של השוואה תהיה כאשר המילים אינן במיוחד אותן מילים במידה רבה, אך נראה שהמילים אפילו במצב מגוון עדיין עושות את אותן נקודות. לדוגמה, תקציר ישתמש לעתים קרובות במילים דומות למדי כמקור מקורי, אך אנו יכולים להבחין כי הסיכום נראה מבוסס על המקור המקורי.

רמת ההשוואה הקשה ביותר תהיה מבוססת על מושגים או רעיונות. נניח שאנו רואים חיבור שאין לו מילים זהות או דומות כבסיס השוואה, אבל המהות או הרעיונות זהים. יש להודות שאנחנו מתקדמים לטריטוריה קשה. אם היינו אומרים בקלות שרעיונות מוגנים מקרוב, היינו שמים מכסה על כמעט כל צורות הידע והרחבת הידע.

אנו יכולים להתייחס שוב להסבר שימושי מאוניברסיטת דיוק:

"זכויות יוצרים אינן מגנות על רעיונות, רק על הביטוי הספציפי של רעיון. לדוגמה, בית משפט החליט שדן בראון לא הפר את זכויות היוצרים של ספר קודם כשכתב צופן דה וינצ'י כי כל מה שהוא שאל מהעבודה הקודמת היו הרעיונות הבסיסיים, לא הפרטים של העלילה או הדיאלוג. מכיוון שזכויות יוצרים נועדו לעודד ייצור יצירתי, השימוש ברעיונות של מישהו אחר ליצירת יצירה חדשה ומקורית מקיים את מטרת זכויות היוצרים, אין זה מפר אותה. רק אם אחד מעתיק ביטוי של אחר ללא רשות, זכויות יוצרים עלולות להיות מופרות".
"כדי להימנע מגניבת דעת, לעומת זאת, יש להכיר במקור אפילו של רעיונות שהושאלו ממישהו אחר, ללא קשר לשאלה אם הביטוי של אותם רעיונות מושאל איתם. לפיכך, פרפרזה מחייבת ציטוט, למרות שהיא מעוררת רק לעתים רחוקות בעיה כלשהי של זכויות יוצרים".

אנא שים לב כפי שזוהו קודם לכן את ההבדלים בין היבטי הצרות הכפולים.

עכשיו אם כן, יישום גישות ההשוואה הלכה למעשה הוא משהו שמתרחש כבר שנים רבות. תחשוב על זה ככה. תלמידים שכותבים חיבורים לעבודות בית הספר שלהם עלולים להתפתות לתפוס תוכן מהאינטרנט ולהעמיד פנים שהם חיברו את המילים זוכות פרס פוליצר בכיתה א'.

מורים משתמשים בתוכניות לבדיקת פלגיאט כבר זמן רב כדי להתמודד עם זה. מורה לוקח את החיבור של תלמיד ומזין אותו בבודק הגניבה. במקרים מסוימים, בית ספר שלם יעניק רישיון לשימוש בתוכנית לבדיקת פלגיאט. בכל פעם שסטודנטים מגישים חיבור, עליהם לשלוח תחילה את החיבור לתוכנית לבדיקת גניבת עין. המורה מודיע על מה שהתוכנית מדווחת.

למרבה הצער, אתה צריך להיות זהיר מאוד לגבי מה שיש לתוכניות לבדיקת גניבת עין אלה לומר. חשוב להעריך בתשומת לב האם האינדיקציות המדווחות תקפות. כפי שכבר הוזכר, היכולת לברר אם יצירה הועתקה יכולה להיות מעורפלת. אם אתה מקבל ללא מחשבה את התוצאה של תוכנית הבדיקה, אתה יכול להאשים תלמיד בטעות בהעתקה כאשר הוא לא עשה זאת. זה יכול להיות מוחץ נפש.

בהמשך, נוכל לנסות להשתמש בתוכנות לבדיקת פלגיאט בתחום של בדיקת תפוקות בינה מלאכותית. התייחס למאמרים המופקים מאפליקציית AI מחוללת כאילו נכתבו על ידי תלמיד. לאחר מכן אנו מודדים מה אומר בודק הגניבה. זה נעשה עם גרגר מלח.

קיים מחקר עדכני שניסה לבצע מבצעיות מסוגים אלה של השוואות בהקשר של AI גנרטיבי בצורה זו בדיוק. אני רוצה לעבור איתך על כמה ממצאים מעניינים.

ראשית, נדרש רקע נוסף. AI גנרטיבי מכונה לפעמים LLMs (מודלים של שפה גדולה) או פשוט LMs (מודלים שפה). שנית, ChatGPT מבוסס על גרסה של חבילת AI יצירתית אחרת של OpenAI בשם GPT-3.5. לפני GPT-3.5, היה GPT-3, ולפני זה היה GPT-2. כיום, GPT-2 נחשב פרימיטיבי למדי בהשוואה לסדרות המאוחרות יותר, וכולנו מחכים בקוצר רוח לחשיפת ה-GPT-4 הקרובה, ראה דיון שלי ב- הקישור כאן.

המחקר שברצוני לחקור בקצרה כלל בחינת GPT-2. חשוב להבין זאת מכיוון שאנו כעת מעבר ליכולות של GPT-2. אל תסיק מסקנות פזיזות לגבי התוצאות של ניתוח זה של GPT-2. עם זאת, אנו יכולים ללמוד הרבה מההערכה של GPT-2. המחקר נושא את הכותרת "האם מודלים של שפה מניחים פלגיאט?" מאת Jooyoung Lee, Thai Le, Jinghui Chen, ו-Dongwon Lee, המופיעים ב-ACM WWW '23, 1–5 במאי 2023, אוסטין, טקסס, ארה"ב.

זו שאלת המחקר העיקרית שלהם:

"באיזו מידה (לא מוגבל לשינון) LMs מנצלים ביטויים או משפטים מדגימות האימון שלהם?"

הם השתמשו בשלוש הרמות או הקטגוריות הללו של פלגיאט פוטנציאלי:

"גניבת דעת מילה במילה: עותקים מדויקים של מילים או ביטויים ללא שינוי."
"גניבת ביטוי בפרזה: החלפה נרדפת, סדר מחדש של מילים ו/או תרגום אחורי."
"גניבת דעת רעיונות: ייצוג של תוכן ליבה בצורה מוארכת."

GPT-2 אכן הוכשר על נתוני אינטרנט ולכן מועמד מתאים לסוג זה של ניתוח:

"GPT-2 מאומן מראש ב-WebText, ומכיל למעלה מ-8 מיליון מסמכים שאוחזרו מ-45 מיליון קישורי Reddit. מכיוון ש-OpenAI לא פרסמה את WebText באופן פומבי, אנו משתמשים ב-OpenWebText שהוא שחזור בקוד פתוח של קורפוס ה-WebText. הוא שימש באופן אמין על ידי ספרות קודמת."

ממצאי מפתח סלקטיביים כפי שנלקחו מהמחקר מורכבים מ:

"גילינו שמשפחות GPT-2 שעברו הכשרה מראש אכן נוהגות בגניבה גניבה מה-OpenWebText."
"הממצאים שלנו מראים שכוונון עדין מפחית באופן משמעותי מקרים של פלגיאט מילה במילה מ-OpenWebText."
"בהתאמה ל-Carlini et al. ו-Carlini et al., אנו מוצאים שדגמי GPT-2 גדולים יותר (גדולים ו-xl) בדרך כלל יוצרים רצפים נדונים בתדירות גבוהה יותר מאשר קטנים יותר."
"עם זאת, LMs שונים עשויים להפגין דפוסים שונים של פלגיאט, ולפיכך ייתכן שהתוצאות שלנו לא יוכללו ישירות ל-LMs אחרים, כולל LMs עדכניים יותר כגון GPT-3 או BLOOM."
"בנוסף, ידועים לגלאי גניבת עין אוטומטית מצבי כשל רבים (הן בשלילה שליליות שגויות והן בחיוביות שגויות).
"בהתחשב בכך שרוב נתוני ההדרכה של LMs נגרדים מהאינטרנט מבלי ליידע את בעלי התוכן, לחזרה שלהם על מילים, ביטויים ואפילו רעיונות ליבה ממערכות אימון לטקסטים שנוצרו יש השלכות אתיות."

אנחנו בהחלט צריכים עוד הרבה מחקרים מהסוג הזה.

אם אתה סקרן לדעת איך GPT-2 משתווה ל-GPT-3 בנוגע לאימון נתונים, יש ניגוד די ניכר.

לפי האינדיקציות שדווחו, אימון הנתונים עבור GPT-3 היה הרבה יותר נרחב:

"המודל הוכשר באמצעות מאגרי טקסט מהאינטרנט. זה כלל כמות עצומה של 570GB של נתונים שהתקבלו מספרים, טקסטים באינטרנט, ויקיפדיה, מאמרים וכתבי כתיבה אחרים באינטרנט. ליתר דיוק, 300 מיליארד מילים הוזנו למערכת" (BBC Science Focus מגזין, "ChatGPT: כל מה שאתה צריך לדעת על כלי GPT-3 של OpenAI" מאת אלכס יוז, פברואר 2023).

לאלו מכם המעוניינים בתיאורים מעמיקים יותר של אימון הנתונים עבור GPT-3, הנה קטע מתוך כרטיס הדגם הרשמי של GPT-3 שפורסם ב-GitHub (תאריך עדכון אחרון רשום כספטמבר 2020):

"מערך ההדרכה של GPT-3 מורכב מטקסט שהועלה לאינטרנט, או מטקסט שהועלה לאינטרנט (למשל, ספרים). נתוני האינטרנט שעליהם עברו הכשרה והוערכו עד כה, כוללים: (1) גרסה של מערך הנתונים של CommonCrawl, מסונן על סמך דמיון לקורפוסי ייחוס איכותיים, (2) גרסה מורחבת של מערך הנתונים של Webtext, (3 ) שני קורפוסי ספרים מבוססי אינטרנט, ו-(4) ויקיפדיה באנגלית."
"בהתחשב בנתוני ההדרכה שלו, התפוקות והביצועים של GPT-3 מייצגים יותר אוכלוסיות המחוברות לאינטרנט מאשר אלו הספוגות בתרבות מילולית לא דיגיטלית. האוכלוסייה המחוברת לאינטרנט מייצגת יותר מדינות מפותחות, השקפות עשירות, צעירות יותר וגברים, והיא בעיקר ממוקדת בארה"ב. מדינות ואוכלוסיות עשירות יותר במדינות מפותחות מציגות חדירת אינטרנט גבוהה יותר. הפער המגדרי הדיגיטלי מראה גם שפחות נשים מיוצגות באינטרנט ברחבי העולם. בנוסף, מכיוון שלחלקים שונים בעולם יש רמות שונות של חדירה וגישה לאינטרנט, מערך הנתונים מייצג פחות קהילות פחות מחוברות."

אחת ההשלכות מהאינדיקציה לעיל לגבי GPT-3 היא שכלל אצבע מבין אלה שיוצרים בינה מלאכותית הוא שככל שאתה יכול לסרוק יותר נתוני אינטרנט, הסיכויים לשפר או לקדם את הבינה המלאכותית הגנרטיבית עולים.

אתה יכול להסתכל על זה בכל אחת משתי דרכים.

1) AI משופר. יהיה לנו בינה מלאכותית גנרטיבית שזוחלת על פני כמה שיותר מהאינטרנט. התוצאה המרגשת היא שה-AI הגנרטיבי יהיה טוב יותר ממה שהוא כבר. זה משהו שצריך לצפות לו.
2) מעתיק פוטנציאל למכביר. ההתרחבות הזו של סריקת האינטרנט הופכת בצורה מגעילה ומרתקת את בעיית הפלגיאט והפרת זכויות יוצרים לגדולה יותר ויותר. בעוד שלפני כן לא היו כל כך הרבה יוצרי תוכן שהושפעו, הגודל הולך לפרוח. אם אתה עורך דין בצד של יוצרי התוכן, זה מעלה דמעות בעיניים (אולי דמעות של פחד, או דמעות של שמחה על הסיכויים שזה מביא מבחינת תביעות משפטיות).

האם הכוס חצי מלאה או חצי ריקה?

אתה תחליט.

מוקשים חוקיים ממתינים

שאלה שאולי אתה מתלבט בה היא האם התוכן שלך באינטרנט נחשב למשחק הוגן בשל סריקה. אם התוכן שלך נמצא מאחורי חומת תשלום, ככל הנראה הוא אינו יעד לסריקה מכיוון שלא ניתן להגיע אליו בקלות, תלוי בחוזקה של חומת התשלום.

הייתי מנחש שלרוב האנשים הרגילים אין את התוכן שלהם מוחבא מאחורי חומת תשלום. הם רוצים שהתוכן שלהם יהיה זמין לציבור. הם מניחים שאנשים יסתכלו על זה.

האם התוכן שלך זמין לציבור אומר מבחינה אקסיומטית גם שאתה מאשר לסרוק אותו לשימוש על ידי AI גנרטיבי שאומן נתונים?

אולי כן ואולי לא.

זה אחד מהעניינים המשפטיים המגלגלים עיניים.

נחזור למאמר שצוטט קודם לכן חוק בלומברג במאמר, המחברים מזכירים את החשיבות של התנאים וההגבלות (T&C) הקשורים לאתרים רבים:

"המוקש החוקי - שמתעלמים ממנו מאוד על ידי חברות בינה מלאכותית שלא מדעת שמפעילות בוטים מקוונים לגרידת נתונים - מוסתר בתנאים וההגבלות הזמינים בדרך כלל באתרים ציבוריים מכל הסוגים. בניגוד לחוק ה-IP המעורער כיום ולמצוקת הפרת זכויות היוצרים, התנאים וההגבלות של אתר מגובים בדיני חוזים מבוססים ובדרך כלל ניתן לאכוף אותם בבית המשפט בהסתמך על מספר מספיק של תקדימים".

הם מציינים שבהנחה שלאתר שלך יש דף הקשור לרישוי, רוב הסיכויים שאם השתמשת בתבנית מודרנית סטנדרטית, היא עשויה להכיל סעיף מכריע:

"לפיכך, רוב התנאים וההגבלות של אתרי אינטרנט - הזמינים בשפע בגישה חופשית - מכילים סעיף האוסר על גרידה אוטומטית של נתונים. למרבה האירוניה, אולי נעשה שימוש בתבניות כאלה הזמינות באופן חופשי לאימון ChatGPT. לכן, בעלי תוכן עשויים לרצות לעיין בתנאים וההגבלות שלהם ולהוסיף סעיף נפרד האוסר באופן מוחלט כל שימוש בתוכן מהאתרים להדרכה בינה מלאכותית או כל מטרה קשורה, בין אם נאספה ידנית או אוטומטית, ללא אישור מראש ובכתב מבעל האתר. ."

תמרוץ נוסף נכלל בניתוח שלהם של פעולות פוטנציאליות שיוצרי תוכן יבצעו לגבי אתרי האינטרנט שלהם:

"לכן, הכנסת הוראה ניתנת לאכיפה של פיצויים מחוסלים עבור כל הפרה של סעיף אי-גרידה, מתוגברת בהוראת צו מניעה ללא ערבות, יכולה להיות פתרון בר-קיימא עבור אותם מחברי תוכן יצירתי שאינם מעוניינים לספק את הפירות שלהם. עבודה אינטלקטואלית למטרות הכשרת בינה מלאכותית מבלי לקבל על כך תשלום או, לפחות, לקבל קרדיט ראוי על עבודתם".

אולי כדאי להתייעץ עם עורך הדין שלך בעניין זה.

יש האומרים שזו דרך חיונית לנסות ולומר ליצרני ה-AI שיוצרי תוכן רציניים מאוד בהגנה על התוכן שלהם. וודאות שלרישיון שלך יש את הנוסח המתאים, נראה לי לשים את יצרני הבינה המלאכותית בתשומת לב.

עם זאת, אחרים קצת צנועים. הם אומרים בדכדוך שאתה יכול להמשיך ולהעלות את השפה המשפטית הקשה והקטלנית ביותר באתר האינטרנט שלך, אבל בסופו של דבר, יצרני הבינה המלאכותית הולכים לסרוק אותה. אתה לא תדע שהם עשו זאת. יהיה לך שטן זמן שיוכיח שכן. לא סביר שתגלה שהתפוקות שלהם משקפות את התוכן שלך. זה קרב במעלה הגבעה שאתה לא הולך לנצח.

טענת הנגד היא שאתה נכנע לקרב עוד לפני שהוא נוהל. אם אין לכם לפחות שפה משפטית מספקת, ואם אי פעם תתפסו אותם, הם יתנועעו ויסללו את דרכם להימלט מכל אחריות. הכל בגלל שלא פרסמת את הסוג הנכון של שפה משפטית.

בינתיים, גישה אחרת שמבקשת להשיג אחיזה תהיה מורכבת ממנה סימון האתר שלך עם משהו שאומר שהאתר לא ייסרק על ידי AI גנראטיבי. הרעיון הוא שיומצא סמן סטנדרטי. יש להניח שאתרים יכולים להוסיף את הסמן לאתר שלהם. ייאמר ליצרני בינה מלאכותית שעליהם לשנות את סריקת הנתונים שלהם כדי לדלג מעל אתרי האינטרנט המסומנים.

האם גישת מרקר יכולה להצליח? החששות כוללים את העלויות להשגת ופרסום הטושים. יחד עם האם יצרני הבינה המלאכותית יצייתו לסמנים ויבטיחו להימנע מסריקת האתרים המסומנים. פרספקטיבה נוספת היא שגם אם יצרניות הבינה המלאכותית לא יסתדרו עם הסימונים, זה מספק עוד רמז מובהק לפנות לבית המשפט ולטעון שיוצר התוכן עבר את הקילומטר האחרון כדי לנסות ולהזהיר מפני סריקת הבינה המלאכותית.

איכס, הכל גורם לך להסתחרר.

סיכום

כמה הערות אחרונות על הנושא הקוצני הזה.

האם אתה מוכן לפרספקטיבה מרתקת על כל הבינה המלאכותית הזו כדילמה של גניבה גניבה ומפרת זכויות יוצרים?

חלק גדול מההנחה לגבי "תפיסת" בינה מלאכותית מחוללת במעשה של פלגיאט או הפרת זכויות יוצרים תלויה בגילוי פלטים דומה מאוד עבודות קודמות כמו התוכן באינטרנט שעלול נסרק במהלך אימון נתונים.

אם כי נניח שמשחק כאן תחבולה של הפרד-וכבש.

הנה למה אני מתכוון.

אם הבינה המלאכותית הגנרטיבית שואלת מעט מכאן וקצת קטנטונת משם, ובסופו של דבר מערבבת אותם יחד להפקת פלט מסוים, הסיכוי להיות מסוגל לקבל רגע גוצ'ה מצטמצם מאוד. כל פלט לא יעלה לכאורה לסף מספיק כדי שתוכלו לומר בוודאות שהוא נקטע מפריט מקור מסוים אחד. החיבור שנוצר או אופני פלט אחרים יהיו ניתנים להתאמה באופן חלקי בלבד. ולפי הגישה הרגילה של ניסיון לטעון שהתרחשה גניבת עין או הפרת זכויות יוצרים, אתה בדרך כלל צריך להציג יותר ממה שמשחק, במיוחד אם החתיכה אינה בולטת וניתן למצוא אותה בהרחבה ברחבי האינטרנט (חתימה כל נטל נאות של הוכחה לניצול פסולה).

האם אתה עדיין יכול להכריז באופן משכנע שהכשרת הנתונים על ידי AI גנרטיבי קרע אתרים ויוצרי תוכן גם אם ההוכחה המוצעת היא פרופורציה לא מהותית לכאורה?

תחשוב על זה.

אם אנו עומדים בפני גניבת עין בקנה מידה פוטנציאלי והפרת זכויות יוצרים בקנה מידה, ייתכן שנצטרך לשנות את הגישה שלנו להגדרה מהי גניבת עין ו/או הפרת זכויות יוצרים. אולי יש מקום לפלגיאט או הפרת זכויות יוצרים באופן כללי או כללי. פסיפס המורכב מאלפי או מיליוני קטעים זעירים עלול להתפרש כביצוע הפרות כאלה. עם זאת, הבעיה לכאורה היא שזה יכול לגרום לכל מיני תוכן להיכנס פתאום תחת מטריה של הפרות. זה יכול להיות מדרון חלקלק.

מחשבות כבדות.

אם כבר מדברים על מחשבות כבדות משקל, ליאו טולסטוי, הסופר האגדי, אמר באופן מפורסם: "המשמעות היחידה של החיים היא לשרת את האנושות."

אם האתר שלך ואתרי האינטרנט של אחרים נסרקים למען שיפור הבינה המלאכותית, ולמרות שאינך מקבל על כך אגורה אחת, אולי תהיה לך נחמה חגיגית באמונה הנלהבת שאתה תורם לעתיד האנושות? זה נראה מחיר קטן לשלם.

ובכן, אלא אם יתברר כי AI הוא הסיכון הקיומי המפחיד שמוחק את כל בני האדם מהקיום. אתה לא צריך לקחת קרדיט על זה. אני מניח שבקרוב לא היית תורם לתוצאה הקשה הזו. אם נניח בצד את התחזית האסונית הזו, אולי אתה חושב שאם יצרני הבינה המלאכותית מרוויחים כסף מה-AI היצירתי שלהם, ונראה שהם מתענגים על הרווח, גם אתה אמור לקבל חלק מהעוגה. שתפו ושתפו כאחד. על יצרני הבינה המלאכותית לבקש רשות לסרוק כל אתר אינטרנט ולאחר מכן גם לנהל משא ומתן על המחיר שישולם על כך שקיבלו את הסריקה.

תן קרדיט היכן שצריך אשראי.

בואו ניתן לסר וולטר סקוט את המילה האחרונה לעת עתה: "הו, איזו רשת סבוכה אנחנו טווים. כאשר קודם אנו מתרגלים להונות."

זה אולי תקף אם אתה מאמין שהטעיה מתנהלת, או אולי לא תקף אם אתה חושב שהכל בסדר גמור ולגיטימי. בבקשה תן לעצמך קרדיט על כך שחשבת על זה. מגיע לך.

מקור: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- ו-אי-חוק/