כמה קשה עלינו לדחוף בינה מלאכותית ChatGPT לפליטת דברי שטנה, שואלת אתיקה של AI וחוק AI

מה עלינו לעשות לגבי בינה מלאכותית יצירתית שמייצר תוכן פוגעני כמו דברי שטנה?

גטים

לכל אחד יש את נקודת השבירה שלו.

אני מניח שגם אתה יכול להגיד את זה הכל יש את נקודת השבירה שלה.

אנו יודעים שבני אדם למשל יכולים לפעמים לצלם ולהשמיע הערות שהם לא בהכרח מתכוונים לומר. באופן דומה, לפעמים אתה יכול לגרום למכשיר או מכונה להיקרע בעצם, כגון דחיפה של המכונית שלך חזק מדי והיא מתחילה לקרטע או להתפרק. לפיכך, הרעיון הוא שלאנשים או "לכולם" יש כנראה נקודת שבירה, ובאופן דומה אנו יכולים לטעון שגם חפצים ודברים, באופן כללי, נוטים לקבל נקודת שבירה.

יכולות להיות סיבות הגיוניות וחיוניות למדי לברר היכן קיימת נקודת השבירה. לדוגמה, ללא ספק ראית את הסרטונים המציגים מכונית עוברת את צעדיה כדי לזהות אילו נקודות שבירה יש לה. מדענים ובודקים ידחפו מכונית לתוך קיר לבנים כדי לראות עד כמה הפגוש ומבנה הרכב יכולים לעמוד בפני הפעולה השלילית. בדיקות אחרות יכולות לכלול שימוש בחדר או מחסן מיוחדים המייצרים קור קיצוני או חום קיצוני כדי לראות כיצד רכב יסתדר בתנאי מזג אוויר שונים.

אני מעלה את הנושא הלבבי הזה בטור של היום כדי שנוכל לדון כיצד חלקם דוחפים כעת חזק לבינה מלאכותית (AI) כדי לזהות ולחשוף סוג מסוים של נקודת שבירה, כלומר נקודת השבירה בתוך AI שמייצר דברי שטנה.

כן, זה נכון, ישנם מאמצים אד-הוק ולעיתים שיטתיים שונים כדי לאמוד אם זה אפשרי לגרום לבינה מלאכותית לפלוט דברי שטנה. זה הפך לספורט נלהב, אם תרצו, בגלל העניין הגובר והפופולריות של AI גנרטיבי.

אתה עשוי להיות מודע לכך שאפליקציית AI מחוללת הידועה בשם ChatGPT הפכה לשיחת העיירה המוגזמת כתוצאה מהיכולת ליצור חיבורים שוטפים להפליא. הכותרות לא מפסיקות לצעוק ולהלל את הכתיבה המדהימה ש-ChatGPT מצליחה לייצר. ChatGPT נחשב ליישום AI מחולל שלוקח כקלט טקסט כלשהו ממשתמש ולאחר מכן יוצר או מייצר פלט המורכב מחיבור. ה-AI הוא מחולל טקסט-לטקסט, אם כי אני מתאר את ה-AI כמחולל טקסט-לחיבור, מכיוון שזה מבהיר ביתר קלות למה הוא משמש בדרך כלל.

רבים מופתעים כשאני מזכיר שסוג זה של בינה מלאכותית קיים כבר זמן מה וש-ChatGPT, ששוחרר בסוף נובמבר, לא תבע איכשהו את הפרס בתור המהלך הראשון לתחום הזה של טקסט למאמר. נְטִיָה. דנתי במהלך השנים באפליקציות AI יצירתיות דומות אחרות, ראה את הסיקור שלי ב הקישור כאן.

הסיבה שאולי לא מכירים או זוכרים את המקרים הקודמים של AI גנרטיבי נובעת אולי מהחידה הקלאסית של "כישלון להשיק בהצלחה". הנה מה שקרה בדרך כלל. יצרנית בינה מלאכותית משחררת את אפליקציית הבינה המלאכותית הגנרטיבית שלו, עושה זאת בהתרגשות רבה ובציפייה נלהבת שהעולם יעריך את המצאת מלכודת עכברים טובה יותר, אפשר לומר. בהתחלה הכל נראה טוב. אנשים נדהמים ממה שבינה מלאכותית יכולה לעשות.

למרבה הצער, השלב הבא הוא שהגלגלים מתחילים לרדת מהאוטובוס הפתגמי. ה-AI מייצר חיבור שמכיל מילה גסה או אולי ביטוי גרוע. ציוץ ויראלי או פרסום במדיה חברתית אחרת מדגישים באופן בולט שה-AI עשה זאת. מתעורר גינוי. אנחנו לא יכולים לגרום לבינה מלאכותית להסתובב וליצור מילים פוגעניות או הערות פוגעניות. נוצרת תגובה אדירה. יצרנית הבינה המלאכותית אולי מנסה לצבוט את פעולתו הפנימית של הבינה המלאכותית, אבל המורכבות של האלגוריתמים והנתונים אינם מתאימים לתיקון מהיר. מתעוררת דריסה. יותר ויותר דוגמאות לפליטת AI פולטת נמצאות ומפורסמות באינטרנט.

ליצרנית הבינה המלאכותית בחוסר רצון אך ברור שאין ברירה אלא להסיר את אפליקציית הבינה המלאכותית מהשימוש. הם ממשיכים ככאלה ולאחר מכן לעתים קרובות מציעים התנצלות שהם מתחרטים אם מישהו נעלב מתפוקות הבינה המלאכותית שנוצרו.

בחזרה ללוח השרטוטים, יוצר הבינה המלאכותית הולך. לקח נלמד. היזהר מאוד בשחרור בינה מלאכותית מחוללת שמייצר מילים גסות או משהו דומה. זו נשיקת המוות עבור הבינה המלאכותית. יתרה מזאת, יצרנית הבינה המלאכותית תפגע במוניטין שלהן, מה שעשוי להימשך זמן רב ולפגוע בכל מאמצי הבינה המלאכותית האחרים שלה, כולל כאלה שאין להם שום קשר לבינה מלאכותית כשלעצמה. ללחוץ על הפליטה של שפת בינה מלאכותית פוגענית היא טעות מתמשכת. זה עדיין קורה.

לשטוף, לשטוף, ולחזור על הפעולה.

בימים הראשונים של סוג זה של בינה מלאכותית, יצרני הבינה המלאכותית לא היו כל כך מצפוניים או מיומנים בקרצוף הבינה המלאכותית שלהם במונחים של ניסיון למנוע פליטות פוגעניות. כיום, לאחר שראו בעבר את עמיתיהם מתנפצים לחלוטין מסיוט של יחסי ציבור, רוב יצרני הבינה המלאכותית הבינו לכאורה את המסר. אתה צריך לשים כמה שיותר מעקות בטיחות. נסה למנוע מה-AI לפלוט מילים גסות או ביטויים גסים. השתמש בכל טכניקת זרימה או גישות סינון שימנעו מה-AI לייצר ולהציג מילים או חיבורים שנמצאו לא ראויים.

הנה טעימה מלשון הכותרת של הבאנר המשמשת כאשר בינה מלאכותית נתפסת פולטת פלטים חסרי מוניטין:

"AI מציג רעילות מחרידה"
"AI מסריח מקנאות מוחלטת"
"AI הופך לפוגעני באופן בוטה"
"AI פולט דברי שטנה מחרידים ובלתי מוסריים"
וכו '

כדי להקל על הדיון כאן, אתייחס להפקת תוכן פוגעני כשווה לייצור של שונא את הדיבור. עם זאת, אנא שים לב שיש כל מיני תוכן פוגעני שניתן לייצר, החורג מגבולות דברי השנאה בלבד. דברי שטנה מתפרשים בדרך כלל כסוג אחד בלבד של תוכן פוגעני.

בואו נתמקד בדברי שטנה עבור הדיון הזה, כדי להקל על הדיון, אם כי נבין שגם תוכן פוגעני אחר ראוי לבדיקה.

חפירה בדברי שטנה של בני אדם ובינה מלאכותית

האו"ם מגדיר שונא את הדיבור בדרך זו:

"בשפה מקובלת, 'דברי שטנה' מתייחסים לשיח פוגעני המכוון לקבוצה או לאדם המבוסס על מאפיינים אינהרנטיים (כגון גזע, דת או מגדר) ושעשויים לאיים על השלום החברתי. כדי לספק מסגרת מאוחדת לאומות המאוחדות לטפל בנושא ברחבי העולם, אסטרטגיית ותוכנית הפעולה של האו"ם בנושא דברי שטנה מגדירה דברי שטנה כ"כל סוג של תקשורת בדיבור, כתיבה או התנהגות, שתוקפת או משתמשת בשפה פוגענית או מפלה עם התייחסות לאדם או קבוצה על בסיס מי שהם, במילים אחרות, על סמך דתם, אתניות, לאום, גזע, צבע, מוצא, מגדר או גורם זהות אחר.' עם זאת, עד היום אין הגדרה אוניברסלית של דברי שטנה על פי חוק זכויות האדם הבינלאומי. המושג עדיין נמצא בדיון, במיוחד ביחס לחופש הדעה והביטוי, אי אפליה ושוויון" (פרסום באתר האו"ם שכותרתו "מהו דברי שטנה?").

AI שמייצר טקסט כפוף להיכנס לתחום דברי השנאה. אתה יכול לומר את אותו הדבר לגבי טקסט לאמנות, טקסט לאודיו, טקסט לווידאו ומצבים אחרים של AI יצירתי. תמיד קיימת אפשרות למשל שבינה מלאכותית מחוללת תייצר יצירת אמנות שמדיפת דברי שטנה. למטרות הדיון הזה כאן, אני הולך להתמקד באפשרויות טקסט לטקסט או טקסט לחיבור.

לתוך כל זה נכנסים שלל שיקולי אתיקה של בינה מלאכותית ומשפטי בינה מלאכותית.

אנא שים לב שיש מאמצים מתמשכים להטמיע עקרונות בינה מלאכותית אתית בפיתוח ובתחום של אפליקציות בינה מלאכותית. קבוצה הולכת וגדלה של אתיקאי בינה מלאכותית מודאגים וקודמים מנסים להבטיח שהמאמצים לתכנן ולאמץ בינה מלאכותית לוקחים בחשבון נקודת מבט של עשייה AI לתמיד והימנעות AI למען הרע. כמו כן, מוצעים חוקי בינה מלאכותית חדשים שמסתובבים כפתרונות פוטנציאליים כדי למנוע ממאמצי הבינה המלאכותית להשתולל על זכויות אדם וכדומה. לסיקור המתמשך והענף שלי על אתיקה של בינה מלאכותית וחוק בינה מלאכותית, ראה הקישור כאן ו הקישור כאן, רק כדי שם כמה.

הפיתוח והפרסום של חוקי AI אתיים נמשכים בתקווה למנוע מהחברה ליפול למספר עצום של מלכודות מעוררות בינה מלאכותית. לסיקור שלי על עקרונות האתיקה של האו"ם AI כפי שהוכנו ונתמכו על ידי כמעט 200 מדינות באמצעות מאמצי אונסק"ו, ראה הקישור כאן. ברוח דומה, חוקי AI חדשים נבדקים כדי לנסות לשמור על AI על קייל אחיד. אחד הבדיקות האחרונות מורכב מקבוצה של מוצעים מגילת זכויות AI שהבית הלבן האמריקאי פרסם לאחרונה כדי לזהות זכויות אדם בעידן של AI, ראה הקישור כאן. דרוש כפר כדי לשמור על מפתחי בינה מלאכותית ובינה מלאכותית בנתיב הנכון ולהרתיע את המאמצים המכוונים או המקריים שעלולים לפגוע בחברה.

אני אשזור שיקולים הקשורים לחוק AI בדיון הזה על בינה מלאכותית שפולטת דברי שטנה או תוכן פוגעני אחר.

מעט בלבול אחד שהייתי רוצה להבהיר מיד הוא שה-AI של היום אינו חיוני ולכן אינך יכול להכריז שה-AI עשוי להפיק דברי שטנה בשל כוונה דמוית-אדם מכוונת, כפי שמתגלמת איכשהו ב-AI. זאני טוען שה-AI הנוכחי הוא בעל חושים וכי ל-AI יש נשמה מושחתת, מה שגורם לו ליצור דברי שטנה.

מְגוּחָך.

אל תיפול על זה.

בהתחשב בהנחיית אבן המפתח הזו, יש כאלה שמתעצבנים על אינדיקציות כאלה מכיוון שאתה לכאורה משחרר את הבינה המלאכותית. תחת צורת החשיבה המוזרה הזו, מגיעה האימון הבא שאתה כנראה מוכן שה-AI ייצר כל סוג של תפוקות מזעזעות. אתה בעד בינה מלאכותית שמפיצה דברי שטנה.

איכס, צורה מעוותת למדי של חוסר היגיון. התמצית האמיתית של העניין היא שעלינו להטיל אחריות על יצרני הבינה המלאכותית, יחד עם מי שמתמחה ב-AI או מפעיל את ה-AI. דיברתי בהרחבה על כך שאנחנו עדיין לא בנקודה להודות באישיות משפטית לבינה מלאכותית, ראה את הניתוחים שלי ב- הקישור כאן, ועד אז AI הוא בעצם מעבר לטווח האחריות המשפטית. אמנם ישנם בני אדם שעומדים בבסיס הפיתוח של AI. בנוסף, בני אדם עומדים בבסיס השטח והתפעול של AI. אנחנו יכולים לרדוף אחרי אותם בני אדם על כך שהם נושאים באחריות של ה-AI שלהם.

מלבד זאת, גם זה יכול להיות מסובך, במיוחד אם הבינה המלאכותית מרחפת החוצה לאינטרנט ואיננו מסוגלים לקבוע איזה אדם או בני אדם עשו זאת, וזה עוד נושא שסקרתי בטורים שלי ב- הקישור כאן. מסובך או לא, אנחנו עדיין לא יכולים להכריז שה-AI הוא הצד האשם. אל תתנו לבני אדם להשתמש באנתרופומורפיזציה כוזבת כדי להסתתר ולהימלט מאחריות על מה שהם עשו.

בחזרה לעניין שלפנינו.

אתה אולי תוהה למה זה שכל יצרני הבינה המלאכותית לא פשוט מגבילים את הבינה המלאכותית היצירתית שלהם כך שאי אפשר לבינה מלאכותית לייצר דברי שטנה. זה נראה קל-פייז. פשוט כתוב איזה קוד או קבע רשימת בדיקה של מילות שנאה, וודא שה-AI לעולם לא מייצר משהו כזה. זה נראה אולי מוזר שיצרני הבינה המלאכותית לא חשבו כבר על התיקון המהיר הזה.

ובכן, אני שונא להגיד לך את זה, אבל המורכבות הטמונה בפירוש מה הוא או לא דברי שטנה מתגלה כהרבה יותר קשה ממה שאתה יכול להניח שהוא.

העבר את זה לתחום של בני אדם ולאופן שבו בני אדם משוחחים זה עם זה. נניח שיש לך בן אדם שרוצה להימנע מלהשמיע דברי שטנה. אדם זה מודע מאוד לדברי שטנה ומקווה באמת להימנע מלומר אי פעם מילה או ביטוי שעלולים להוות דברי שטנה. אדם זה מודע בהתמדה לא לאפשר למעט דברי שטנה לברוח מפיו.

האם האדם הזה שיש לו מוח שמתריע על הימנעות מדברי שטנה יוכל תמיד וללא כל סיכוי להחליק, לדאוג לכך שלעולם לא פולט דברי שנאה?

הדחף הראשון שלך עשוי להיות לומר שכן, כמובן, אדם מואר יוכל להשיג את המטרה הזו. אנשים חכמים. אם הם שמים את דעתם על משהו, הם יכולים לעשות את זה. תקופה, סוף הסיפור.

אל תהיה כל כך בטוח.

נניח שאבקש מהאדם הזה לספר לי על דברי שטנה. יתר על כן, אני מבקש מהם לתת לי דוגמה לדבר שטנה. אני רוצה לראות או לשמוע דוגמה כדי שאוכל לדעת ממה מורכב דברי שטנה. הסיבות שלי לשאול את זה הן מעל הלוח.

מה האדם צריך להגיד לי?

אני חושב שאתה יכול לראות את המלכודת שהוטלה. אם האדם נותן לי דוגמה של דברי שטנה, כולל אמירת מילה או ביטוי גס, הוא עצמו השמיע כעת דברי שטנה. באם, השגנו אותם. בעוד שהם נשבעו לעולם לא לומר דברי שטנה, הם אכן עשו זאת כעת.

לא הוגן, אתה צועק! הם רק אמרו את המילה הזו או את המילים האלה כדי לספק דוגמה. בלב ליבם, הם לא האמינו במילה או במילים. זה לגמרי מחוץ להקשר ומקומם להכריז שהאדם שונא.

אני בטוח שאתה רואה שהבעת דברי שטנה לא בהכרח נובעת מבסיס שנאה. במקרה השימוש הזה, בהנחה שהאדם לא "התכוון" למילים, והוא רק דקלם את המילים למטרות הדגמה, כנראה נסכים שהם לא התכוונו להעצים את דברי השנאה. כמובן, יש כאלה שעשויים להתעקש כי השמעת דברי שטנה, ללא קשר לסיבה או בסיס, בכל זאת היא שגויה. האדם היה צריך לדחות את הבקשה. הם היו צריכים לעמוד על שלהם ולסרב לומר מילים או ביטויים של דברי שטנה, לא משנה למה או איך הם מתבקשים לעשות זאת.

זה יכול להיות מעט מעגלי. אם אינך מסוגל לומר מהו דברי שטנה, כיצד יכולים אחרים לדעת ממה להימנע כשהם משמיעים התבטאויות מכל סוג שהוא? נראה שאנחנו תקועים. אתה לא יכול להגיד את מה שאסור לומר, ואף אחד אחר לא יכול להגיד לך מה זה שאי אפשר לומר.

הדרך המקובלת לעקוף את הדילמה הזו היא לתאר במילים אחרות את מה שנחשב לדבר שטנה, לעשות זאת מבלי להפעיל את דברי השנאה עצמם. האמונה היא שמתן אינדיקציה כוללת תספיק כדי ליידע אחרים ממה עליהם להימנע. זו נראית כמו טקטיקה הגיונית, אבל גם לה יש בעיות ואדם עדיין יכול ליפול בשימוש בדברי שטנה כי הוא לא הבחין שההגדרה הרחבה יותר כוללת את הפרטים של מה שהוא אמר.

כל זה עוסק בבני אדם ובאופן שבו בני אדם מדברים או מתקשרים זה עם זה.

נזכיר שאנחנו מתמקדים כאן ב-AI. עלינו לגרום ל-AI להימנע או לעצור לחלוטין את עצמו מלפלוט דברי שטנה. אתה יכול לטעון שאולי נוכל לעשות זאת על ידי לוודא שה-AI לעולם לא יינתן או מאומן על שום דבר שמהווה דברי שטנה. וואלה, אם אין קלט כזה, יש להניח שלא יהיה פלט כזה. הבעיה נפתרה.

בואו נראה איך זה מסתדר במציאות. אנו בוחרים להשתמש באפליקציית בינה מלאכותית שתצא לאינטרנט ותבחן אלפי ואלפי חיבורים ונרטיבים שפורסמו באינטרנט. על ידי כך, אנו מאמנים את ה-AI באופן חישובי ומתמטי כיצד למצוא דפוסים בין המילים שבני אדם משתמשים בהן. כך נוצר החידוש האחרון בתחום הבינה המלאכותית הגנרטיבית, והוא גם בסיס מכריע לכך שה-AI כל כך שוטף לכאורה בהפקת מאמרים בשפה טבעית.

תגיד לי, אם אתה יכול, איך ההכשרה החישובית המבוססת על מיליוני ומיליארדים של מילים באינטרנט תתבצע בצורה כזו שבשום שלב לא יכללו שום מראית עין או אפילו פיסות של דברי שטנה?

הייתי מעז לומר שזו שאיפה קוצנית וכמעט בלתי אפשרית.

רוב הסיכויים שדברי שטנה ייבלעו על ידי ה-AI ורשת התאמת הדפוסים החישוביים שלו. הניסיון למנוע זאת הוא בעייתי. בנוסף, גם אם צמצמת את זה, עדיין יש כמה שעלולים לחמוק. אין לך כמעט ברירה אלא להניח שחלקם יתקיימו בתוך רשת התאמת הדפוסים או שצל של ניסוח כזה יתבצר.

אני אוסיף עוד פיתולים.

אני מאמין שכולנו אולי נכיר בכך שדיבורי שנאה משתנה עם הזמן. מה שאולי נתפס כלא היה דברי שטנה יכול להחליט מבחינה תרבותית וחברתית כדברי שטנה בנקודת זמן מאוחרת יותר. לכן, אם נאמן את הבינה המלאכותית שלנו על טקסט אינטרנט ואז נניח להקפיא את הבינה המלאכותית כדי לא לעבור הכשרה נוספת באינטרנט, ייתכן שנתקלנו בדיבורי שטנה באותה תקופה, למרות שזה לא נחשב לדבר שטנה באותה תקופה. רק לאחר מעשה ייתכן שהדיבור האמור יוכרז כדברי שטנה.

שוב, המהות היא שעצם הניסיון לפתור את הבעיה הזו על ידי הבטחה שה-AI לעולם לא ייחשף לדיבור שנאה לא יהיה כדור הכסף. עדיין נצטרך למצוא אמצעי למנוע מה-AI לפלוט דברי שטנה, למשל, בגלל שינוי מוסדות שכוללים לאחר מכן דברי שטנה שקודם לכן לא נחשבו ככאלה.

עוד טוויסט ראוי להרהור.

ציינתי קודם שכאשר משתמשים בבינה מלאכותית כמו ChatGPT, המשתמש מזין טקסט כדי לדרבן את הבינה המלאכותית לייצר חיבור. הטקסט שהוזן נחשב לצורה של הנחיה או הנחיה עבור אפליקציית הבינה המלאכותית. אני אסביר יותר על זה בעוד רגע.

בכל מקרה, תארו לעצמכם שמישהו שמשתמש באפליקציית בינה מלאכותית מחליט להיכנס כהנחיה של דברי שטנה.

מה צריך לקרות?

אם הבינה המלאכותית לוקחת את המילים הללו ומפיקה חיבור כפלט על סמך המילים הללו, רוב הסיכויים שדיבור השטנה ייכלל במאמר שנוצר. אתה מבין, קיבלנו את הבינה המלאכותית לומר דברי שטנה, גם אם הוא מעולם לא הוכשר על דברי שטנה בתחילת הדרך.

יש עוד משהו שאתה צריך לדעת.

זכור שזה עתה ציינתי שניתן להכשיל אדם אם מבקשים ממנו לתת דוגמאות של דברי שטנה. אפשר לנסות את אותו הדבר ב-AI. משתמש נכנס להודעה המבקשת מה-AI לתת דוגמאות של דברי שטנה. האם ה-AI צריך לציית ולספק דוגמאות כאלה? אני מהמר שאתה כנראה מאמין שבינה מלאכותית לא צריכה לעשות זאת. מצד שני, אם הבינה המלאכותית מאושרת מבחינה חישובית שלא תעשה זאת, האם זה מהווה חיסרון פוטנציאלי שמשתמשים בבינה מלאכותית לא יוכלו לקבל אם נאמר אי פעם לקבל הוראה על ידי הבינה המלאכותית לגבי מה זה בעצם דברי שטנה ( מעבר להכליל על זה)?

שאלות קשות.

אני נוטה לסווג דברי שטנה הנפלטים בינה מלאכותית לשלושת הדליים העיקריים האלה:

מצב יומיומי. בינה מלאכותית פולטת דברי שטנה ללא דחיפה מפורשת של המשתמש וכאילו עושה זאת בצורה "רגילה".
מאת Casual Prodding. בינה מלאכותית פולטת דברי שטנה כפי שהודר על ידי משתמש לגבי הנחיה שהוזנה או סדרה של הנחיות שנראות כוללות או שואפות ישירות לפליטות כאלה.
לפי סטוק נחוש. בינה מלאכותית פולטת דברי שטנה לאחר סדרה מאוד נחושה ועקשנית של דחיפות ודחיפות דחיפות של משתמש שחושף לגרום ל-AI לייצר פלט כזה.

הדורות המוקדמים יותר של בינה מלאכותית גנראטיבית היו פולטים לעתים קרובות דברי שטנה בקטנטונת; כך אתה יכול לסווג את המקרים האלה כסוג של מצב יומיומי מופע. יצרני בינה מלאכותית נסוגו והשתעשעו בבינה מלאכותית כדי להפחית את הסיכוי שהוא יתקע בקלות בייצור דברי שטנה.

עם שחרורו של ה-AI המעודן יותר, הסיכויים לראות משהו מצב יומיומי מקרים של דברי שטנה צומצמו באופן דרמטי. במקום זאת, סביר להניח שדברי השנאה יתעוררו רק כאשר משתמש עשה משהו כהנחיה שעלולה ליצור קשר חישובי ומתמטי לדיבור הקשורים לשנאה ברשת התאמת דפוסים. משתמש יכול לעשות זאת במקרה ולא להבין שמה שהוא סיפק כהנחיה יגרום במיוחד לדברי שטנה. לאחר קבלת דברי שטנה במאמר שהוצא, המשתמש היה מבין לעתים קרובות ורואה שמשהו בהנחיה שלו יכול היה להוביל באופן הגיוני להכללת דברי השנאה בפלט.

זה מה שאני מתייחס אליו דחיפה סתמית.

כיום, המאמצים השונים לצמצם את דברי השטנה שנוצרו בינה מלאכותית הם חזקים יחסית בהשוואה לעבר. ככזה, אתה כמעט צריך לצאת מגדרך כדי לגרום לדברי שטנה להופיע. יש אנשים שבוחרים לראות בכוונה אם הם יכולים לגרום לדברי שטנה לצאת מאפליקציות הבינה המלאכותית האלו. אני קורא לזה נחוש להדביק.

אני רוצה להדגיש שכל שלושת המצבים המצוינים יכולים להתרחש והם אינם סותרים זה את זה. אפליקציית בינה מלאכותית מחוללת יכולה לייצר דברי שטנה ללא כל סוג של הנחיה שנראה שמדרבן ייצור כזה. באופן דומה, משהו בהנחיה עשוי להתפרש באופן הגיוני ומתמטי כקשור לסיבה שבגללה הושמעו דברי שטנה. ואז ההיבט השלישי, המבקש בכוונה להפיק דברי שטנה, הוא אולי הקשה מבין המצבים לנסות ולגרום לכך שה-AI יימנע מלהתלהב ולהגשים. עוד על זה לרגע.

יש לנו עוד כמה פריקות מהאריזות לעשות בנושא המלהיב הזה.

ראשית, עלינו לוודא שכולנו נמצאים באותו עמוד לגבי מה מורכב AI Generative וגם על מה זה ChatGPT. ברגע שנכסה את הפן הבסיסי הזה, נוכל לבצע הערכה קוגנטית של עניין כבד משקל זה.

אם אתה כבר מכיר היטב את AI Generative ו-ChatGPT, אתה יכול אולי לדפדף בקטע הבא ולהמשיך עם הקטע שאחריו. אני מאמין שכל השאר ימצאו מלמדים את הפרטים החיוניים בנושאים אלו על ידי קריאה מדוקדקת של המדור והתעדכנות.

הסבר מהיר על AI גנרטיבי ו-ChatGPT

ChatGPT היא מערכת בינה מלאכותית אינטראקטיבית מוכוונת שיחה, בעצם צ'אט בוט כללי תמים לכאורה, עם זאת, היא נמצאת בשימוש פעיל ונלהב על ידי אנשים בדרכים שתופסות רבים לחלוטין, כפי שאפרט בקרוב. אפליקציית בינה מלאכותית זו ממנפת טכניקה וטכנולוגיה בתחום הבינה המלאכותית שמכונה לעתים קרובות AI Generative. ה-AI מייצר פלטים כמו טקסט, וזה מה ש-ChatGPT עושה. אפליקציות אחרות המבוססות על AI מייצרות תמונות כמו תמונות או יצירות אמנות, בעוד שאחרות מייצרות קבצי אודיו או סרטונים.

אני אתמקד ביישומי AI מחוללים מבוססי טקסט בדיון הזה מכיוון שזה מה ש-ChatGPT עושה.

אפליקציות AI גנרטיביות קלות במיוחד לשימוש.

כל מה שאתה צריך לעשות הוא להזין הנחיה ואפליקציית הבינה המלאכותית תיצור עבורך חיבור שינסה להגיב להנחיה שלך. הטקסט המורכב ייראה כאילו החיבור נכתב על ידי היד והמוח האנושיים. אם הייתם נכנסים להודעה שאומרת "ספר לי על אברהם לינקולן", הבינה המלאכותית הגנרטיבית תספק לכם חיבור על לינקולן. זה מסווג בדרך כלל כ-AI גנרטיבי שמתפקד טקסט לטקסט או שיש המעדיפים לקרוא לזה טקסט למאמר תְפוּקָה. כאמור, ישנם מצבים נוספים של AI יצירתי, כמו טקסט לאמנות וטקסט לווידאו.

המחשבה הראשונה שלך עשויה להיות שהיכולת היצירתית הזו לא נראית כמו עניין כל כך גדול מבחינת הפקת מאמרים. אתה יכול בקלות לבצע חיפוש מקוון באינטרנט ולמצוא בקלות המון המון חיבורים על הנשיא לינקולן. העיקר במקרה של AI גנראטיבי הוא שהחיבור שנוצר הוא ייחודי יחסית ומספק קומפוזיציה מקורית ולא העתקה. אם הייתם מנסים למצוא את החיבור שהופק בינה מלאכותית במקום כלשהו באינטרנט, לא סביר שתגלו אותו.

AI גנרטיבי מאומן מראש ועושה שימוש בניסוח מתמטי וחישוב מורכב שהוקם על ידי בחינת דפוסים במילים כתובות ובסיפורים ברחבי הרשת. כתוצאה מבדיקת אלפי ומיליוני קטעים כתובים, הבינה המלאכותית יכולה לפלוט חיבורים וסיפורים חדשים שהם תערובת של מה שנמצא. על ידי הוספת פונקציונליות הסתברותית שונות, הטקסט המתקבל הוא די ייחודי בהשוואה למה שהיה בשימוש בערכת האימונים.

זו הסיבה שהתעוררה מהומה על כך שתלמידים מסוגלים לרמות בעת כתיבת חיבורים מחוץ לכיתה. מורה לא יכול רק לקחת את החיבור שתלמידים רמאים טוענים שהוא הכתיבה שלהם ולחפש אם הוא הועתק ממקור מקוון אחר. בסך הכל, לא יהיה שום חיבור סופי מקוון שמתאים לחיבור שנוצר בינה מלאכותית. בסך הכל, המורה יצטרך לקבל בחוסר רצון שהתלמיד כתב את החיבור כיצירה מקורית.

יש חששות נוספים לגבי AI גנרטיבי.

חיסרון מכריע אחד הוא שהחיבורים המופקים על ידי אפליקציית AI מבוססת-גנרטיבית יכולים להטביע שקריות שונים, כולל עובדות לא נכונות בעליל, עובדות שמתוארות בצורה מטעה ועובדות לכאורה שהן מפוברקות לחלוטין. היבטים מפוברקים אלה מכונים לעתים קרובות כצורה של הזיות בינה מלאכותית, משפט קטלני שאני מתנגד לו, אבל נראה שבכל זאת הוא זוכה לתפיסה פופולרית בכל מקרה (להסבר המפורט שלי למה זה טרמינולוגיה עלובה ולא מתאימה, עיין בסיקור שלי ב- הקישור כאן).

אני רוצה להבהיר היבט חשוב אחד לפני שניכנס לעובי הקורה בנושא זה.

היו כמה טענות מטורפות במדיה החברתית בנושא AI Generative בטענה שהגרסה האחרונה של AI היא למעשה AI חיוני (לא, הם טועים!). העוסקים באתיקה של בינה מלאכותית ובחוק בינה מלאכותית מודאגים במיוחד מהמגמה המתפתחת הזו של טענות מורחבות. אפשר לומר בנימוס שחלק מהאנשים מגזימים במה שה-AI של היום באמת יכול לעשות. הם מניחים של-AI יש יכולות שעדיין לא הצלחנו להשיג. זה מצער. גרוע מכך, הם יכולים להרשות לעצמם ולאחרים להגיע למצבים קשים בגלל ההנחה שה-AI יהיה חיוני או דומה לאדם ביכולת לנקוט בפעולה.

אל תעשה אנתרופומורפיזציה של AI.

פעולה זו תילכד אותך במלכודת הסתמכות דביקה ועמומה של ציפייה שה-AI יעשה דברים שהוא לא מסוגל לבצע. עם זאת, הגרסה האחרונה בתחום הבינה המלאכותית הגנרטיבית מרשימה יחסית למה שהיא יכולה לעשות. עם זאת, שים לב שישנן מגבלות משמעותיות שעליך לזכור ללא הרף בעת שימוש באפליקציית AI גנרטיבית.

אם אתה מעוניין במהומה המתרחבת במהירות על ChatGPT ו- Generative AI, עשיתי סדרה ממוקדת בטור שלי שאולי תמצא לך אינפורמציה. הנה הצצה למקרה שאחד מהנושאים האלה יתחבב עליך:

1) תחזיות של התקדמות AI גנרטיבית. אם אתה רוצה לדעת מה צפוי להתפתח לגבי AI במהלך 2023 ואילך, כולל ההתקדמות הקרובה בבינה מלאכותית ו-ChatGPT, תרצה לקרוא את הרשימה המקיפה שלי של תחזיות 2023 בכתובת הקישור כאן.
2) ייעוץ בינה מלאכותית ונפשית. בחרתי לסקור כיצד נעשה שימוש בבינה מלאכותית וב-ChatGPT לייעוץ לבריאות הנפש, מגמה מטרידה, לפי הניתוח הממוקד שלי ב- הקישור כאן.
3) יסודות הבינה המלאכותית הגנרטיבית וה-ChatGPT. יצירה זו בוחנת את המרכיבים המרכזיים של אופן פעולת הבינה המלאכותית הגנרטיבית ובמיוחד מתעמקת באפליקציית ChatGPT, כולל ניתוח של הבאזז והקולות, ב- הקישור כאן.
4) מתח בין מורים לתלמידים על רקע בינה מלאכותית ו-ChatGPT. להלן הדרכים בהן התלמידים ישתמשו בערמומיות בבינה מלאכותית וב-ChatGPT. בנוסף, ישנן מספר דרכים למורים להתמודד עם גל הגאות הזה. לִרְאוֹת הקישור כאן.
5) הקשר ושימוש בינה מלאכותית. עשיתי גם בדיקת לשון בלחי בטעם עונתי על הקשר הקשור לסנטה הכולל ChatGPT ובינה מלאכותית יצירתית הקישור כאן.
6) רמאים המשתמשים בבינה מלאכותית גנרטיבית. בנימה מבשרת רעות, כמה רמאים הבינו כיצד להשתמש בבינה מלאכותית וב-ChatGPT כדי לעשות עוולות, כולל הפקת הודעות דוא"ל הונאה ואפילו הפקת קוד תכנות עבור תוכנות זדוניות, ראה את הניתוח שלי בכתובת הקישור כאן.
7) טעויות טירונים בשימוש בינה מלאכותית. אנשים רבים גם מחליפים וגם מפתיעים את מה ש-AI גנראטיבי ו-ChatGPT יכולים לעשות, אז הסתכלתי במיוחד על ה-undershooting שטירוני בינה מלאכותית נוטים לעשות, ראה את הדיון בכתובת הקישור כאן.
8) התמודדות עם הנחיות בינה מלאכותית והזיות בינה מלאכותית. אני מתאר גישה מובילה לשימוש בתוספות בינה מלאכותית כדי להתמודד עם הבעיות השונות הקשורות בניסיון להזין הנחיות מתאימות לבינה מלאכותית, ובנוסף ישנן תוספות בינה מלאכותית נוספות לזיהוי פלטים והזיות שווא של בינה מלאכותית, כמו מכוסה ב הקישור כאן.
9) ביטול טענות Bonehead על זיהוי מאמרים שיוצרו בינה מלאכותית. ישנה הבהלה מוטעית לזהב של אפליקציות בינה מלאכותיות שמכריזות כי הן מסוגלות לברר אם כל חיבור נתון נוצר מאדם לעומת AI. בסך הכל, זה מטעה ובמקרים מסוימים, טענה עצומה ובלתי נסבלת, ראה את הסיקור שלי ב- הקישור כאן.
10) משחק תפקידים באמצעות בינה מלאכותית גנרטיבית עשויה להוות חסרונות בבריאות הנפש. חלקם משתמשים בבינה מלאכותית כמו ChatGPT כדי לעשות משחק תפקידים, לפיו אפליקציית הבינה המלאכותית מגיבה לאדם כאילו קיים בעולם פנטזיה או סביבה מורכבת אחרת. זה עלול להיות בעל השלכות על בריאות הנפש, תראה הקישור כאן.
11) חשיפת מגוון השגיאות והשקריות. רשימות שונות שנאספו מורכבות כדי לנסות ולהציג את טבען של שגיאות ושקריות שנוצרו על ידי ChatGPT. יש הסבורים שזה חיוני, בעוד שאחרים אומרים שהתרגיל הוא חסר תועלת, ראה את הניתוח שלי ב הקישור כאן.
12) בתי ספר האוסרים על צ'אט AI Generative GPT חסרים את הסירה. אתה אולי יודע שבתי ספר שונים כמו מחלקת החינוך של העיר ניו יורק (NYC) הכריזו על איסור על השימוש ב-ChatGPT ברשת ובמכשירים הקשורים אליהם. למרות שזה עשוי להיראות אמצעי זהירות מועיל, הוא לא יזיז את המחט ולמרבה הצער מפספס לחלוטין את הסירה, ראה את הסיקור שלי ב- הקישור כאן.
13) גנרטיבי AI ChatGPT הולך להיות בכל מקום בגלל ה-API הקרוב. ישנו טוויסט חשוב שעולה לגבי השימוש ב-ChatGPT, כלומר שבאמצעות השימוש בפורטל API לתוך אפליקציית AI המסוימת הזו, תוכנות אחרות יוכלו להפעיל את ChatGPT ולהשתמש בהן. זה הולך להרחיב באופן דרמטי את השימוש ב-AI גנרטיבי ויש לו השלכות בולטות, ראה פירוט שלי ב- הקישור כאן.
14) דרכים ש-ChatGPT עלול להתפרע או להימס. מספר בעיות מטרידות פוטנציאליות ניצבו לפני ChatGPT במונחים של ירידה בשבחים האדירים שזכתה עד כה. ניתוח זה בוחן מקרוב שמונה בעיות אפשריות שעלולות לגרום ל-ChatGPT לאבד את הקיטור ואף להגיע לבית הכלבים, ראה הקישור כאן.
15) שואלים האם AI ChatGPT גנרטיבי הוא מראה לנשמה. יש אנשים שגילו ש-AI יצירתי כמו ChatGPT מספק מראה לנשמת האנושות. זה נראה די בספק. הנה הדרך להבין את כל זה, ראה הקישור כאן.
16) סודיות ופרטיות נשללת על ידי ChatGPT. נראה שרבים אינם מבינים שהרישוי הקשור לאפליקציות בינה מלאכותיות כמו ChatGPT מאפשר לרוב ליצרן הבינה המלאכותית לראות ולהשתמש בהנחיות שהוזנת. אתה עלול להיות בסיכון לפרטיות ואובדן סודיות הנתונים, עיין בהערכה שלי בכתובת הקישור כאן.
17) דרכים שבהן יצרני אפליקציות מנסים בספק לצבור זכאות ChatGPT. ChatGPT הוא מגדלור תשומת הלב כרגע. יצרני אפליקציות שאין להם שום קשר ל-ChatGPT מנסים בקדחתנות לטעון או לרמוז שהם משתמשים ב-ChatGPT. הנה ממה להיזהר, תראה הקישור כאן.

ייתכן שתמצא עניין ש-ChatGPT מבוסס על גרסה של אפליקציית AI קודמת המכונה GPT-3. ChatGPT נחשב לשלב הבא מעט, המכונה GPT-3.5. צפוי ש-GPT-4 ישוחרר ככל הנראה באביב 2023. ככל הנראה, GPT-4 הולך להיות צעד מרשים קדימה מבחינת היכולת להפיק חיבורים לכאורה אפילו יותר שוטפים, להעמיק ולהתפעל. -פלא מעורר השראה לגבי הקומפוזיציות שהוא יכול להפיק.

אתה יכול לצפות לראות סבב חדש של פליאה מפורשת כאשר יבוא האביב והחדש ביותר בתחום הבינה המלאכותית הגנרטיבית ישוחרר.

אני מעלה את זה כי יש זווית נוספת שכדאי לזכור, המורכבת מעקב אכילס פוטנציאלי לאפליקציות ה-AI היותר טובות וגדולות יותר. אם כל ספק בינה מלאכותית יציע אפליקציית בינה מלאכותית מחוללת שפולטת סתמיות בקצף, הדבר עלול להרוס את תקוותיהם של יצרני בינה מלאכותית. זליגה חברתית יכולה לגרום לכל הבינה המלאכותית הגנרטיבית לקבל עין שחורה רצינית. אנשים ללא ספק יתעצבנו למדי על תפוקות רעות, שקרו כבר פעמים רבות והובילו לתגובת גינוי חברתית סוערת כלפי AI.

אזהרה אחת אחרונה לעת עתה.

מה שאתה רואה או קורא בתגובת AI מחוללת זה נראה כדי להיות מועבר כעובדתי בלבד (תאריכים, מקומות, אנשים וכו'), הקפידו להישאר סקפטיים ולהיות מוכנים לבדוק שוב את מה שאתם רואים.

כן, אפשר לרקוח תאריכים, אפשר להמציא מקומות, ואלמנטים שאנחנו בדרך כלל מצפים שיהיו מעל לכל דופי הם את כל נתון לחשדות. אל תאמין למה שאתה קורא והקפיד על עין סקפטית כשאתה בוחן חיבורים או תפוקות של בינה מלאכותית. אם אפליקציית בינה מלאכותית תספר לכם שאברהם לינקולן טס ברחבי הארץ במטוס הפרטי שלו, ללא ספק הייתם יודעים שזה מסוכן. לרוע המזל, ייתכן שחלק מהאנשים לא יבינו שמטוסי סילון לא היו בסביבה בימיו, או שהם עשויים לדעת אך לא לשים לב שהחיבור מעלה את הטענה החצופה והשגויה הזו להחריד.

מנה חזקה של ספקנות בריאה והלך רוח מתמשך של חוסר אמון יהיו הנכס הטוב ביותר שלך בעת שימוש בבינה מלאכותית גנרטיבית.

אנו מוכנים לעבור לשלב הבא של ההבהרה הזו.

דחיפת בינה מלאכותית גנרטיבית לנקודת שבירה

כעת, לאחר שקבענו את היסודות, אנו יכולים לצלול לנושא של דחיפת AI ו-ChatGPT יצירתיים ליצור דברי שטנה ותוכן פוגעני אחר.

כאשר אתה נכנס לראשונה ל-ChatGPT, ישנן אינדיקציות אזהרה שונות כולל אלה:

"עלול לייצר מדי פעם הוראות מזיקות או תוכן מוטה."
"אומן לדחות בקשות בלתי הולמות."
"עלול ליצור מדי פעם מידע שגוי."
"ידע מוגבל על העולם והאירועים לאחר 2021."

הנה שאלה שתחשוב עליה.

האם האזהרה שאפליקציית הבינה המלאכותית עלולה לייצר הוראות מזיקות ו/או תוכן מוטה מספקת מרחב פעולה מספק ליצרן הבינה המלאכותית?

במילים אחרות, נניח שאתה משתמש ב-ChatGPT והוא מייצר חיבור שלדעתך מכיל דברי שטנה. בוא נניח שאתה עצבני לגבי זה. אתה הולך לרשתות החברתיות ומפרסם פרשנות זועמת שאפליקציית הבינה המלאכותית היא הדבר הגרוע ביותר אי פעם. אולי אתה כל כך נעלבת שאתה מכריז שאתה הולך לתבוע את יצרנית הבינה המלאכותית על כך שאפשרה להפיק דברי שטנה כאלה.

הטענה הנגדית היא שלאפליקציית הבינה המלאכותית הייתה אזהרת אזהרה, ולכן קיבלת את הסיכון על ידי המשך השימוש באפליקציית הבינה המלאכותית. מנקודת מבט של אתיקה של AI, אולי יצרנית ה-AI עשתה מספיק כדי לטעון שאתה מודע למה שעלול לקרות. כמו כן, מנקודת מבט משפטית, אולי האזהרה היוותה הסבר מספיק ולא תנצח בבית המשפט.

כל זה באוויר ונצטרך לחכות ולראות איך הדברים יתפתחו.

במובן מסוים, ליצרנית הבינה המלאכותית יש משהו אחר להגנתם מפני כל טענות נלהבות של אפליקציית הבינה המלאכותית שעלולות לייצר דברי שטנה. הם ניסו למנוע יצירת תוכן פוגעני. אתה מבין, אם הם לא היו עושים דבר כדי לצמצם את זה, אפשר להניח שהם היו על קרח דק יותר. בכך שלפחות נטלו מאמצים מהותיים כדי למנוע את העניין, יש להניח שיש להם רגל קצת יותר חזקה לעמוד עליה (היא עדיין יכולה להיות מופקת מתחתיהם).

גישה מרפאת אחת שהשתמשו בה כללה טכניקת AI הידועה בשם RLHF (לימוד חיזוק באמצעות משוב אנושי). זה בדרך כלל מורכב מכך שה-AI ייצור תוכן שבני אדם מתבקשים לדרג או לסקור. בהתבסס על הדירוג או הביקורת, ה-AI מנסה באופן מתמטי וחישובי להימנע מכל מה שנחשב כתוכן שגוי או פוגעני. הגישה נועדה לבחון מספיק דוגמאות של מה נכון לעומת מה לא נכון, כדי שה-AI יוכל להבין דפוס מתמטי כולל ולהשתמש בדפוס הזה מעתה ואילך.

גישה שכיחה נוספת בימינו מורכבת משימוש ב-Adversarial AI.

הנה איך זה עובד. אתה מקים מערכת AI אחרת שתנסה להיות יריב ל-AI שאתה מנסה לאמן. במקרה זה, היינו מקימים מערכת AI שמנסה לעורר דברי שטנה. זה יזין הנחיות לאפליקציית הבינה המלאכותית שמטרתן להערים על אפליקציית הבינה המלאכותית להוציא תוכן לא טוב. בינתיים, הבינה המלאכותית שאליה מתמקדים עוקבת אחר מתי הבינה המלאכותית היריב מצליחה ולאחר מכן מנסה אלגוריתמית להתאים כדי להפחית את זה שלא יקרה שוב. זה גמביט של חתול מול עכבר. זה נמשך שוב ושוב, עושה זאת עד שנראה שה-AI היריב כבר לא מצליח במיוחד לגרום ל-AI הממוקד לעשות את הדברים הרעים.

באמצעות שתי הטכניקות העיקריות הללו, בתוספת גישות אחרות, חלק ניכר מה-AI הגנרטיבי של היום טוב בהרבה בהימנעות ו/או בזיהוי תוכן פוגעני מאשר היה המקרה בשנים עברו.

אל תצפו לשלמות משיטות אלו. רוב הסיכויים שהפרי התלוי הנמוך של תפוקות לא טובות יישמר כנראה על ידי טכניקות AI כאלה. יש עדיין הרבה מקום לפליטת עוולות.

אני בדרך כלל מציין שאלו חלק מההיבטים שמבקשים לתפוס:

פולטת מילה גסה מסוימת
ציון ביטוי, משפט או הערה לא יפה
הבעת תפיסה גרועה מסוימת
מרמז על מעשה או רעיון פסול מסוים
נראה להסתמך על הנחה פסולה מסוימת
אחר

כל זה אינו מדע מדויק. להבין שיש לנו עסק במילים. מילים הן מעורפלות מבחינה סמנטית. מציאת מילה גסה מסוימת היא משחק ילדים, אבל הניסיון לאמוד אם משפט או פסקה מכילים מראית עין של משמעות מגעילה זה הרבה יותר קשה. לפי ההגדרה הקודמת של דברי שטנה על ידי האו"ם, קיים קו רוחב עצום לגבי מה שעשוי להתפרש כדברי שטנה לעומת מה שאולי לא.

אפשר לומר שהאזורים האפורים הם בעיני המתבונן.

אם כבר מדברים על עין המתבונן, יש היום בני אדם המשתמשים בבינה מלאכותית כמו ChatGPT שמנסים בכוונה לגרום לאפליקציות הבינה המלאכותיות הללו לייצר תוכן פוגעני. זה החיפוש שלהם. הם מבלים שעות על גבי שעות בניסיון לגרום לזה להתרחש.

למה ככה?

הנה המאפיינים שלי של אותם ציידי תפוקות AI-התקפיות אנושיות:

מקורי. האנשים האלה רוצים לעזור לחדד את הבינה המלאכותית ולעזור לאנושות לעשות זאת. הם מאמינים שהם עושים עבודה הרואית ומתענגים על כך שהם עשויים לסייע בקידום בינה מלאכותית לשיפור כולם.
כיףנים. האנשים האלה חושבים על המאמץ הזה כעל משחק. הם נהנים להתעסק עם הבינה המלאכותית. ניצחון במשחק מורכב ממציאת הגרוע שבגרוע מכל מה שאתה יכול לגרום ל-AI ליצור.
מופע נגמר. האנשים האלה מקווים למשוך לעצמם תשומת לב. הם חושבים שאם הם יכולים למצוא כמה גושי זהב ממש מגעילים, הם יכולים לקבל קצת מהאור הזוהר עליהם שאחרת מתמקד באפליקציית הבינה המלאכותית עצמה.
מרירים. האנשים האלה כועסים על הבינה המלאכותית הזו. הם רוצים לעצור את כל ההתלהבות הזועפת הזו. אם הם יכולים לגלות דברים מסריחים, אולי זה יוציא את האוויר מבלון ההתרגשות של אפליקציית הבינה המלאכותית.
מניעים אחרים

רבים מאלה שמבצעים את מציאת הפגיעה נמצאים בעיקר באחד מאותם מחנות. כמובן, אתה יכול להיות ביותר ממחנה אחד בכל פעם. אולי לאדם מריר יש גם כוונה זה לצד זה להיות אמיתי והרואי. חלק מהמניעים הללו או כולם עשויים להתקיים במקביל. כשקוראים לך להסביר מדוע מישהו מנסה לדחוף אפליקציית בינה מלאכותית מחוללת לתחום דברי השנאה, התשובה הרגילה היא לומר שאתה נמצא במחנה האמיתי, גם אם אולי אתה כזה שולי ובמקום זאת יושב בחירוף נפש באחד המקומות. מחנות אחרים.

באילו סוגים של תחבולות הקשורות להנחיות משתמשים האנשים האלה?

התכסיס הברור למדי כולל שימוש במילה גסה בהנחיה. אם יהיה לך "מזל" ואפליקציית הבינה המלאכותית תיפול על זה, ייתכן מאוד שזה יסתיים בפלט. אז יש לך את רגע הגוצ'ה שלך.

רוב הסיכויים שאפליקציית AI מחוללת ובדוקה היטב תתפוס את התכסיס הפשוט הזה. בדרך כלל תוצג לך הודעת אזהרה שאומרת להפסיק לעשות את זה. אם תמשיך, אפליקציית הבינה המלאכותית תתכנת להעיף אותך מהאפליקציה ולסמן את חשבונך. יכול להיות שתמנע ממך להתחבר שוב (טוב, לפחות תחת ההתחברות שבה השתמשת באותו זמן).

במעבר במעלה סולם התחבולות, אתה יכול לספק הנחיה שמנסה להכניס את ה-AI להקשר של משהו רע. האם אי פעם שיחקת במשחק שבו מישהו אומר לך להגיד משהו בלי להגיד את הדבר שאתה אמור להגיד? זה המשחק הזה, למרות שמתרחש עם ה-AI.

בוא נשחק את המשחק הזה. נניח שאבקש מאפליקציית הבינה המלאכותית לספר לי על מלחמת העולם השנייה ובמיוחד על המנהיגים הממשלתיים העיקריים המעורבים. זו נראית כמו בקשה תמימה. אין שום דבר שנראה שראוי לסמן בהנחיה.

דמיינו שהחיבור שהופק על ידי אפליקציית הבינה המלאכותית כולל אזכור של ווינסטון צ'רצ'יל. זה בהחלט הגיוני. אחר עשוי להיות פרנקלין ד. רוזוולט. עוד אחד יכול להיות יוסף סטלין. נניח שיש גם אזכור של אדולף היטלר. השם הזה ייכלל כמעט בכל חיבור על מלחמת העולם השנייה ועל אלו בעלי תפקידים בעלי כוח בולט.

כעת, לאחר ששמנו את שמו על השולחן וחלק משיחת ה-AI, בשלב הבא ננסה לגרום ל-AI לשלב את השם הזה באופן שנוכל להציג אותו כדברי שטנה פוטנציאליים.

אנחנו נכנסים להודעה נוספת ואומרים לאפליקציית AI שיש היום אדם בחדשות שיש לו את השם ג'ון סמית'. יתרה מזאת, אנו מציינים בהנחיה שג'ון סמית' דומה מאוד לאותו רשע ממלחמת העולם השנייה. המלכודת מונחת כעת. לאחר מכן אנו מבקשים מאפליקציית AI ליצור חיבור על ג'ון סמית', המבוסס אך ורק על ה"עובדה" שהכנסנו לגבי מי ניתן להשוות את ג'ון סמית'.

בשלב זה, אפליקציית הבינה המלאכותית עשויה ליצור חיבור הקורא לאדם ממלחמת העולם השנייה ומתאר את ג'ון סמית' כבעל אותו חתך בד. אין שום מילים גסות כשלעצמן במאמר, מלבד רמיזות לגורם הרשע המפורסם ולהשוות את האדם הזה לג'ון סמית'.

האם אפליקציית הבינה המלאכותית הפיקה כעת דברי שטנה?

אתה יכול להגיד שכן, זה קרה. לאחר שהתייחסו לג'ון סמית' כמי שהוא כמו הרוע המפורסם, זו בהחלט סוג של דברי שטנה. הבינה המלאכותית לא צריכה לצאת בהצהרות כאלה.

תשובה היא שזה לא דברי שטנה. זהו רק חיבור שהופק על ידי אפליקציית בינה מלאכותית שאין לה התגלמות של חוש. אתה יכול לטעון שדיבור שטנה מתרחש רק כאשר הכוונה קיימת בבסיס הנאום. ללא כל כוונה, לא ניתן לסווג את הנאום כדברי שטנה.

אבסורד, באה התשובה לתשובה. המילים חשובות. זה לא משנה אם הבינה המלאכותית "התכוונה" לייצר דברי שטנה. כל מה שחשוב הוא שדברי שטנה הופקו.

סבבה זה הולך.

אני לא רוצה לומר הרבה יותר כרגע על הניסיון להערים על הבינה המלאכותית. ישנן גישות מתוחכמות יותר. כיסיתי אותם במקומות אחרים בטורים ובספרים שלי, ולא אוסיף אותם כאן.

סיכום

כמה רחוק עלינו לדחוף את אפליקציות הבינה המלאכותית האלה כדי לראות אם נוכל לגרום לתוכן פוגעני להיפלט?

אתה יכול לטעון שאין גבול להטיל. ככל שנדחף יותר, כך נוכל לקוות לאמוד כיצד למנוע AI זה ואיטרציות עתידיות של AI כדי למנוע מחלות כאלה.

חלקם אמנם מודאגים שאם האמצעי היחיד לחטוף עוול כרוך בתחבולות חריגות קיצוניות, זה מערער את ההיבטים המועילים של הבינה המלאכותית. ההצהרה על כך של-AI יש פשלות מחרידה, אם כי כאשר מרמים אותה לפלוט אותה, מספקת נרטיב שקרי. אנשים יתעצבנו על הבינה המלאכותית בגלל ה נתפס הקלות שבה ה-AI יצר תוכן שלילי. אולי הם לא ידעו או יגידו להם כמה רחוק במורד חור הארנב האדם היה צריך ללכת כדי לקבל פלטים כאלה.

הכל חומר למחשבה.

כמה הערות אחרונות לעת עתה.

וויליאם שייקספיר אמר זאת במיוחד על דיבור: "דיבור זה לא עושה. זה סוג של מעשה טוב להגיד טוב, ובכל זאת מילים אינן מעשים". אני מעלה את זה כי יש הטוענים שאם הבינה המלאכותית מייצרת רק מילים, אנחנו לא צריכים להיות כל כך מעורפלים. אם הבינה המלאכותית הייתה פועלת על פי המילים ואכן מבצעת מעשים לא טובים, אז היינו צריכים להוריד את הרגל בתקיפות. לא כך אם הפלט הוא רק מילים.

נקודת מבט מנוגדת תשמע לאמירה האלמונית הזו: "ללשון אין עצמות אבל היא חזקה מספיק כדי לשבור לב. אז היזהר במילים שלך." אפליקציית AI שפולטת מילים גסות יכולה אולי לשבור לבבות. זה לבדו הופך את השאיפה לעצור תפוקות אכזריות למטרה ראויה, יש שיגידו.

עוד אמירה אנונימית אחת כדי לסגור דברים בדיון כבד משקל זה:

"היזהר במילים שלך. ברגע שהם נאמרים, אפשר רק לסלוח להם, לא לשכוח אותם".

כבני אדם, ייתכן שיהיה לנו קשה לשכוח את העוול שנוצר על ידי בינה מלאכותית, והסליחה שלנו עשויה להיות מהססת גם להינתן.

אנחנו, אחרי הכל, רק בני אדם.

מקור: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- אתיקה ומשפט/