הטענה כי מחשב 'עבר' מבחן טיורינג היה שטויות

השבוע, עולם הטכנולוגיה השתגע כל כך מעט מהתרגשות מהחדשות, עד כי מחשב -על לראשונה השיג את מה שחלק מהאמין שאולי לעולם לא יתאפשר: הוא עבר את מבחן טיורינג. מכונה מדהימה הצליחה איכשהו לשכנע את בני האדם - אנשים אמיתיים וחיים עם מוח מתפקד - שגם זה היה אנושי, באמצעות שיחה מוקלדת. 33% מהשופטים שהעריכו את יכולותיה היו ככל הנראה משוכנעים.

כמו כלי חדשות רבים אחרים - מCNETאֶלהעצמאיוכןהוושינגטון פוסט- מצאנו את עצמנו מסוחררים על הסיכוי המרתק של בינה מלאכותית לבוא סוף סוף, ומיהרנולפרסם מאמרלשתף חדשות אלה עם העולם. אבל עכשיו כשעולת ההתרגשות נרגעת, מתברר שההנאה שלנו הייתה מוקדמת.

להתחיל עם, כמוחולצת טקהערות, מחשב העל הגדול הוא בכלל לא מחשב -על. זה צ'אט בוט, וזה לא מתוחכם במיוחד. אלה שהצליחו להשתמש בזה - והם מעטים באופן מפתיע, מאז האתר שמארח אותו הוטל על ידי קשיים טכניים כמעט קבועים מאז ההכרזה - שימו לב שהתגובות שלה לרוב השאלות הן חלשות, במקרה הטוב.

מרבית המנסים לקיים אינטראקציה עם 'יוג'ין גוסטמן' לא ראו דבר מלבד הודעות שגיאה

שאל את זה שאלה פשוטה, כמו "מה שלומך?" ותקבלו תגובה פשוטה, אך תשאלו את זה משהו מסובך יותר, והתגובות שלו נסחפות במהירות לתגובות נוקשות, משודרות ברמזים מאולצים של 'אישיות', או צירים לא מתוחכמים כדי למשוך אותך מהנושאים שאינם מצוידים איתם. קחו למשל חילופי דברים זה-תעתיק בפועל של שיחה עליה ביסס שופט 'רשמי' את הערכתו כי צ'אט בוט זה היה למעשה ילד בן 13 בשם יוג'ין גוסטמן:

כל שיחה עם יוג'ין. זה מסוג הדברים שעליו החליטו שופטי מבחן טיורינג:https://t.co/Nikkmy3yhs pic.twitter.com/OHDP2WAMCQ
- אלכסהרן(@alexhern)9 ביוני 2014

המספרים במיוחד הם החילופים האחרונים בקטע זה. בשעה 16:14:41, השופט משתתף במילה; 'יוג'ין' עונה באומר לשופט לקחת שיעורי הקלדה; זה אולי נשמע כמו תגובה חצופה, אך סביר להניח שזה ניסיון מעורפל של ה- ChatBot להסוות את העובדה שהוא לא מסוגל להבין חקירה המכילה הקלדה מינורית מאוד. התגובה הבאה הופכת את זה ליותר ברור מאליו - השופט אומר 'יוג'ין' שזה היה די גס רוח להציע להקליד שיעורים, אליו עונה הצ'אט בוט שזה פשוט לא הבין את השאלה - מבולבל בסימן השאלה שלא במקומו של השופט.

למען האמת, אף אחד מהחלפה אינו משכנע מאוד, וקשה לדמיין שכל מי שיש לו שני תאי מוח לשפשף יחד יכול להאמין ברצינות שזה יכול להיות בן אנוש אמיתי.

אך גורם מכריע אחד עשוי להסביר מדוע שופטים אלה - או לפחות שליש מהם - עשויים להיות משוכנעים. יוג'ין גוסטמן לא נועד להיות רק ילד בן 13; הוא אאוקראיניילד בן 13, מדבר אנגלית, שפה זרה לשפת אמו. לא יהיה זה הוגן להניח שמישהו מאותו גיל יוכל לדבר אנגלית ללא רבב כשפה זרה, כך שאולי במוחם של השופטים, אשר יסביר את הניסוחים מעט חריגים של הצהרות מסוימות, והתגובה המוזרה מדי פעם, נכון?

בין השופטים היה רוברט לואללין, שגילם את קריטן המכניד
בסיטקום של BBC 'גמד אדום' (תמונה דרךאיזו תרבות)

הבעיה בהנחה זו היא שעל ידי כך שאומרים לשופטים שהם מדברים עם נער מתבגר צעיר מאוקראינה, המבחן הופך מיד לוטה; השופטים הופכים להיות בעלי סיכוי גבוה יותר להוריד את ציפיותיהם, ויעשו קצבאות למוזרות בשיחה. זה כמו לבקש ממישהו לשפוט את הביצועים התיאטרליים שלך, אבל להבהיר את זה מאוד, ללא תנאים לא בטוחים, שיש לך רק זמן מוגבל לחזרה. יש לו פוטנציאל ברור לעוות לחלוטין את התפיסות, וכך, התוצאה בסופו של דבר.

בכיסויו,הסףדיווחו כי ולדימיר וסלוב, מהנדסי המחשבים שפיתחו 'יוג'ין', נראה כי הוא מכיר בכך שמדובר בגורם כיצד נוצר ושפוט המבחן. ווסלוב הצהיר: "הרעיון המרכזי שלנו היה שהוא יכול לטעון שהוא יודע משהו, אבל גילו גם הופך את זה לסביר לחלוטין שהוא לא יודע הכל."

אבל הבעיות לא מסתיימות שם. קחו בחשבון את העובדה שלא הייתה בדיקת עמיתים של הטענות שהועלו. חלוף אבן דרך כה משמעותית בוודאי ראוי לבחון את המומחים העולמיים המובילים בתחום, ובכל זאת לא היה אימות כזה. גם לא הייתה שום הזדמנות להעריך את ההוגנות של בדיוק אופן ביצוע הבדיקה - רק אהודעה לעיתונותוקבע כי 'מחשב העל' נשפט, יחד עם טענה מעורפלת כלשהי כי המבחן "אומת באופן עצמאי", אך ללא הצהרה על מי שמאמת במדויק את התהליך, וגם לא אם היו כשיר להעריך ביקורת כזו.

המדען הקוגניטיבי החישובי ג'ושוע טננבאום, מהמכון הטכנולוגי של מסצ'וסטס (MIT) - מומחה בפועל בתחום - אמרקווי: "אין שום דבר בדוגמה הזו להתרשם ממנה."גארי מרקוסמוביל מדען קוגניטיבי ב- NYU, כתב כי "Chatterbots כמו Goostman יכול לקיים שיחה קצרה על טלוויזיה, אבל רק על ידי בלוף ... אבל שום תוכנית קיימת - לא [IBM] ווטסון, לא גוסטמן, לא [של אפל] סירי - לא יכולה להתקרב כרגע לעשות כל מה שהבהיר, מתבגר אמיתי, יכול לעשות: לצפות בפרק של 'Simpssons', וללמר על צחוק."

זה חושף אולי את הפגם הגדול ביותר בטענות שמבחן טיורינג 'עבר'. גם אם אנו מניחים שהצ'ט -בוט הצליח למדי להטעות שליש מהשופטים בתנאי בדיקה סבירים, יש הבדל גדול בין היכולת להגיב לפניות המבוססות על הערכת שפה, לבין קוגניציה ממשית לבין 'מחשבה' מלאכותית שיכולה לחקור משמעויות, לבחון תת -שיניים ולהבין את העולם בכל דרך משמעותית.

פרופסור קווין וורוויק (תמונה דרךTeinteresa.es)

לבסוף, כפי שמסביר TechDirt, האינדיקטור הבולט ביותר שהדברים רחוקים ממה שהם נראים - או ליתר דיוק, רחוק מאיך שהם היומוצג- הוא מארגן המבחן עצמו, קווין וורוויק, פרופסור אורח באוניברסיטת רדינג, המוסד שדרכו שוחרר הודעה לעיתונות. וורוויק, כך נראה, יש הרבה צורה בתחום הטענות המדעיות החיצוניות.

בשנת 1998 הוא טען שהוא היהסייבורג הראשון בעולם, לאחר שקיבל שבב RFID שהושתל בזרועו, איתו הצליח לבצע משימות כמו פתיחת דלתות ושליטה על אורות. ציין פרסום טק בריטי, הקופה כינה אותו במהירות "פנטזיסט-אובססיבי בתקשורת", והיהמקטלג את מעלליומאז.

כתוב הרבה כי עיתונאית טכנולוגית מנוסה ומוערכת כמו מרי ברנסקומבה צייצה זאת ברגע שהבינה מי עומד מאחורי יוג'ין גוסטמן טוענת:

אה, מבחן טיורינג 'מעבר' היה עוד פעלול של קווין וורוויק. *אֲנָחָה*
- מריBranscombe(@marypcbuk)9 ביוני 2014

עם הבדיקה העדינה ביותר, אז, בית הקלפים - שנבנה סביב הטענות הללו כי מבחן טיורינג הוכה - קרס לחלוטין. משקל הספק סביב הטענות גדול מכדי להתעלם מכדי להתעלם, ובהיעדר אימות עצמאי משמעותי או כל מישורים משמעותיים מאחוריהם, אי אפשר להעניק להם אמון אמיתי.

יום אחד, אולי - ואולי אפילו מוקדם יותר מכפי שאנו חושבים - אכן ניתן לעבור את מבחן טיורינג. אבל היום הזה, כך נראה, עדיין לא עלינו.

לְעַדְכֵּן:פרופסור וורוויקהגיב בדף הפייסבוק של Neowinלהגיב למאמר זה ולתקן היבט אחד בו. הוא אמר כי "יש טענה שהשופטים נאמר כי הם ישוחחו עם מכונה המתחזה כילד אוקראיני. זה שקרי לחלוטין. לא נאמר להם דבר כזה." הוא גם אמר כי "נראה כי המאמר מפספס לחלוטין את הנקודה שכל זה קשור למבחן טיורינג. זה דורש השוואה ישירה עם אדם נסתר בכל מבחן, זה לא רק על בחירת חורים בתגובת המחשב."

אמנם אנו מכירים במלואם בתיקון של פרופסור וורוויק בנוגע לקביעה כי לא נאמר לשופטים כי המכונה מתחזה כילד אוקראיני, אך אנו גורסים כי המבחן עדיין פגום עמוק מכל הסיבות האחרות שנאמרו ועוד.

לדוגמה, פרופסור וורוויק טוען כי הבדיקה השווה באופן ספציפי את התגובות בין המכונה לאדם נסתר; האם האדם הנסתר היה גם ילד אוקראיני בן 13 עם כישורי שפה אנגלית דומים? או האם האדם הנסתר היה מבוגר שדיבר אנגלית כשפה ראשונה, אך מי ניסה לחקות ילד מאותו גיל? או משהו אחר לגמרי? איכות התגובות האנושיות חשובה לא פחות מאלה שהוחזרו על ידי המכונה אם יש לטעון שהבדיקה התבססה על השוואה הוגנת בין השניים.

זו בדיוק הסיבה שבגללה סקירת עמיתים עצמאית - לבחון גורמים אלה ואחרים - היא מרכיב כה מכריע וחיוני של הצהרה מדעית עם השפעה מסיבית שעלולה להיות. בחירה ובחירת הצהרות ספציפיות להגיב בעמוד הפייסבוק של אאוטלט חדשות אינה זהה לתת לקהילה המדעית את האפשרות לבחון כראוי את הממצאים, ואת האמצעים שבהם נבדקו.

אכן, העובדה שפרופסור וורוויק אפילו חש צורך לתקן אותנו בהיבט אחד של אופן ביצוע הבדיקה חושפת בדיוק את חוסר השקיפות בממצאים שהופכים את ההכרזה על תוצאה כל כך לבעייתית, והיא מספרת כי עדיפות לתיקון אי -נכונה על ממצאים, על ממצאים, על ממצאים נכונים.

ובעוד שפרופסור וורוויק עשוי בכל זאת לראות את הערכתנו כבלתי הוגנת, היא משותפת לא רק על ידי המדענים המצוטטים במאמר, אלא רבים אחרים חוץ מזה; כמו גם על ידי מספר הולך וגדל של ארגוני חדשות שכמנו, לקחו כעת את הזמן לבחון את הטענות מעט יותר קפדניות, כוללמדען חדש-רַכֶּבֶת תַחְתִית-הפוסט ההופינגטון-מבקר עסקי-BuzzFeedוכןסְגָןו

לִשְׁקוֹלדבריו של אלן טיורינג עצמובנושא. טיורינג לא היה משויך בשאלה אם מכונה יכולה לשכנע אדם שהוא גם אנושי רק שליש מהזמן; ובעוד שהעמיד פנים שהוא לא מבוגר בעל אינטליגנציה בוגרת, אלא נער; ולא נער עם יכולת לשונית דומה, אלא המדבר אנגלית כשפה שנייה.

טיורינג נשאל האם אדם המדבר עם מכונה יכול להאמין שהם מדברים עם אנושי "בתדירות גבוהה" כמו כשהם משוחחים בפועל עם אדם אמיתי. זוהי דרך ארוכה וארוכה משכנוע פאנל של שופטים 33% מהזמן, והיא רחוקה מהאזהרות ומיכלון של ביסוס תירוצים במכוון מדוע המכונה עלולה להיכשל לשכנע את בני האדם בכל אמינות משכנעת, על ידי כך שהיא גורמת לו לחקות ילד עם כישורי שפה נחות. כדי להציע ש"יווג'ין גוסטמן "עבר את מבחן טיורינג בתנאים אלה נראה רחוק מרוח המבחן שהגדיר את עצמו.

נראה שפרופסור וורוויק הוא זה שחסר את העניין, לא אנחנו.