ChatGPT הוא טוב במדעי הרוח אבל חומק במדעים מדויקים; להבין את המבחן שבוצע עם בחינת האנם

על פי בדיקה שבוצעה על ידי DeltaFolha, ה ChatGPTכי OpenAI, הוא הצליח במבחן אנם, רק החליק בבחינות המדויקות. בינה מלאכותית השיגה ציון ממוצע של 612,3 במבחנים האובייקטיביים של Enem, על פני 98,9% מהסטודנטים במדעי הרוח ו-95,3% בשפות ובקודים.

הניתוח בחן את הציון של כל קורס והראה כי בינה מלאכותית תתפקד היטב ב"אנם", אך הביצועים שלה במתמטיקה נחשבו נמוכים, והשיג ממוצע של 443,1 נקודות, מתחת לממוצע של 527,1 מועמדים אנושיים. מצד שני, מדעי האדם, באופן מוזר, נלקחו על ידי הטכנולוגיה. בסימולציה, ממוצע הבינה המלאכותית היה 725,3, גבוה מ-523,3 נקודות של מתחרים אמיתיים.

פִּרסוּם

עבור 70% מהאנשים בארצות הברית, ChatGPT אמין, כך עולה ממחקר
עבור 70% מהאנשים בארצות הברית, ChatGPT אמין, כך עולה ממחקר

המתודולוגיה השתמשה במבחני Enem מחמש השנים האחרונות

ההערכה של ה ChatGPT התבסס על תגובות בינה מלאכותית ממבחנים שנעשו בחמש השנים האחרונות, וענה על 1.290 שאלות. המתודולוגיה ששימשה במבחן הייתה Item Response Theory. מודל מתמטי זה שאומץ על ידי Enem מנבא פריטים מכוילים לפי פרמטרים של אפליה, קושי והסתברות לפגיעה אקראית, כפי שמסופר על ידי DeltaFolha. 

A פולה חישב את הציון הסופי של ChatGPT, תוך שימוש בניתוח הסטנדרטי של Inep, שבו המכונה ענתה על כל שאלה פעם אחת בלבד, ללא דוגמאות קודמות, תוך ציון החלופה שנחשבה לנכונה.

למרות שהוא הצטיין במדעי האדם ובשפות ובקודים, ה ChatGPT הציג ביצועים נמוכים במתמטיקה, מה שעלול להוות מכשול בפני כניסה לקורסים פופולריים באוניברסיטאות הפדרליות הראשיות במדינה. למרות זאת, בינה מלאכותית השיגה ציון ממוצע של 608,7 ב-Enem, טוב יותר מזה שקיבלו 79% מהסטודנטים באותה שנה, בצירוף לציון החיבור.

פִּרסוּם

קראו גם:

לגלול מעלה