يزعم باحثو Openai أنهم قاموا بتكسير واحدة من أكبر العقبات أمام أداء نموذج اللغة الكبير – الهلوسة.
الهلوسة تحدث عندما يولد نموذج لغة كبير معلومات غير دقيقة يعرضها كحقيقة. هم طاعون LLMs الأكثر شعبية ، من Openai's GPT-5 إلى كلود الأنثروبري.
إن الاكتشاف الأساسي لـ Openai ، والذي نشره في ورقة صدر يوم الخميس ، هو أن نماذج اللغة الكبيرة هي الهلوسة لأن الأساليب التي تم تدريبها تحت مكافأة تخمين أكثر من الاعتراف بعدم اليقين.
وبعبارة أخرى ، يتم إخبار LLMS بتزييفه حتى يصنعها. بعضها أفضل من الآخرين ، ولكن. في منشور مدونة الشهر الماضي ، قال Openai إن نماذج Claude “تدرك أكثر من عدم اليقين وغالبًا ما تتجنب الإدلاء ببيانات غير دقيقة”. كما لاحظت أن معدلات الرفض المرتفعة لكلود تخاطر بحد فائدتها.
وكتب الباحثون في الورقة: “تستمر الهلوسة بسبب الطريقة التي يتم بها تصنيف معظم التقييمات-يتم تحسين نماذج اللغة لتكون مخدرين اختبار جيد ، والتخمين عندما يحسن غير مؤكد أداء الاختبار”.
تكون نماذج اللغة الكبيرة دائمًا في “وضع الاختبار” ، حيث تجيب على الأسئلة كما لو كان كل شيء في الحياة ثنائيًا-صحيح أو خطأ ، أسود أو أبيض.
من نواح كثيرة ، لا يتم تجهيزهم لحقائق الحياة ، حيث يكون عدم اليقين أكثر شيوعًا من اليقين ، والدقة الحقيقية ليست معطاة.
وكتب الباحثون: “يتعلم البشر قيمة التعبير عن عدم اليقين خارج المدرسة ، في مدرسة القطع الصلبة. من ناحية أخرى ، يتم تقييم نماذج اللغة في المقام الأول باستخدام الامتحانات التي تعاقب عدم اليقين”.
والخبر السار هو أن هناك حلًا ، وأنه يتعلق بإعادة تصميم مقاييس التقييم.
وكتبوا “المشكلة الجذرية هي وفرة التقييمات التي لا تتوافق”. “يجب تعديل التقييمات الأولية العديدة للتوقف عن معاقبة الامتناع عن الامتناع عن الامتناع عن الاعتراض عندما يكون غير مؤكد.”
في منشور مدونة حول الورقة ، وضعت Openai على ما يستتبعه هذا النوع من التعديل.
وقالت أوبياي: “يجب تحديث EVALs المستخدمة على نطاق واسع القائمة على الدقة بحيث يشجع تسجيلها على التخمين. إذا كانت لوحات النتائج الرئيسية تستمر في مكافأة التخمينات المحظوظة ، فستستمر النماذج في التعلم للتخمين”.
لم يرد Openai على الفور على طلب للتعليق من Business Insider.