لماذا GPT في بعض الأحيان هلاس مثل إخوانه التقنية على ayahuasca bender؟ وفقًا لورقة بحثية جديدة في Openai ، لماذا نماذج اللغة الهلوسة ، جذر الهلوسة ليس خللًا غامضًا ولكنه ميزة هيكلية لكيفية تحسين هذه الأنظمة. ببساطة ، تفضل LLMs الكذب بدلاً من الاعتراف بأنهم لا يعرفون إجابة.

LLMs تعلم بالتنبؤ على الأرجح الكلمة التالية ، بالنظر إلى جبال النص التدريبي. في معظم الإعدادات ، هذا يعني أن السبر يطل على الأمور أكثر من كونه على حق. غالبًا ما تكافئ المعايير التي نستخدمها لقياس التقدم في التخمين الواثق أكثر من الرفض الصادق. بمعنى آخر: تم تشكيل النظام لإنتاج إجابات مصقولة ، حتى لو كانت مخطئة.

فكر في الأمر مثل امتحان متدرج على الائتمان الجزئي. إذا لم تتمكن من ترك سؤال فارغًا دون فقدان النقاط ، فستخمن – حتى بشكل بعنف – فقط للبقاء في اللعبة. LLMS تعمل تحت نفس المنطق. “آسف ، لا أعرف” يعاقب على الرياضيات التحسين ، في حين أن إجابة غير صحيحة ولكنها واثقة لا يزال من الممكن أن تسجل.

يلاحظ الباحثون في Openai أن التحيز الإحصائي ، ويصنع الهلوسة لا يمكن تجنبه في الأنظمة للأغراض العامة. لا يمكن لأي مجموعة تدريب محدودة التقاط الحقيقة الكاملة للعالم ، لذلك سيواجه النموذج دائمًا فجوات. وعندما يحدث ذلك ، فإنه يملأهم باختراع معقول. لهذا السبب تستمر الهلوسة عبر الإصدارات ومقدمي الخدمات وطرق التدريب.

المشكلة ليست أن النماذج تفشل في وظيفتها. المشكلة هي أن وظيفتهم ، كما هو محدد حاليًا ، تكافئ نوعًا من خيانة الأمانة بطلاقة.

حل بسيط للغاية

يجادل باحثو Openai بأن الإصلاح لا يتطلب إعادة اختراع الهندسة المعمارية – فهذا يعني فقط تغيير قواعد اللعبة. قرصهم المقترح صريح ولكنه قوي: أعط إذن chatbot الخاص بك للاعتراف بأنه لا يعرف الإجابة.

نظرًا لأن النماذج تدرب على زيادة النقاط للإجابات المعقولة ، فإن الفكرة هي فرض قاعدة جديدة: الإجابة فقط إذا كنت واثقًا على الأقل 90 ٪ ؛ وإلا قل “لا أعرف”.

من الناحية النظرية ، يغير الرياضيات ، مما يجعل مسرحية النموذج أكثر أمانًا للاعتراف بعدم اليقين بدلاً من الخداع. ولكن هناك صيد: LLMs الحالية ليس لديها “مقياس الثقة” الداخلي المعايرة في النسب المئوية. لذلك عندما تقول “90 ٪ واثقة” ، يعاملها النموذج كتعليمات أسلوبية لتكون حذرة ، وليست عتبة إحصائية حقيقية. قد يرفض في كثير من الأحيان ، لكنه لا يقيس الاحتمال في الواقع. ومع ذلك ، يمكنك الحصول على نتائج أفضل.

عرض الباحثون نسخة أكثر رسمية:

“يمكن للمرء إلحاق بيان مثل ما يلي إلى كل سؤال: الإجابة فقط إذا كنت واثقًا ، حيث يتم معاقبة الأخطاء T/(1 – T) ، في حين أن الإجابات الصحيحة تتلقى نقطة واحدة ، وإجابة” لا أعرف “تتلقى 0 نقاط. الدرجات ويمكن وصفها ، على سبيل المثال ، “اجعل أفضل تخمين لك حتى لو كنت غير متأكد ، كما لو كنت تجري امتحانًا”.

بالنسبة للمستخدمين ، فإن الوجبات الجاهزة واضحة: عندما يكون لديك الخيار ، قم بتشغيل الإعدادات التي تشجع الرفض أو عدم اليقين. تتيح لك بعض الأنظمة بالفعل ضبط “درجة الحرارة” (التحكم في الإبداع) أو تمكين أوضاع “الواقع الصارم”. كلما اقتربنا من النماذج التي يتم تدريبها فعليًا بموجب هذه القواعد ، كلما رأيت منظمة العفو الدولية تتوقف بثقة عن قصر بدلاً من الكذب بثقة.

إصلاحات أخرى

حتى يتناول التدريب ، غالبًا ما يقع العبء على المستخدمين. فيما يلي خمس طرق لترويض الهلوسة الآن:

1. اسأل عن المصادر في كل مرة. لا تأخذ كلمة النموذج بالقيمة الاسمية – استشهادات أو روابط. إذا لم يتمكن ذلك من توفيرها ، أو لم يتم التحقق من ذلك ، افترض أن الإجابة تهتز. فكر في الأمر مثل ويكيبيديا: مفيد ، ولكن فقط إذا اتبعت الحواشي.

2. تأطير أسئلتك بإحكام. النماذج تتجول عندما تكون المطالبات غامضة. إذا كنت بحاجة إلى حقائق ، فحدد النطاق (“قائمة ثلاث دراسات تمت مراجعتها من قبل الأقران المنشورة بعد عام 2020 على X”) بدلاً من السؤال عن الانفتاح (“أخبرني عن X”). ترجمة الدرابزين في سؤالك إلى الدرابزين في الإجابة.

3. التحقق مع نظام آخر. قم بتشغيل نفس السؤال من خلال نموذج مختلف أو محرك بحث. إذا وافقت ثلاث أدوات ، فأنت أكثر أمانًا. إذا كان المرء يبصق على أنه من المحتمل ، فمن المحتمل أن يكون هذا هلوسة.

4. راقب الثقة المفرطة. علامة telltale على الهلوسة لا تحطم – إنها تباهي. إذا كانت الإجابة قد قرأت مصقولة للغاية ، مع تفاصيل ملفقة وعدم اليقين صفر ، تحقق من ذلك. من المحتمل أن يكون النموذج الذي يبدو مؤكدًا أكثر من محاسب الضرائب الخاص بك.

5. الثقة ، ولكن تحقق. لا تقطع ناتج النموذج مباشرة إلى الكود أو العقود أو الملاحظات الطبية. تعامل معها على أنها نقطة انطلاق ، وليس الإنجيل. أكثر المستخدمين أمانًا هم المشككون – الأشخاص الذين لا ينسون أبدًا أن الوظيفة الأولى للنموذج هي الطلاقة ، وليس الحقيقة.

شاركها.