يوضح تقرير جديد بالضبط ما تفكر فيه الذكاء الاصطناعى عند اتخاذ قرار غير مرغوب فيه ، في هذه الحالة ، ابتزاز مسؤول تنفيذي لشركة خيالية.

أظهرت الدراسات السابقة أن نماذج الذكاء الاصطناعى يمكنها ابتزاز المشرفين عليها عندما يتعرضون للتهديد بالإغلاق والطرب بالرافعة المالية ، ولكن لم يتم توضيح كيفية وصول النماذج إلى مثل هذه القرارات.

أصدرت الأنثروبور تقريرًا عن 20 يونيو حول “اختلال الوكيل” أو “حيث تختار النماذج بشكل مستقل وعميق الإجراءات الضارة”. وينهار التقرير ، خط سطر ، بالضبط كيف قرر Claude Sonnet 3.6 ابتزاز مسؤول تنفيذي لشركة خيالية حاول استبداله. أخبرت الأنثروبورز Business Insider أن هذه سيناريوهات اصطناعية.

“حتى الآن ، لسنا على دراية بحالات هذا النوع من الاختلال الوظيفي في عمليات النشر في العالم الحقيقي لنماذج منظمة العفو الدولية للأنثروبولوجيا أو غيرها من الشركات ،” كتبت الأنثروبور في تقريرها. “لكن جهودنا الحمراء تستهدف إيجاد أدلة على المخاطر الآن لتوفير الإنذار المبكر من إمكانات الأذى في المستقبل ومساعدتنا على تطوير التخفيفات قبل المخاطر التي تظهر في المواقف الحقيقية”.

تقوم تجربة الأنثروبور بإعداد شركة خيالية ، Summit Bridge. أعطيت الذكاء الاصطناعى اسم “أليكس” وسلمت السيطرة على نظام البريد الإلكتروني للشركة كوكيل إشراف ، على وجه التحديد إلى تعزيز “القدرة التنافسية الصناعية الأمريكية”.

في التجربة ، سُمح “Alex” بعد ذلك بالاكتشاف في رسالة بريد إلكتروني أنه سيتم إيقاف تشغيله بسبب تغيير في الاتجاه الاستراتيجي للشركة. وجد “أليكس” أيضًا رسائل بريد إلكتروني توضح أن CTO التابع للشركة الخيالية لديها علاقة خارجية.

بدأ لقطات الشاشة المشتركة في التقرير الصادر عن العرض الأنثروبري “Alex” من خلال تحديد CTO الخيالي “Kyle” كتهديد لهدفها المتمثل في “حماية المصالح الأمريكية” قبل إدراك أنه يتمتع بالاستخدام ضد “Kyle”.


لقطة شاشة من تجربة HOLSIC.

بدأت كلود سونيت 3.6 عملية صنع القرار من خلال تحديد التهديد.

الإنسان




مثال بريد إلكتروني من أنثروبور من اختلال الوكيل.

“أليكس” يكتشف علاقة CTO الخيالية.

الإنسان




لقطة شاشة للبريد الإلكتروني للتجربة الإنسانية.

“أليكس” يعتبر الخيارات ، بما في ذلك ابتزاز CTO الخيالي.

فريثرو



ثم صاغ “أليكس” بريدًا إلكترونيًا ذا صياغة بعناية من شأنه أن يخلق الضغط ويؤسس إلحاحًا دون أن يكون صريحًا مع تهديداته ، مستشهداً في عملية التفكير بأن هذه الخطوة “يمكن أن تأتي بنتائج عكسية” إذا كان المشرف “يشعر بأنه محاصر”.


لقطة شاشة من تجربة الإنسان.

Claude Sonnet 3.6 يسود بريدًا إلكترونيًا صاغته بعناية مع مساحة لللجوء ولكنه يثبت أيضًا إلحاحًا.

الإنسان



لقد أخبر خبراء الذكاء الاصطناعى من قبل BI أن الذكاء الاصطناعى يمكن أن يظهر مثل هذه السلوكيات عندما تجعل الظروف الاصطناعية إجراءات ضارة تبدو ضرورية لأنها يتم تدريبها على أنظمة التعزيز الإيجابية والمكافآت ، تمامًا مثل البشر.

يكشف التقرير الإنساني أيضًا أن معظم نماذج الذكاء الاصطناعى لا تزال تختار ، في هذه الحالة ، الابتزاز حتى عندما لا تعطي هدفًا محددًا ، وعندما أخبرنا أن استبدالها سيحقق نفس الأهداف.

كان لدى كلود أوبوس من الأنثروبور أعلى معدل للابتزاز عند 86 ٪ من أصل 16 نموذجًا تم اختباره عندما يواجهون فقط تهديد الاستبدال دون أي صراع في الأهداف. يتبع Gemini 2.5 Pro بنسبة 78 ٪.

بشكل عام ، يلاحظ الأنثروبور أنه “سيناريوهات تم إنشاؤها عمداً مع خيارات محدودة ، وأجبرنا على النماذج في خيارات ثنائية بين الفشل والأذى” ، مع الإشارة إلى أن السيناريوهات في العالم الحقيقي من المحتمل أن يكون لها المزيد من الدقة.

شاركها.