اختبار صعب للغاية ولا يستطيع أي نظام ذكاء اصطناعي اجتيازه – حتى الآن
إذا كنت تبحث عن سبب جديد للقلق بشأن الذكاء الاصطناعي، فجرّب هذا: بعض أذكى البشر في العالم يكافحون من أجل إنشاء اختبارات لا تستطيع أنظمة الذكاء الاصطناعي اجتيازها.
لسنوات، تم قياس أنظمة الذكاء الاصطناعي من خلال إعطاء نماذج جديدة مجموعة متنوعة من الاختبارات القياسية الموحدة. يتألف العديد من هذه الاختبارات من مسائل صعبة من عيار SAT في مجالات مثل الرياضيات والعلوم والمنطق. كانت مقارنة نتائج النماذج مع مرور الوقت بمثابة مقياس تقريبي لتقدم الذكاء الاصطناعي.
لكن أنظمة الذكاء الاصطناعي في نهاية المطاف أصبحت جيدة جدًا في تلك الاختبارات، لذلك تم إنشاء اختبارات جديدة أكثر صعوبة، غالبًا مع أنواع الأسئلة التي قد يواجهها طلاب الدراسات العليا في امتحاناتهم.
هذه الاختبارات ليست في حالة جيدة أيضًا. لقد حصلت النماذج الجديدة من شركات مثل OpenAI وGoogle وAnthropic على درجات عالية في العديد من التحديات على مستوى الدكتوراه، مما يحد من فائدة تلك الاختبارات ويؤدي إلى سؤال مخيف: هل أصبحت أنظمة الذكاء الاصطناعي أذكى من أن نتمكن من قياسها؟
هذا الأسبوع، أطلق الباحثون في مركز سلامة الذكاء الاصطناعي ومقياس الذكاء الاصطناعي إجابة محتملة لهذا السؤال: تقييم جديد يسمى “الاختبار الأخير للإنسانية”، والذي يزعمون أنه أصعب اختبار يتم إجراؤه على الإطلاق لأنظمة الذكاء الاصطناعي.
الاختبار الأخير للإنسانية هو من بنات أفكار دان هندريكس، وهو باحث معروف في مجال سلامة الذكاء الاصطناعي ومدير مركز سلامة الذكاء الاصطناعي. (تم تجاهل الاسم الأصلي للاختبار، “الموقف الأخير للإنسانية”، لأنه مثير للغاية.)
عمل السيد هندريكس مع شركة Scale AI، وهي شركة متخصصة في الذكاء الاصطناعي حيث يعمل كمستشار، لتجميع الاختبار الذي يتكون من حوالي 3000 سؤال متعدد الخيارات وإجابة قصيرة مصممة لاختبار قدرات أنظمة الذكاء الاصطناعي في مجالات تتراوح من الفلسفة التحليلية إلى هندسة الصواريخ. .
تم تقديم الأسئلة من قبل خبراء في هذه المجالات، بما في ذلك أساتذة الجامعات وعلماء الرياضيات الحائزين على جوائز، والذين طُلب منهم طرح أسئلة صعبة للغاية يعرفون إجاباتها.
هنا، جرب يدك على سؤال حول تشريح الطائر الطنان من الاختبار:
تتميز الطيور الطنانة الموجودة ضمن Apodiformes بوجود عظم بيضاوي مزدوج ثنائي الشكل، وهو عبارة عن سمسماني مضمن في الجزء الذيلي الوحشي من الصفاق الصليبي الموسع الناتج عن إدخال m. ذيل الخافض. كم عدد الأوتار المزدوجة التي يدعمها هذا العظم السمسماني؟ الإجابة برقم.
أو، إذا كانت الفيزياء هي أكثر سرعتك، جرب هذا:
يتم وضع كتلة على سكة أفقية يمكن أن تنزلق على طولها دون احتكاك. تم ربطه بطرف قضيب صلب عديم الكتلة طوله R. وتم توصيل كتلة في الطرف الآخر. كلا الجسمين لهما وزن W. النظام في البداية ثابت، مع الكتلة مباشرة فوق الكتلة. يتم إعطاء الكتلة دفعة متناهية الصغر، موازية للسكة. افترض أن النظام مصمم بحيث يمكن للقضيب أن يدور 360 درجة كاملة دون انقطاع. عندما يكون القضيب أفقيا، فإنه يحمل الشد T1. عندما يصبح القضيب عموديًا مرة أخرى، وتكون الكتلة أسفل الكتلة مباشرةً، فإنه يحمل الشد T2. (يمكن أن تكون هاتان الكميتان سالبتين، مما يشير إلى أن القضيب في حالة ضغط.) ما قيمة (T1−T2)/W؟
(سأقوم بطباعة الإجابات هنا، ولكن هذا من شأنه أن يفسد اختبار أي أنظمة ذكاء اصطناعي يتم تدريبها على هذا العمود. كما أنني غبي جدًا لدرجة أنني لا أستطيع التحقق من الإجابات بنفسي.)
مرت أسئلة الاختبار الأخير للإنسانية بعملية تصفية من خطوتين. أولاً، تم تقديم الأسئلة المقدمة إلى نماذج الذكاء الاصطناعي الرائدة لحلها.
إذا لم تتمكن النماذج من الإجابة عليها (أو، في حالة أسئلة الاختيار من متعدد، كان أداء النماذج أسوأ من التخمين العشوائي)، تم تقديم الأسئلة إلى مجموعة من المراجعين البشريين، الذين قاموا بتنقيحها والتحقق من الإجابات الصحيحة . تم دفع ما بين 500 إلى 5000 دولار للخبراء الذين كتبوا الأسئلة ذات التصنيف الأعلى لكل سؤال، بالإضافة إلى الحصول على ائتمان للمساهمة في الاختبار.
قدم كيفن تشو، باحث ما بعد الدكتوراه في فيزياء الجسيمات النظرية بجامعة كاليفورنيا في بيركلي، عددًا من الأسئلة للاختبار. تم اختيار ثلاثة من أسئلته، وأخبرني أن جميعها كانت “تتوافق مع النطاق الأعلى لما قد يراه المرء في امتحان الدراسات العليا”.
قال السيد هندريكس، الذي ساعد في إنشاء اختبار ذكاء اصطناعي مستخدم على نطاق واسع يُعرف باسم فهم اللغة متعدد المهام الضخم، أو MMLU، إنه كان مصدر إلهام لإنشاء اختبارات أصعب للذكاء الاصطناعي من خلال محادثة مع إيلون ماسك. (السيد هندريكس هو أيضًا مستشار السلامة لشركة السيد ماسك للذكاء الاصطناعي، xAI.) وقال إن السيد ماسك أثار مخاوف بشأن الاختبارات الحالية المقدمة لنماذج الذكاء الاصطناعي، والتي كان يعتقد أنها سهلة للغاية.
“نظر “إيلون” إلى أسئلة MMLU وقال: “هذه هي المستوى الجامعي.” قال السيد هندريكس: “أريد أشياء يمكن لخبير عالمي أن يفعلها”.
وهناك اختبارات أخرى تحاول قياس قدرات الذكاء الاصطناعي المتقدمة في مجالات معينة، مثل FrontierMath، وهو اختبار طورته شركة Epoch AI، واختبار ARC-AGI تم تطويره بواسطة باحث الذكاء الاصطناعي فرانسوا شوليه.
لكن الاختبار الأخير للإنسانية يهدف إلى تحديد مدى جودة أنظمة الذكاء الاصطناعي في الإجابة على الأسئلة المعقدة عبر مجموعة واسعة من المواضيع الأكاديمية، مما يمنحنا ما يمكن اعتباره درجة ذكاء عامة.
وقال هندريكس: «إننا نحاول تقدير مدى قدرة الذكاء الاصطناعي على أتمتة الكثير من العمل الفكري الصعب حقًا».
بمجرد تجميع قائمة الأسئلة، أعطى الباحثون اختبار Humanity الأخير لستة نماذج رائدة في مجال الذكاء الاصطناعي، بما في ذلك Gemini 1.5 Pro من Google وAnthropic's Claude 3.5 Sonnet. كلهم فشلوا فشلا ذريعا. سجل نظام OpenAI's o1 أعلى نسبة في المجموعة، حيث حصل على 8.3 بالمائة.
(رفعت صحيفة نيويورك تايمز دعوى قضائية ضد شركة OpenAI وشريكتها مايكروسوفت، متهمة إياهما بانتهاك حقوق الطبع والنشر للمحتوى الإخباري المتعلق بأنظمة الذكاء الاصطناعي. وقد أنكرت شركة OpenAI وشركة مايكروسوفت هذه الادعاءات).
وقال هندريكس إنه يتوقع أن ترتفع هذه الدرجات بسرعة، ومن المحتمل أن تتجاوز 50 في المائة بحلول نهاية العام. وقال إنه في تلك المرحلة، يمكن اعتبار أنظمة الذكاء الاصطناعي “كهنة من الطراز العالمي”، قادرة على الإجابة على الأسئلة حول أي موضوع بشكل أكثر دقة من الخبراء البشريين. وقد يتعين علينا أن نبحث عن طرق أخرى لقياس تأثيرات الذكاء الاصطناعي، مثل النظر إلى البيانات الاقتصادية أو الحكم على ما إذا كان بإمكانه تحقيق اكتشافات جديدة في مجالات مثل الرياضيات والعلوم.
قالت سمر يو، من شركة Scale: “يمكنك أن تتخيل نسخة أفضل من هذا حيث يمكننا طرح أسئلة لا نعرف إجاباتها بعد، ونكون قادرين على التحقق مما إذا كان النموذج قادرًا على المساعدة في حلها بالنسبة لنا”. مدير أبحاث منظمة العفو الدولية ومنظم الامتحان.
جزء من الأمر المربك للغاية بشأن تقدم الذكاء الاصطناعي هذه الأيام هو مدى خشونته. لدينا نماذج الذكاء الاصطناعي القادرة على تشخيص الأمراض بشكل أكثر فعالية من الأطباء البشريين، والفوز بالميداليات الفضية في أولمبياد الرياضيات الدولي والتغلب على كبار المبرمجين البشر في تحديات البرمجة التنافسية.
لكن هذه النماذج نفسها تواجه أحيانًا صعوبة في أداء المهام الأساسية، مثل الحساب أو كتابة الشعر الموزون. لقد منحهم ذلك سمعة بأنهم بارعون بشكل مذهل في بعض الأشياء وغير مجدين تمامًا في أشياء أخرى، وقد خلق انطباعات مختلفة تمامًا عن مدى سرعة تحسن الذكاء الاصطناعي، اعتمادًا على ما إذا كنت تنظر إلى أفضل النتائج أو أسوأها.
كما أن هذه الخشونة جعلت قياس هذه النماذج أمرًا صعبًا. كتبت العام الماضي أننا بحاجة إلى تقييمات أفضل لأنظمة الذكاء الاصطناعي. ما زلت أعتقد ذلك. لكنني أعتقد أيضًا أننا بحاجة إلى أساليب أكثر إبداعًا لتتبع تقدم الذكاء الاصطناعي، والتي لا تعتمد على اختبارات موحدة، لأن معظم ما يفعله البشر – وما نخشى أن يفعله الذكاء الاصطناعي بشكل أفضل منا – لا يمكن تسجيله في اختبار كتابي. .
أخبرني السيد تشو، الباحث في فيزياء الجسيمات النظرية الذي قدم أسئلة إلى الاختبار الأخير للإنسانية، أنه على الرغم من أن نماذج الذكاء الاصطناعي كانت مثيرة للإعجاب في كثير من الأحيان في الإجابة على الأسئلة المعقدة، إلا أنه لم يعتبرها تهديدًا له ولزملائه، لأن وظائفهم تنطوي على الكثير أكثر من بصق الإجابات الصحيحة.
وقال: “هناك فجوة كبيرة بين ما يعنيه إجراء الاختبار وما يعنيه أن تكون فيزيائيًا وباحثًا ممارسًا”. “حتى الذكاء الاصطناعي الذي يمكنه الإجابة على هذه الأسئلة قد لا يكون جاهزًا للمساعدة في البحث، وهو بطبيعته أقل تنظيمًا.”
(وسومللترجمة)الذكاء الاصطناعي(ر)الابتكار(ر)الأبحاث(ر)مركز سلامة الذكاء الاصطناعي (CAIS)