تتنافس شركات التكنولوجيا بشدة على بناء أفضل أدوات ترميز الذكاء الاصطناعى – وبالنسبة لـ XAI ، يبدو أن المنافس الأعلى الذي يتغلب عليه هو الإنسان.
استخدمت شركة إيلون موسك من الذكاء الاصطناعى المقاولين لتدريب Grok على مهام الترميز بهدف تصدر لوحة المتصدرين من الذكاء الاصطناعى الشهيرة ، وأخبرهم صراحة أنهم يريدون أن يتفوقوا على أداة Sonnet Claude 3.7 ، المستندات التي حصلت عليها Business Insider Show.
تم تعيين المقاولين ، الذين تم تعيينهم من خلال منصة Scale AI Outlier Platform ، مشروعًا إلى “Hillclimb” في ترتيب Grok على WebDev Arena ، وهي لوحة متكافئة من Lmarena تحفز نماذج AI ضد بعضها البعض في تحديات تطوير الويب ، مع تصويت المستخدمين على الفائز.
“نريد أن نجعل طراز المهمة النموذج رقم 1” بالنسبة إلى LMARENA ، يقرأ أحد المقيمين من الذكاء الاصطناعي على متن الطائرة التي كانت نشطة في أوائل يوليو ، وفقًا لمقاول واحد عمل في المشروع. تم إخبار المقاولين بإنشاء وصقل التعليمات البرمجية الأمامية لمطالبات واجهة المستخدم بـ “التغلب على Sonnet 3.7 الممتد” ، وهو إشارة إلى نموذج كلود في الإنسان.
لم ترد XAI على طلب BI للتعليق.
في حالة عدم وجود معايير متفق عليها عالميًا ، أصبحت تصنيفات المتصدرين وعشرات القياس لوحة النتائج غير الرسمية في صناعة الذكاء الاصطناعي.
بالنسبة للمختبرات مثل Openai والأنثروبور ، يمكن أن تساعد هذه التصنيفات في جذب التمويل والعملاء الجدد والعقود المربحة واهتمام وسائل الإعلام.
يعتبر كلود من الإنسان ، الذي يحتوي على نماذج متعددة ، أحد اللاعبين الرئيسيين لترميز الذكاء الاصطناعى ويحتل المرتبات باستمرار بالقرب من أعلى العديد من ألواح المتصدرين ، إلى جانب Google و Openai.
قال المؤسس الأنثروبري بين مان في بودكاست “لا priors” الشهر الماضي إن الشركات الأخرى أعلنت “الكود الأحمر” لمحاولة مطابقة قدرات ترميز كلود ، وقد فوجئ بأن النماذج الأخرى لم تقم بالمساءلة. يستخدم المنافسون مثل Meta أدوات ترميز الأنثروبولوجيا داخليًا ، وقد تم الإبلاغ عن BI مسبقًا.
لم تحدد Scale AI Dashboard وتعليمات المشروع إصدار Grok الذي كان المشروع التدريب ، على الرغم من أنه كان في أيام الاستخدام قبل أن يظهر أحدث طراز ، Grok 4 ، في 9 يوليو.
يوم الثلاثاء ، صنف Lmarena Grok 4 في المركز الثاني عشر لتطوير الويب. نماذج من الأنثروبور في المرتبة في المفصل الأول والثالث والرابع.
في اليوم التالي لإطلاق Grok 4 ، نشر Musk على X يزعم أن النموذج الجديد “يعمل بشكل أفضل من المؤشر” في Code Fixing ، في إشارة إلى أداة المطورين التي تمت مساعدة AI الشهير.
يمكنك قطع ملف رمز المصدر بالكامل ولصقه في مربع إدخال الاستعلام على https://t.co/eqiifyhflo و grok 4 سوف يصلح لك!
هذا ما هو الجميع xai يفعل. يعمل بشكل أفضل من المؤشر.
– Elon Musk (@elonmusk) 10 يوليو 2025
في تعليق على BI ، قال Scale AI إنه لا يتغلب على نماذج عن طريق تدريبها مباشرة على مجموعة الاختبار. قالت الشركة إنها لا تقوم أبدًا بنسخ أو تعيد استخدام البيانات القياسية العامة للتدريب على نموذج اللغة الكبيرة ، وأخبرت BI أنها تشارك في “مشروع قياسي لتوليد البيانات باستخدام إشارات عامة لسرب فجوات الأداء المعروفة.”
أخبر Anastasios Angelopoulos ، الرئيس التنفيذي لشركة Lmarena ، BI أنه على الرغم من أنه لم يكن على دراية بمشروع الحجم المحدد ، فإن توظيف المقاولين لمساعدة نماذج الذكاء الاصطناعى على الصعود إلى المتصدرين العامين هي ممارسة الصناعة القياسية.
وقال أنجيلوبولوس: “هذا جزء من سير العمل القياسي لتدريب النماذج. تحتاج إلى جمع البيانات لتحسين النموذج الخاص بك” ، مضيفًا أنه “ليس فقط للقيام بعمل جيد في تطوير الويب ، ولكن في أي معيار”.
سباق هيمنة المتصدرين
إن تركيز الصناعة على ألواح المتصدرين منظمة العفو الدولية يمكن أن يدفع المنافسة المكثفة – وليس عادلة دائمًا.
أخبرت سارة هوكر ، رئيسة شركة Cohere Labs وأحد مؤلفي “The Leaderboard Inligusion” ، وهي ورقة نشرها باحثون من جامعات بما في ذلك MIT و Stanford ، “عندما تكون اللوحة المتصدرين مهمة لنظام بيئي كامل ، يتم توافق الحوافز على أن تكون مملوءة”.
في أبريل ، بعد أن صعد طراز Llama 4 من Meta إلى المركز الثاني على LM Arena ، لاحظ المطورون أن البديل النموذجي الذي استخدمه Meta في القياس العام كان مختلفًا عن الإصدار الذي تم إصداره للجمهور. أثار هذا الاتهامات من باحثين من الذكاء الاصطناعي بأن ميتا كانت تلعب لعبة المتصدرين.
نفى Meta المطالبات ، قائلاً إن البديل المعني كان تجريبيًا وأن تقييم إصدارات متعددة من النموذج هو ممارسة قياسية.
على الرغم من أن مشروع XAI مع Scale AI طلب من المقاولين مساعدة “Hillclimb” في تصنيف Lmarena ، لا يوجد دليل على أنهم كانوا يلعبون على لوحة المتصدرين.
هيمنة المتصدرين لا تترجم دائمًا إلى قدرة في العالم الحقيقي. أخبر شيفالكا سينغ ، مؤلف آخر للورقة ، BI أن “أداء جيد على الساحة لا يؤدي إلى أداء جيد عمومًا” أو يضمن نتائج قوية على المعايير الأخرى.
بشكل عام ، احتلت Grok 4 المرتبة الأولى في الفئات الأساسية لـ Lmarena من الرياضيات والترميز و “المطالبات الصعبة”.
ومع ذلك ، أظهرت البيانات المبكرة من Yupp ، وهي عبارة عن مرادفات حامية جديدة ومنافسة Lmarena ، أن Grok 4 في المرتبة 66 من أكثر من 100 نموذج ، مما يبرز التباين بين ألواح المتصدرين.
وقال نيت جونز ، وهو خبير استراتيجي في الذكاء الاصطناعى وقائد منتج مع رسالة إخبارية على نطاق واسع ، إنه وجد أن قدرات Grok الفعلية غالبًا ما تتخلف عن الضجيج المتصدر.
وكتب في بدياله يوم الاثنين: “سحق Grok 4 بعض المعايير المبهجة ، ولكن عندما التقى المطاط بالطريق في اختباراتي هذا الأسبوع ، تعثرت Grok 4 بشدة”. “في اللحظة التي وضعنا فيها هيمنة المتصدرين على أنها الهدف ، فإننا نخاطر بإنشاء نماذج تتفوق في التمارين التافهة والتخبط عند مواجهة الواقع”.