أصدرت Openai Sora 2 يوم الثلاثاء ، مع إقران أحدث طراز لتوليد الفيديو مع تطبيق اجتماعي جديد يتيح للمستخدمين إنشاء ومشاركة ونجم في مقاطع تم إنشاؤها من الذكاء الاصطناعي. وصفت الشركة بإصدار خطوة كبيرة إلى الأمام في محاكاة الواقع المادي ، مع النموذج الذي ينتج الآن صوتًا متزامنًا إلى جانب الفيديو لأول مرة.
يمكن للنموذج المحدث إنشاء مقاطع فيديو تعرض تفاعلات مادية معقدة تكافح معها. في بعض الأمثلة ، أنتجت Sora إجراءات الجمباز الأولمبي ، وتراجع الخلفية على ألواح التجديف ، والشخصيات التي تؤدي محاور ثلاثية دون أي تشويه واضح أو تحول. على عكس مولدات الفيديو السابقة التي تنحني الفيزياء لتحقيق مطالبات النص ، تحاول Sora 2 تصميم نتائج واقعية ، بما في ذلك الفشل.
وقالت Openai في إعلانها: “نماذج الفيديو السابقة هي مبالاة – إنها ستحول الكائنات وتشوه الواقع لتنفيذها بنجاح على موجه نص”. سورا 2 “أفضل في طاعة قوانين الفيزياء مقارنة بالأنظمة السابقة.”
يولد النموذج مقاعد صوتية خلفية وكلام ومؤثرات صوتية مباشرة من مطالبات النص. حتى الآن ، كان النموذج الوحيد الذي يحتوي على هذه الإمكانية هو Google’s Veo 3. كما يتولى النظام تسلسلات متعددة اللقطات مع الحفاظ على الاستمرارية عبر تغييرات المشهد والتي تتطلب أيضًا فهمًا كبيرًا لكل من الشخصيات والبيئة.
يبيع Openai Sora 2 باعتباره “GPT-3.5 Moment for Video” ، ومقارنته بنموذج اللغة الذي سبق ChatGPT. مثلت Sora الأصلية ، التي تم إصدارها في فبراير 2024 ، ما أسماه الشركة “لحظة GPT-1”-أول إشارة إلى أن توليد الفيديو بدأ العمل على نطاق واسع.
غادر الكثير من الطرز الأفضل سرعان ما في الغبار ، لدرجة أنه بحلول الوقت الذي قرر فيه Openai إصدار نموذجه ، تمكنت البدائل الصينية من الإخراج بشكل أفضل وأكثر تماسكًا باستخدام المطالبات نفسها.
في الوقت الحالي ، فإن الطريقة الوحيدة لاختبار النموذج هي عن طريق الدعوة عبر تطبيق iOS الجديد ، ببساطة اسمه Sora. على عكس النموذج السابق ، الذي لا يمكن الوصول إليه إلا من خلال موقع ويب ويركز على أجيال الفيديو المعزولة ، يبدو أن التطبيق أكثر تلميعًا وتنوعًا ، حيث يقدم ميزة تسمى “Cameos” تتيح للمستخدمين إدراج أنفسهم في مشاهد تم إنشاؤها.
بعد تسجيل مقطع فيديو قصير للتحقق من الهوية والتقاط المظهر والصوت ، يمكن للمستخدمين الظهور في أي بيئة تم إنشاؤها من قبل SORA. تعمل الميزة للبشر أو الحيوانات أو الأشياء ، والتحكم في المستخدمين الذين يمكنهم استخدام شبههم.
خلال العرض التوضيحي ، قام الفريق في Openai بإنشاء مقاطع فيديو لأنفسهم يضم الإعلانات ، والقيام بالركل ، ويظهر في مواقف مختلفة بأسلوب مشابه لفيديو Tiktok أو بكرة Instagram.
يتضمن التطبيق خلاصة قابلة للتخصيص باستخدام ما وصفه Openai بأنه فئة جديدة من خوارزميات التوصية التي تقبل تعليمات اللغة الطبيعية. يتخلف النظام عن إظهار المحتوى من الأشخاص الذين يتابعونه أو يتفاعلون معه ، وقالت الشركة إنها لا تتحسن للوقت الذي يقضيه التمرير. الآليات المدمجة بشكل دوري استطلاع المستخدمين حول رفاههم وتقديم خيارات لضبط إعدادات التغذية.
بالنسبة للمراهقين ، يتضمن التطبيق حدودًا افتراضية على الأجيال اليومية المرئية في الأذونات والأذواق الأكثر صرامة على النقش. يمكن للآباء الوصول إلى عناصر التحكم من خلال ChatGPT لإدارة حدود التمرير ، وتخصيص الخوارزمية ، وإعدادات الرسائل المباشرة.
سيحافظ المستخدمون على السيطرة الكاملة على حجابهم ، ويمكنهم إلغاء الوصول أو إزالة مقاطع الفيديو التي تحتوي على شبههم في أي وقت. يعرض التطبيق للمستخدمين جميع مقاطع الفيديو التي تعرض حجابهم ، بما في ذلك المسودات التي أنشأها الآخرون والتي لم يتم نشرها.
يتم إطلاق Sora 2 في الولايات المتحدة وكندا من خلال النظام القائم على دعوة ، مع خطط للتوسع السريع في البلدان الأخرى. ستكون الخدمة مجانية مع ما أسماه Openai “الحدود السخية” ، على الرغم من أن هذه تظل خاضعة لقيود حساب. يمكن لمشتركي ChatGpt Pro الوصول إلى إصدار تجريبي عالي الجودة يسمى Sora 2 Pro. تخطط الشركة لإطلاق سراح Sora 2 من خلال واجهة برمجة التطبيقات الخاصة بها ، وستبقي نموذج Sora 1 Turbo السابق متاحًا.
قال Openai إن Sora 2 ستوفر للمستخدمين في النهاية خيار الدفع مقابل الأجيال الإضافية إذا تجاوز الطلب موارد الحوسبة المتاحة.
في الوقت الحالي ، إذا لم يكن لديك رمز دعوة أو iPhone أو ChatGPT Pro ، فإن الخيار الوحيد هو تشغيل VEO 3 المحدود أو استخدام مولدات الفيديو المحلية مثل WAN. هناك أيضًا خيارات أرخص مثل Kling أو Beatance أو Hailuo أو Runway ، ولكن من المؤكد أن جاذبية وجود نموذج فيديو واقعي للغاية مع ميزات الوسائط الاجتماعية هو بالإضافة إلى أنه لا يوجد أي شخص آخر في الصناعة.