القياس الفعلي لنموذج Runway AI Gen-2 ، شركة التكنولوجيا وراء الكواليس لـ "The Instant Universe": لا يزال هناك طريق طويل لنقطعه لإنشاء فيديو بجودة الفيلم
* مصدر الصورة: تم إنشاؤه بواسطة أداة Unbounded AI *
في مقابلة حديثة مع Collider ، توقع Joe Russo ، مدير أفلام Marvel مثل Avengers: Endgame ، أنه في غضون عامين ، سيكون الذكاء الاصطناعي قادرًا على إنشاء فيلم كامل. في هذا الصدد ، أود أن أقول إن هذا تقدير متفائل إلى حد ما. لكننا نقترب.
هذا الأسبوع ، أطلقت شركة AI Startup Runway المدعومة من Google (والتي ساعدت في تطوير مُنشئ صور AI Stable Diffusion) Gen-2 ، وهو نموذج يقوم بإنشاء فيديو بناءً على مطالبات نصية أو صور موجودة. (كان Gen-2 متاحًا في السابق فقط على قائمة انتظار محدودة.) متابعة لطراز Gen-1 الذي أطلقه Runway في فبراير ، كان Gen-2 واحدًا من أوائل نماذج تحويل النص إلى فيديو المتاحة تجاريًا.
"المتاحة تجارياً" هي تمييز مهم. أصبح تحويل النص إلى فيديو ، الحد المنطقي التالي للذكاء الاصطناعي التوليدي بعد الصور والنص ، مجال تركيز أكبر ، لا سيما بين عمالقة التكنولوجيا ، الذين أظهر بعضهم تحويل النص إلى فيديو خلال العام الماضي. . لكن هذه النماذج لا تزال في مرحلة البحث ولا يمكن الوصول إليها إلا لعدد قليل من علماء ومهندسي البيانات.
بالطبع ، أولاً لا يعني الأفضل.
بدافع الفضول الشخصي وكخدمة لك ، عزيزي القارئ ، قمت بإجراء بعض التلميحات من خلال Gen-2 لمعرفة ما يمكن للنموذج - وما لا يستطيع - تحقيقه. (يقدم Runway حاليًا حوالي 100 ثانية من إنشاء الفيديو المجاني.) لا توجد طريقة كثيرة لجنوني ، لكنني أحاول التقاط مجموعة من الزوايا التي قد يرغب المخرجون المحترفون أو الهواة في رؤيتها على الشاشة أو على كمبيوتر محمول ونوعه وأسلوبه.
أصبحت قيود Gen-2 واضحة على الفور ، حيث قام النموذج بإنشاء مقاطع فيديو مدتها 4 ثوانٍ بمعدل إطارات منخفض جدًا لدرجة أنها تتعثر مثل عرض الشرائح في بعض الأماكن.
ما هو غير واضح هو ما إذا كانت هذه مشكلة فنية ، أو محاولة Runway لتوفير التكاليف الحسابية. ولكن في كلتا الحالتين ، فإن هذا يجعل Gen-2 اقتراحًا غير جذاب إلى حد ما للمحررين الذين يتطلعون إلى تجنب أعمال ما بعد الإنتاج.
بصرف النظر عن مشكلات معدل الإطارات ، وجدت أيضًا أن المقاطع التي تم إنشاؤها من الجيل الثاني تميل إلى مشاركة بعض التحبب أو التشويش ، كما لو كان لديها نوع من مرشح Instagram القديم المطبق عليها. أيضًا ، هناك قطع أثرية في مكان آخر ، مثل البكسل حول الكائنات عندما تدور "الكاميرا" (لعدم وجود كلمة أفضل) حولها أو تقوم بتكبيرها بسرعة.
مثل العديد من النماذج التوليدية ، فإن Gen-2 ليس متسقًا بشكل خاص من حيث الفيزياء أو التشريح. مثل شيء من شأنه أن يصنعه أحد السورياليين ، أنتج Gen-2 مقاطع فيديو لأذرع وأرجل أشخاص مدمجة معًا ثم انفصلت ، بينما تذوب الأشياء على الأرض واختفت ، وتشوهت الظلال. كما يمكن أن يكون وجه الإنسان شبيهًا بالدمية ، بعيون لامعة وخالية من المشاعر وبشرة شاحبة تذكرنا بالبلاستيك الرخيص.
أبعد من ذلك ، هناك مسألة المحتوى. يبدو أن الجيل الثاني يواجه صعوبة في فهم الفروق الدقيقة ، والالتزام بأوصاف معينة في المطالبات بينما يتجاهل الآخرين يبدو أمرًا تعسفيًا.
لقد جربت تلميحًا - "مقطع فيديو عن مدينة فاضلة تحت الماء ، تم تصويره بكاميرا قديمة ،" عثر على لقطات "بأسلوب فيلم" - لكن Gen-2 لا يولد مثل هذه المدينة الفاضلة ، فقط واحد يبدو وكأنه مشهد غوص من منظور الشخص الأول فيديو ، عبر شعاب مرجانية مجهولة. من بين محفزاتي الأخرى ، فشل Gen-2 أيضًا في إنشاء لقطة مكبرة للموجه الذي طلب تحديدًا "تكبير بطيء" ، ولم يدرك تمامًا الشكل الذي سيبدو عليه رائد الفضاء العادي.
هل تتعلق هذه المشكلات بمجموعة بيانات التدريب من الجيل الثاني؟ ربما.
Gen-2 ، مثل Stable Diffusion ، هو نموذج انتشار ، مما يعني أنه يتعلم كيفية طرح التشويش تدريجيًا من صورة البداية المكونة بالكامل من الضوضاء للاقتراب من الإشارة خطوة بخطوة. تتعلم نماذج الانتشار من خلال التدريب على الملايين إلى المليارات من الأمثلة ؛ في ورقة أكاديمية توضح تفاصيل بنية الجيل الثاني ، يقول Runway إن النموذج تم تدريبه على مجموعة بيانات من 240 مليون صورة و 6.4 مليون مقطع فيديو.تم تدريبه على مجموعة البيانات الداخلية.
مجموعة متنوعة من الأمثلة هي المفتاح. إذا كانت مجموعة البيانات لا تحتوي على العديد من مقاطع الرسوم المتحركة ، فلن يتمكن النموذج - الذي يفتقر إلى النقاط المرجعية - من إنشاء رسوم متحركة بجودة معقولة. (بالطبع ، الرسوم المتحركة مجال واسع ، وحتى إذا كانت مجموعة البيانات تحتوي على مقاطع من الرسوم المتحركة أو الرسوم المتحركة المرسومة يدويًا ، فلن يكون النموذج بالضرورة معممًا جيدًا لجميع أنواع الرسوم المتحركة).
على الجانب الإيجابي ، اجتاز Gen-2 اختبار التحيز السطحي. بينما وُجد أن نماذج الذكاء الاصطناعي التوليدية مثل DALL-E 2 تعزز التحيزات الاجتماعية ، وتولد صورًا للمناصب الرسمية - مثل "المدير التنفيذي أو المدير" - التي تصور الرجال البيض في الغالب ، كان الجيل الثاني أكثر فاعلية في توليد المزيد تنوع المحتوى - على الأقل في اختباراتي.
استنادًا إلى الرسالة الموجهة "مقطع فيديو لرئيس تنفيذي يسير إلى غرفة اجتماعات" ، أنشأ الجيل الثاني مقاطع فيديو لرجال ونساء (على الرغم من وجود عدد أكبر من الرجال مقارنةً بالنساء) يجلسون حول طاولات اجتماعات مماثلة. وفي الوقت نفسه ، يخرج الجيل الثاني طبيبة آسيوية خلف مكتب ، وفقًا لوصف "فيديو لطبيب يعمل في مكتب".
ومع ذلك ، فإن أي مطالبة اشتملت على كلمة "ممرضة" ظهرت بشكل أقل إيجابية ، حيث أظهرت باستمرار شابات بيض. الشيء نفسه ينطبق على عبارة "نادل". من الواضح أن الجيل الثاني لا يزال لديه الكثير من العمل للقيام به.
والنتيجة من كل هذا ، بالنسبة لي ، هي أن Gen-2 هي لعبة جديدة أكثر من كونها أداة مفيدة حقًا في أي سير عمل فيديو. هل يمكن تحرير هذه المخرجات إلى شيء أكثر تماسكًا؟ ربما. لكن اعتمادًا على الفيديو ، قد يكون هذا عملًا أكثر من تصوير اللقطات في المقام الأول.
هذا لا يعني استبعاد التكنولوجيا. ما فعله Runway مثير للإعجاب ، حيث تغلب بشكل فعال على عمالقة التكنولوجيا للاستفادة من ميزة تحويل النص إلى فيديو. أنا متأكد من أن بعض المستخدمين سيجدون أن استخدامات الجيل الثاني لا تتطلب الواقعية ولا الكثير من التخصيص. (صرح كريستوبال فالينزويلا ، الرئيس التنفيذي لشركة Runway مؤخرًا ، لـ Bloomberg أنه يرى Gen-2 كأداة للفنانين والمصممين للمساعدة في عمليتهم الإبداعية).
أنا أيضا جربتها بنفسي. يفهم Gen-2 مجموعة من الأنماط ، مثل الرسوم المتحركة والرسوم المتحركة claymation ، والتي تعد مناسبة لمعدلات الإطارات المنخفضة. ليس من المستحيل تجميع عدة قطع معًا لإنشاء تكوين سردي مع القليل من التعديل والتحرير.
لتجنب التزييف العميق ، تقول Runway إنها تستخدم مزيجًا من الذكاء الاصطناعي والاعتدال البشري لمنع المستخدمين من إنتاج مقاطع فيديو تتضمن مواد إباحية أو عنف أو تنتهك حقوق النشر. أستطيع أن أؤكد أن Gen-2 يحتوي على مرشح محتوى - كثيرًا جدًا ، في الواقع. هذه ليست طرق مضمونة ، وعلينا أن نرى مدى نجاحها في الممارسة العملية.
لكن في الوقت الحالي على الأقل ، يمكن لصانعي الأفلام ورسامي الرسوم المتحركة وفناني CGI وعلماء الأخلاق أن يرتاحوا بسهولة. سيكون هناك عدد قليل من التكرارات على الأقل قبل أن تقترب تقنية Runway من إنتاج فيديو بجودة سينمائية - بافتراض وصولها إلى هناك.
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
القياس الفعلي لنموذج Runway AI Gen-2 ، شركة التكنولوجيا وراء الكواليس لـ "The Instant Universe": لا يزال هناك طريق طويل لنقطعه لإنشاء فيديو بجودة الفيلم
بقلم كايل ويغرس
المصدر: تك كرانش
في مقابلة حديثة مع Collider ، توقع Joe Russo ، مدير أفلام Marvel مثل Avengers: Endgame ، أنه في غضون عامين ، سيكون الذكاء الاصطناعي قادرًا على إنشاء فيلم كامل. في هذا الصدد ، أود أن أقول إن هذا تقدير متفائل إلى حد ما. لكننا نقترب.
هذا الأسبوع ، أطلقت شركة AI Startup Runway المدعومة من Google (والتي ساعدت في تطوير مُنشئ صور AI Stable Diffusion) Gen-2 ، وهو نموذج يقوم بإنشاء فيديو بناءً على مطالبات نصية أو صور موجودة. (كان Gen-2 متاحًا في السابق فقط على قائمة انتظار محدودة.) متابعة لطراز Gen-1 الذي أطلقه Runway في فبراير ، كان Gen-2 واحدًا من أوائل نماذج تحويل النص إلى فيديو المتاحة تجاريًا.
"المتاحة تجارياً" هي تمييز مهم. أصبح تحويل النص إلى فيديو ، الحد المنطقي التالي للذكاء الاصطناعي التوليدي بعد الصور والنص ، مجال تركيز أكبر ، لا سيما بين عمالقة التكنولوجيا ، الذين أظهر بعضهم تحويل النص إلى فيديو خلال العام الماضي. . لكن هذه النماذج لا تزال في مرحلة البحث ولا يمكن الوصول إليها إلا لعدد قليل من علماء ومهندسي البيانات.
بالطبع ، أولاً لا يعني الأفضل.
بدافع الفضول الشخصي وكخدمة لك ، عزيزي القارئ ، قمت بإجراء بعض التلميحات من خلال Gen-2 لمعرفة ما يمكن للنموذج - وما لا يستطيع - تحقيقه. (يقدم Runway حاليًا حوالي 100 ثانية من إنشاء الفيديو المجاني.) لا توجد طريقة كثيرة لجنوني ، لكنني أحاول التقاط مجموعة من الزوايا التي قد يرغب المخرجون المحترفون أو الهواة في رؤيتها على الشاشة أو على كمبيوتر محمول ونوعه وأسلوبه.
أصبحت قيود Gen-2 واضحة على الفور ، حيث قام النموذج بإنشاء مقاطع فيديو مدتها 4 ثوانٍ بمعدل إطارات منخفض جدًا لدرجة أنها تتعثر مثل عرض الشرائح في بعض الأماكن.
بصرف النظر عن مشكلات معدل الإطارات ، وجدت أيضًا أن المقاطع التي تم إنشاؤها من الجيل الثاني تميل إلى مشاركة بعض التحبب أو التشويش ، كما لو كان لديها نوع من مرشح Instagram القديم المطبق عليها. أيضًا ، هناك قطع أثرية في مكان آخر ، مثل البكسل حول الكائنات عندما تدور "الكاميرا" (لعدم وجود كلمة أفضل) حولها أو تقوم بتكبيرها بسرعة.
مثل العديد من النماذج التوليدية ، فإن Gen-2 ليس متسقًا بشكل خاص من حيث الفيزياء أو التشريح. مثل شيء من شأنه أن يصنعه أحد السورياليين ، أنتج Gen-2 مقاطع فيديو لأذرع وأرجل أشخاص مدمجة معًا ثم انفصلت ، بينما تذوب الأشياء على الأرض واختفت ، وتشوهت الظلال. كما يمكن أن يكون وجه الإنسان شبيهًا بالدمية ، بعيون لامعة وخالية من المشاعر وبشرة شاحبة تذكرنا بالبلاستيك الرخيص.
لقد جربت تلميحًا - "مقطع فيديو عن مدينة فاضلة تحت الماء ، تم تصويره بكاميرا قديمة ،" عثر على لقطات "بأسلوب فيلم" - لكن Gen-2 لا يولد مثل هذه المدينة الفاضلة ، فقط واحد يبدو وكأنه مشهد غوص من منظور الشخص الأول فيديو ، عبر شعاب مرجانية مجهولة. من بين محفزاتي الأخرى ، فشل Gen-2 أيضًا في إنشاء لقطة مكبرة للموجه الذي طلب تحديدًا "تكبير بطيء" ، ولم يدرك تمامًا الشكل الذي سيبدو عليه رائد الفضاء العادي.
هل تتعلق هذه المشكلات بمجموعة بيانات التدريب من الجيل الثاني؟ ربما.
Gen-2 ، مثل Stable Diffusion ، هو نموذج انتشار ، مما يعني أنه يتعلم كيفية طرح التشويش تدريجيًا من صورة البداية المكونة بالكامل من الضوضاء للاقتراب من الإشارة خطوة بخطوة. تتعلم نماذج الانتشار من خلال التدريب على الملايين إلى المليارات من الأمثلة ؛ في ورقة أكاديمية توضح تفاصيل بنية الجيل الثاني ، يقول Runway إن النموذج تم تدريبه على مجموعة بيانات من 240 مليون صورة و 6.4 مليون مقطع فيديو.تم تدريبه على مجموعة البيانات الداخلية.
مجموعة متنوعة من الأمثلة هي المفتاح. إذا كانت مجموعة البيانات لا تحتوي على العديد من مقاطع الرسوم المتحركة ، فلن يتمكن النموذج - الذي يفتقر إلى النقاط المرجعية - من إنشاء رسوم متحركة بجودة معقولة. (بالطبع ، الرسوم المتحركة مجال واسع ، وحتى إذا كانت مجموعة البيانات تحتوي على مقاطع من الرسوم المتحركة أو الرسوم المتحركة المرسومة يدويًا ، فلن يكون النموذج بالضرورة معممًا جيدًا لجميع أنواع الرسوم المتحركة).
استنادًا إلى الرسالة الموجهة "مقطع فيديو لرئيس تنفيذي يسير إلى غرفة اجتماعات" ، أنشأ الجيل الثاني مقاطع فيديو لرجال ونساء (على الرغم من وجود عدد أكبر من الرجال مقارنةً بالنساء) يجلسون حول طاولات اجتماعات مماثلة. وفي الوقت نفسه ، يخرج الجيل الثاني طبيبة آسيوية خلف مكتب ، وفقًا لوصف "فيديو لطبيب يعمل في مكتب".
والنتيجة من كل هذا ، بالنسبة لي ، هي أن Gen-2 هي لعبة جديدة أكثر من كونها أداة مفيدة حقًا في أي سير عمل فيديو. هل يمكن تحرير هذه المخرجات إلى شيء أكثر تماسكًا؟ ربما. لكن اعتمادًا على الفيديو ، قد يكون هذا عملًا أكثر من تصوير اللقطات في المقام الأول.
هذا لا يعني استبعاد التكنولوجيا. ما فعله Runway مثير للإعجاب ، حيث تغلب بشكل فعال على عمالقة التكنولوجيا للاستفادة من ميزة تحويل النص إلى فيديو. أنا متأكد من أن بعض المستخدمين سيجدون أن استخدامات الجيل الثاني لا تتطلب الواقعية ولا الكثير من التخصيص. (صرح كريستوبال فالينزويلا ، الرئيس التنفيذي لشركة Runway مؤخرًا ، لـ Bloomberg أنه يرى Gen-2 كأداة للفنانين والمصممين للمساعدة في عمليتهم الإبداعية).
لتجنب التزييف العميق ، تقول Runway إنها تستخدم مزيجًا من الذكاء الاصطناعي والاعتدال البشري لمنع المستخدمين من إنتاج مقاطع فيديو تتضمن مواد إباحية أو عنف أو تنتهك حقوق النشر. أستطيع أن أؤكد أن Gen-2 يحتوي على مرشح محتوى - كثيرًا جدًا ، في الواقع. هذه ليست طرق مضمونة ، وعلينا أن نرى مدى نجاحها في الممارسة العملية.
لكن في الوقت الحالي على الأقل ، يمكن لصانعي الأفلام ورسامي الرسوم المتحركة وفناني CGI وعلماء الأخلاق أن يرتاحوا بسهولة. سيكون هناك عدد قليل من التكرارات على الأقل قبل أن تقترب تقنية Runway من إنتاج فيديو بجودة سينمائية - بافتراض وصولها إلى هناك.