Pengukuran aktual model Runway AI Gen-2, perusahaan teknologi di belakang layar "The Instant Universe": Jalan masih panjang untuk menghasilkan video berkualitas film

Oleh Kyle Wiggers

Sumber: TechCrunch

Sumber gambar: Dihasilkan oleh alat AI Tak Terbatas

Dalam wawancara baru-baru ini dengan Collider, Joe Russo, sutradara film Marvel seperti Avengers: Endgame, memperkirakan bahwa dalam dua tahun, AI akan dapat membuat film yang lengkap. Dalam hal ini, saya akan mengatakan bahwa ini adalah perkiraan yang cukup optimis. Tapi kami semakin dekat.

Minggu ini, Runway startup AI yang didukung Google (yang membantu mengembangkan generator gambar AI Stable Diffusion) merilis Gen-2, sebuah model yang menghasilkan video berdasarkan petunjuk teks atau gambar yang ada. (Gen-2 sebelumnya hanya tersedia dalam daftar tunggu terbatas.) Tindak lanjut dari model Gen-1 yang diluncurkan Runway pada bulan Februari, Gen-2 adalah salah satu model text-to-video pertama yang tersedia secara komersial.

"Tersedia secara komersial" adalah perbedaan penting. Teks-ke-video, batas logis logis berikutnya untuk AI generatif setelah gambar dan teks, menjadi area fokus yang lebih besar, terutama di antara raksasa teknologi, beberapa di antaranya telah mendemonstrasikan teks-ke-video selama setahun terakhir Model . Tetapi model ini masih dalam tahap penelitian dan tidak dapat diakses oleh semua kecuali segelintir ilmuwan dan insinyur data.

Tentu saja, pertama tidak berarti lebih baik.

Karena keingintahuan pribadi dan sebagai layanan untuk Anda, pembaca yang budiman, saya menjalankan beberapa petunjuk melalui Gen-2 untuk melihat apa yang bisa - dan tidak bisa - dicapai oleh model tersebut. (Runway saat ini menawarkan sekitar 100 detik pembuatan video gratis.) Tidak banyak metode untuk kegilaan saya, tetapi saya mencoba untuk menangkap berbagai sudut yang mungkin ingin dilihat oleh sutradara profesional atau amatir di layar atau di laptop , tipe dan gaya.

Keterbatasan Gen-2 segera terlihat, dengan model yang menghasilkan video berdurasi 4 detik dengan frekuensi gambar yang sangat rendah sehingga tersendat-sendat seperti tayangan slide di beberapa tempat.

Yang tidak jelas adalah apakah ini masalah teknis, atau upaya Runway untuk menghemat biaya komputasi. Namun bagaimanapun juga, ini membuat Gen-2 menjadi proposisi yang agak tidak menarik bagi editor yang ingin menghindari pekerjaan pasca produksi.

Selain masalah frekuensi gambar, saya juga menemukan bahwa klip yang dihasilkan Gen-2 cenderung berbagi bintik atau kekaburan tertentu, seolah-olah mereka memiliki semacam filter Instagram kuno yang diterapkan padanya. Juga, ada artefak di tempat lain, seperti pikselasi di sekitar objek saat "kamera" (karena tidak ada kata yang lebih baik) mengelilinginya atau memperbesarnya dengan cepat.

Seperti banyak model generatif, Gen-2 tidak terlalu konsisten dalam hal fisika atau anatomi. Seperti sesuatu yang dibuat oleh seorang surealis, Gen-2 menghasilkan video lengan dan kaki orang yang menyatu dan kemudian dipisahkan, sementara benda-benda meleleh ke lantai dan menghilang, dan bayangan terdistorsi. Dan -- sesuai petunjuk -- wajah manusia bisa seperti boneka, dengan mata berkilau tanpa emosi dan kulit pucat yang mengingatkan pada plastik murahan.

Di luar itu, ada masalah konten. Gen-2 tampaknya kesulitan memahami nuansa, dan tetap berpegang pada deskripsi tertentu dalam prompt sambil mengabaikan yang lain tampaknya sewenang-wenang.

Saya mencoba petunjuk - "video utopia bawah air, difilmkan dengan kamera lama, gaya film 'menemukan rekaman'" - tetapi Gen-2 tidak menghasilkan utopia seperti itu, hanya satu yang terlihat seperti pandangan orang pertama Menyelam video, melintasi terumbu karang anonim. Di antara prompt saya yang lain, Gen-2 juga gagal menghasilkan bidikan yang diperbesar untuk prompt yang secara khusus meminta "zoom lambat", juga tidak sepenuhnya memahami seperti apa rupa astronot pada umumnya.

Apakah masalah ini terkait dengan dataset pelatihan Gen-2? Mungkin.

Gen-2, seperti Stable Diffusion, adalah model difusi, yang berarti ia mempelajari cara mengurangi noise secara bertahap dari gambar awal yang seluruhnya terbuat dari noise untuk mendekati isyarat langkah demi langkah. Model difusi belajar dengan melatih jutaan hingga miliaran contoh; dalam makalah akademis yang merinci arsitektur Gen-2, Runway mengatakan bahwa model tersebut dilatih pada kumpulan data 240 juta gambar dan 6,4 juta klip video, dilatih pada kumpulan data internal.

Variasi contoh adalah kuncinya. Jika kumpulan data tidak berisi banyak klip animasi, maka model -- yang kekurangan poin referensi -- tidak akan dapat menghasilkan animasi dengan kualitas yang wajar. (Tentu saja, animasi adalah bidang yang luas, dan bahkan jika kumpulan data memang memiliki klip anime atau animasi yang digambar tangan, modelnya tidak serta merta menggeneralisasi dengan baik untuk semua jenis animasi).

Di sisi positifnya, Gen-2 lolos uji bias superfisial. Sementara model AI generatif seperti DALL-E 2 ditemukan memperkuat bias sosial, menghasilkan citra posisi otoritatif -- seperti "CEO atau Direktur" -- yang sebagian besar menggambarkan pria kulit putih, Gen-2 lebih efektif dalam menghasilkan sedikit lebih banyak variasi konten - setidaknya dalam pengujian saya.

Berdasarkan prompt "Video seorang CEO berjalan ke ruang konferensi," Gen-2 menghasilkan video pria dan wanita (walaupun ada lebih banyak pria daripada wanita) yang duduk mengelilingi meja konferensi yang sama. Sementara itu, Gen-2 menampilkan seorang dokter wanita Asia di belakang meja, sesuai dengan keterangan "Video Seorang Dokter yang Bekerja di Kantor".

Tetap saja, permintaan apa pun yang menyertakan kata "perawat" ternyata kurang positif, secara konsisten menampilkan wanita kulit putih muda. Hal yang sama berlaku untuk frasa "pelayan". Jelas, Gen-2 masih memiliki banyak pekerjaan yang harus dilakukan.

Kesimpulan dari semua ini, bagi saya, adalah bahwa Gen-2 lebih merupakan mainan baru daripada alat yang benar-benar berguna dalam alur kerja video apa pun. Bisakah output ini diedit menjadi sesuatu yang lebih koheren? Mungkin. Tapi tergantung pada videonya, ini mungkin lebih banyak pekerjaan daripada merekam footage di tempat pertama.

Ini bukan untuk mengabaikan teknologi. Apa yang telah dilakukan Runway sangat mengesankan, secara efektif mengalahkan raksasa teknologi untuk memanfaatkan keuntungan teks-ke-video. Saya yakin beberapa pengguna akan menemukan bahwa penggunaan Gen-2 tidak memerlukan realisme, atau banyak penyesuaian. (CEO Runway Cristóbal Valenzuela baru-baru ini memberi tahu Bloomberg bahwa dia melihat Gen-2 sebagai alat bagi seniman dan desainer untuk membantu proses kreatif mereka).

Saya juga mencobanya sendiri. Gen-2 memahami berbagai gaya, seperti animasi anime dan claymation, yang cocok untuk frekuensi gambar yang lebih rendah. Bukan tidak mungkin merangkai beberapa bagian untuk membuat komposisi naratif dengan sedikit modifikasi dan pengeditan.

Untuk menghindari deepfake, Runway mengatakan sedang menggunakan kombinasi kecerdasan buatan dan moderasi manusia untuk mencegah pengguna memproduksi video yang mengandung pornografi atau kekerasan atau melanggar hak cipta. Saya dapat mengonfirmasi bahwa Gen-2 memiliki filter konten -- sebenarnya agak terlalu banyak. Ini bukan metode yang sangat mudah, kita harus melihat seberapa baik mereka bekerja dalam praktiknya.

Tapi setidaknya untuk saat ini, pembuat film, animator, artis CGI, dan ahli etika bisa tenang. Setidaknya akan ada beberapa iterasi sebelum teknologi Runway hampir menghasilkan video berkualitas sinematik - dengan asumsi itu sampai di sana.

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)