"The Instant Universe"ün perde arkası teknoloji şirketi Runway AI modeli Gen-2'nin gerçek ölçümü: Film kalitesinde bir video oluşturmak için daha gidilecek çok yol var
Resim kaynağı: Unbounded AI aracı tarafından oluşturulmuştur
Avengers: Endgame gibi Marvel filmlerinin yönetmeni Joe Russo, Collider ile yakın zamanda yaptığı bir röportajda, yapay zekanın iki yıl içinde tam teşekküllü bir film yaratabileceğini tahmin etti. Bu bağlamda, bunun oldukça iyimser bir tahmin olduğunu söyleyebilirim. Ama yaklaşıyoruz.
Bu hafta, Google destekli AI girişimi Runway (AI görüntü oluşturucu Stable Diffusion'ın geliştirilmesine yardımcı oldu), metin istemlerine veya mevcut görüntülere dayalı olarak video oluşturan bir model olan Gen-2'yi piyasaya sürdü. (Gen-2 daha önce yalnızca sınırlı bir bekleme listesinde mevcuttu.) Runway'in Şubat ayında piyasaya sürdüğü Gen-1 modelinin devamı niteliğindeki Gen-2, piyasada bulunan ilk metinden videoya modellerden biriydi.
"Ticari olarak temin edilebilir" önemli bir ayrımdır. Görüntüler ve metinden sonra üretken yapay zeka için bir sonraki mantıksal sınır olan metinden videoya, özellikle bazıları geçen yıl metinden videoya model gösteren teknoloji devleri arasında daha büyük bir odak alanı haline geliyor. . Ancak bu modeller hala araştırma aşamasında ve bir avuç veri bilimci ve mühendis dışında herkes tarafından erişilemez.
Tabii ki, ilk daha iyi anlamına gelmez.
Sevgili okuyucu, kişisel merakımdan ve size bir hizmet olarak, modelin neyi başarabileceğini - ve başaramadığını - görmek için Gen-2'de birkaç ipucu kullandım. (Pist şu anda yaklaşık 100 saniyelik ücretsiz video üretimi sunuyor.) Çılgınlığımın pek bir yöntemi yok, ancak profesyonel veya amatör yönetmenlerin ekranda veya ekranda görmek isteyebilecekleri bir dizi açıyı yakalamaya çalışıyorum. bir dizüstü bilgisayar, türü ve stili.
Gen-2'nin sınırlamaları, modelin kare hızında 4 saniye uzunluğunda videolar üretmesiyle, yer yer bir slayt gösterisi gibi kekeleyerek hemen ortaya çıktı.
Açık olmayan şey, bunun teknik bir sorun mu yoksa Runway'in hesaplama maliyetlerinden tasarruf etme girişimi mi olduğu. Ancak her iki durumda da bu, Gen-2'yi post prodüksiyon çalışmasından kaçınmak isteyen editörler için oldukça itici bir teklif haline getiriyor.
Kare hızı sorunlarının yanı sıra, Gen-2 tarafından oluşturulan kliplerin, sanki üzerlerine bir tür eski moda Instagram filtresi uygulanmış gibi, belirli bir grenliliği veya bulanıklığı paylaşma eğiliminde olduğunu da buldum. Ayrıca, "kamera" (daha iyi bir kelime olmadığı için) nesnelerin etrafından dolandığında veya hızla yakınlaştırdığında nesnelerin etrafındaki pikselleşme gibi başka yerlerde yapaylıklar da vardır.
Birçok üretken model gibi, Gen-2 de fizik veya anatomi açısından özellikle tutarlı değildir. Bir sürrealistin yaratacağı bir şey gibi, Gen-2, insanların kollarının ve bacaklarının birbirine kaynaştığı ve sonra ayrıldığı, nesnelerin zeminde eriyip kaybolduğu ve gölgelerin bozulduğu videolar üretti. Ve - işaret olarak - insan yüzü, parlak, duygusuz gözleri ve ucuz plastiği anımsatan soluk teniyle oyuncak bebek gibi olabilir.
Bunun ötesinde bir de içerik meselesi var. Gen-2, nüansı anlamakta zorlanıyor gibi görünüyor ve istemlerdeki belirli açıklamalara bağlı kalırken diğerlerini görmezden gelmek keyfi görünüyor.
Bir ipucu denedim - "eski bir kamerayla çekilmiş bir su altı ütopyasının videosu, 'bulunan görüntü' film tarzı" - ancak Gen-2 böyle bir ütopya üretmiyor, yalnızca birinci şahıs bakış açısına benzeyen bir ütopya yaratıyor. video, anonim bir mercan resifinin karşısında. Diğer istemlerimin yanı sıra, Gen-2, özellikle "yavaş yakınlaştırma" isteyen bir bilgi istemi için yakınlaştırılmış bir çekim oluşturamadı ve ortalama bir astronotun nasıl görüneceğini tam olarak kavrayamadı.
Bu sorunlar Gen-2 eğitim veri kümesiyle ilgili mi? Belki.
Gen-2, Stable Difusion gibi, bir difüzyon modelidir, yani işarete adım adım yaklaşmak için tamamen gürültüden yapılmış bir başlangıç görüntüsünden gürültüyü kademeli olarak nasıl çıkaracağını öğrenir. Difüzyon modelleri, milyonlarca ila milyarlarca örnek üzerinde eğitim alarak öğrenir; Gen-2 mimarisini detaylandıran akademik bir makalede, Runway, modelin 240 milyon görüntü ve 6,4 milyon video klipten oluşan bir veri kümesi üzerinde ve dahili veri kümesi üzerinde eğitildiğini söylüyor.
Örneklerin çeşitliliği anahtardır. Veri kümesi çok sayıda animasyon klibi içermiyorsa, referans noktalarından yoksun olan model makul kalitede animasyonlar üretemez. (Tabii ki, animasyon geniş bir alandır ve veri kümesinde anime veya elle çizilmiş animasyon klipleri olsa bile, model mutlaka tüm animasyon türlerine genellenemez).
Artı tarafta, Gen-2 yüzeysel önyargı testini geçer. DALL-E 2 gibi üretken yapay zeka modellerinin, çoğunlukla beyaz adamları tasvir eden "CEO veya Direktör" gibi yetkili konumların görüntülerini oluşturarak sosyal önyargıları pekiştirdiği bulunurken, Gen-2 biraz daha fazlasını üretmede daha etkiliydi. içerikte çeşitlilik - en azından testlerimde.
"Bir konferans odasına giren bir CEO'nun videosu" istemine dayanarak Gen-2, benzer konferans masalarının etrafında oturan erkek ve kadınların (kadınlardan çok erkek olmasına rağmen) videolarını oluşturdu. Bu arada, Gen-2, "Ofiste Çalışan Bir Doktorun Videosu" açıklamasına göre, bir masanın arkasına Asyalı bir kadın doktor çıkarıyor.
Yine de, "hemşire" kelimesini içeren herhangi bir istem daha az olumlu çıktı ve sürekli olarak genç beyaz kadınları gösterdi. Aynı şey "garson" ifadesi için de geçerli. Açıkçası, Gen-2'nin hala yapacak çok işi var.
Benim için tüm bunlardan çıkarılacak sonuç, Gen-2'nin herhangi bir video iş akışında gerçekten yararlı bir araçtan çok bir yenilik oyuncağı olmasıdır. Bu çıktılar daha tutarlı bir şeye dönüştürülebilir mi? Belki. Ancak videoya bağlı olarak bu, ilk etapta görüntüleri çekmekten daha fazla iş olabilir.
Bu teknolojiyi reddetmek değildir. Runway'in yaptığı şey etkileyici, metinden videoya avantaj elde etmek için teknoloji devlerini etkili bir şekilde geride bırakıyor. Eminim bazı kullanıcılar, Gen-2'nin kullanımlarının gerçekçilik veya çok fazla özelleştirilebilirlik gerektirmediğini görecektir. (Pist CEO'su Cristóbal Valenzuela geçtiğimiz günlerde Bloomberg'e Gen-2'yi sanatçıların ve tasarımcıların yaratıcı süreçlerine yardımcı olacak bir araç olarak gördüğünü söyledi).
Ben de kendim denedim. Gen-2, daha düşük kare hızları için uygun olan anime ve claymation animasyonu gibi bir dizi stilden anlıyor. Küçük bir değişiklik ve düzenleme ile bir anlatı kompozisyonu oluşturmak için birkaç parçayı bir araya getirmek imkansız değil.
Runway, deepfake'lerden kaçınmak için, kullanıcıların pornografi veya şiddet içeren veya telif haklarını ihlal eden videolar üretmesini önlemek için yapay zeka ve insan denetiminin bir kombinasyonunu kullandığını söylüyor. Gen-2'nin bir içerik filtresi olduğunu doğrulayabilirim - aslında biraz fazla. Bunlar kusursuz yöntemler değil, pratikte ne kadar iyi çalıştıklarını görmemiz gerekecek.
Ama en azından şimdilik, film yapımcıları, animatörler, CGI sanatçıları ve etikçiler içiniz rahat olsun. Runway'in teknolojisinin sinema kalitesinde video üretmeye yaklaşması en az birkaç yineleme olacak - oraya ulaştığı varsayılırsa.
View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
"The Instant Universe"ün perde arkası teknoloji şirketi Runway AI modeli Gen-2'nin gerçek ölçümü: Film kalitesinde bir video oluşturmak için daha gidilecek çok yol var
kaydeden Kyle Wiggers
Kaynak: TechCrunch
Avengers: Endgame gibi Marvel filmlerinin yönetmeni Joe Russo, Collider ile yakın zamanda yaptığı bir röportajda, yapay zekanın iki yıl içinde tam teşekküllü bir film yaratabileceğini tahmin etti. Bu bağlamda, bunun oldukça iyimser bir tahmin olduğunu söyleyebilirim. Ama yaklaşıyoruz.
Bu hafta, Google destekli AI girişimi Runway (AI görüntü oluşturucu Stable Diffusion'ın geliştirilmesine yardımcı oldu), metin istemlerine veya mevcut görüntülere dayalı olarak video oluşturan bir model olan Gen-2'yi piyasaya sürdü. (Gen-2 daha önce yalnızca sınırlı bir bekleme listesinde mevcuttu.) Runway'in Şubat ayında piyasaya sürdüğü Gen-1 modelinin devamı niteliğindeki Gen-2, piyasada bulunan ilk metinden videoya modellerden biriydi.
"Ticari olarak temin edilebilir" önemli bir ayrımdır. Görüntüler ve metinden sonra üretken yapay zeka için bir sonraki mantıksal sınır olan metinden videoya, özellikle bazıları geçen yıl metinden videoya model gösteren teknoloji devleri arasında daha büyük bir odak alanı haline geliyor. . Ancak bu modeller hala araştırma aşamasında ve bir avuç veri bilimci ve mühendis dışında herkes tarafından erişilemez.
Tabii ki, ilk daha iyi anlamına gelmez.
Sevgili okuyucu, kişisel merakımdan ve size bir hizmet olarak, modelin neyi başarabileceğini - ve başaramadığını - görmek için Gen-2'de birkaç ipucu kullandım. (Pist şu anda yaklaşık 100 saniyelik ücretsiz video üretimi sunuyor.) Çılgınlığımın pek bir yöntemi yok, ancak profesyonel veya amatör yönetmenlerin ekranda veya ekranda görmek isteyebilecekleri bir dizi açıyı yakalamaya çalışıyorum. bir dizüstü bilgisayar, türü ve stili.
Gen-2'nin sınırlamaları, modelin kare hızında 4 saniye uzunluğunda videolar üretmesiyle, yer yer bir slayt gösterisi gibi kekeleyerek hemen ortaya çıktı.
Kare hızı sorunlarının yanı sıra, Gen-2 tarafından oluşturulan kliplerin, sanki üzerlerine bir tür eski moda Instagram filtresi uygulanmış gibi, belirli bir grenliliği veya bulanıklığı paylaşma eğiliminde olduğunu da buldum. Ayrıca, "kamera" (daha iyi bir kelime olmadığı için) nesnelerin etrafından dolandığında veya hızla yakınlaştırdığında nesnelerin etrafındaki pikselleşme gibi başka yerlerde yapaylıklar da vardır.
Birçok üretken model gibi, Gen-2 de fizik veya anatomi açısından özellikle tutarlı değildir. Bir sürrealistin yaratacağı bir şey gibi, Gen-2, insanların kollarının ve bacaklarının birbirine kaynaştığı ve sonra ayrıldığı, nesnelerin zeminde eriyip kaybolduğu ve gölgelerin bozulduğu videolar üretti. Ve - işaret olarak - insan yüzü, parlak, duygusuz gözleri ve ucuz plastiği anımsatan soluk teniyle oyuncak bebek gibi olabilir.
Bir ipucu denedim - "eski bir kamerayla çekilmiş bir su altı ütopyasının videosu, 'bulunan görüntü' film tarzı" - ancak Gen-2 böyle bir ütopya üretmiyor, yalnızca birinci şahıs bakış açısına benzeyen bir ütopya yaratıyor. video, anonim bir mercan resifinin karşısında. Diğer istemlerimin yanı sıra, Gen-2, özellikle "yavaş yakınlaştırma" isteyen bir bilgi istemi için yakınlaştırılmış bir çekim oluşturamadı ve ortalama bir astronotun nasıl görüneceğini tam olarak kavrayamadı.
Bu sorunlar Gen-2 eğitim veri kümesiyle ilgili mi? Belki.
Gen-2, Stable Difusion gibi, bir difüzyon modelidir, yani işarete adım adım yaklaşmak için tamamen gürültüden yapılmış bir başlangıç görüntüsünden gürültüyü kademeli olarak nasıl çıkaracağını öğrenir. Difüzyon modelleri, milyonlarca ila milyarlarca örnek üzerinde eğitim alarak öğrenir; Gen-2 mimarisini detaylandıran akademik bir makalede, Runway, modelin 240 milyon görüntü ve 6,4 milyon video klipten oluşan bir veri kümesi üzerinde ve dahili veri kümesi üzerinde eğitildiğini söylüyor.
Örneklerin çeşitliliği anahtardır. Veri kümesi çok sayıda animasyon klibi içermiyorsa, referans noktalarından yoksun olan model makul kalitede animasyonlar üretemez. (Tabii ki, animasyon geniş bir alandır ve veri kümesinde anime veya elle çizilmiş animasyon klipleri olsa bile, model mutlaka tüm animasyon türlerine genellenemez).
"Bir konferans odasına giren bir CEO'nun videosu" istemine dayanarak Gen-2, benzer konferans masalarının etrafında oturan erkek ve kadınların (kadınlardan çok erkek olmasına rağmen) videolarını oluşturdu. Bu arada, Gen-2, "Ofiste Çalışan Bir Doktorun Videosu" açıklamasına göre, bir masanın arkasına Asyalı bir kadın doktor çıkarıyor.
Benim için tüm bunlardan çıkarılacak sonuç, Gen-2'nin herhangi bir video iş akışında gerçekten yararlı bir araçtan çok bir yenilik oyuncağı olmasıdır. Bu çıktılar daha tutarlı bir şeye dönüştürülebilir mi? Belki. Ancak videoya bağlı olarak bu, ilk etapta görüntüleri çekmekten daha fazla iş olabilir.
Bu teknolojiyi reddetmek değildir. Runway'in yaptığı şey etkileyici, metinden videoya avantaj elde etmek için teknoloji devlerini etkili bir şekilde geride bırakıyor. Eminim bazı kullanıcılar, Gen-2'nin kullanımlarının gerçekçilik veya çok fazla özelleştirilebilirlik gerektirmediğini görecektir. (Pist CEO'su Cristóbal Valenzuela geçtiğimiz günlerde Bloomberg'e Gen-2'yi sanatçıların ve tasarımcıların yaratıcı süreçlerine yardımcı olacak bir araç olarak gördüğünü söyledi).
Runway, deepfake'lerden kaçınmak için, kullanıcıların pornografi veya şiddet içeren veya telif haklarını ihlal eden videolar üretmesini önlemek için yapay zeka ve insan denetiminin bir kombinasyonunu kullandığını söylüyor. Gen-2'nin bir içerik filtresi olduğunu doğrulayabilirim - aslında biraz fazla. Bunlar kusursuz yöntemler değil, pratikte ne kadar iyi çalıştıklarını görmemiz gerekecek.
Ama en azından şimdilik, film yapımcıları, animatörler, CGI sanatçıları ve etikçiler içiniz rahat olsun. Runway'in teknolojisinin sinema kalitesinde video üretmeye yaklaşması en az birkaç yineleme olacak - oraya ulaştığı varsayılırsa.