โดย Kyle Wiggersที่มา: TechCrunch *แหล่งที่มาของรูปภาพ: สร้างโดยเครื่องมือ Unbounded AI*ในการสัมภาษณ์ล่าสุดกับ Collider โจ รุสโซ ผู้กำกับภาพยนตร์ Marvel เช่น Avengers: Endgame ทำนายว่าภายในสองปี AI จะสามารถสร้างภาพยนตร์เต็มรูปแบบได้ ในเรื่องนี้ฉันจะบอกว่านี่เป็นการประมาณการที่ค่อนข้างดี แต่เรากำลังใกล้เข้ามาสัปดาห์นี้ Runway สตาร์ทอัพ AI ที่ได้รับการสนับสนุนจาก Google (ซึ่งช่วยพัฒนาเครื่องกำเนิดภาพ AI Stable Diffusion) เปิดตัว Gen-2 ซึ่งเป็นโมเดลที่สร้างวิดีโอตามข้อความแจ้งหรือรูปภาพที่มีอยู่ (ก่อนหน้านี้ Gen-2 มีให้บริการเฉพาะในรายการรอที่จำกัดเท่านั้น) รุ่นต่อจากรุ่น Gen-1 ที่รันเวย์เปิดตัวในเดือนกุมภาพันธ์ รุ่น Gen-2 เป็นหนึ่งในโมเดลข้อความเป็นวิดีโอที่มีจำหน่ายในท้องตลาดรุ่นแรกๆ"มีจำหน่ายทั่วไป" เป็นความแตกต่างที่สำคัญ Text-to-video ซึ่งเป็นพรมแดนตรรกะถัดไปสำหรับ AI กำเนิดหลังจากรูปภาพและข้อความ กำลังกลายเป็นจุดสนใจที่ใหญ่ขึ้น โดยเฉพาะอย่างยิ่งในกลุ่มบริษัทยักษ์ใหญ่ด้านเทคโนโลยี ซึ่งบางแห่งได้สาธิตการแปลงข้อความเป็นวิดีโอในปีที่ผ่านมา . แต่แบบจำลองเหล่านี้ยังอยู่ในขั้นตอนการวิจัยและไม่สามารถเข้าถึงได้ทั้งหมด ยกเว้นนักวิทยาศาสตร์ข้อมูลและวิศวกรเพียงไม่กี่คนแน่นอน อันดับแรกไม่ได้หมายความว่าดีกว่าด้วยความอยากรู้อยากเห็นเป็นการส่วนตัวและเพื่อเป็นการบริการแก่คุณ ผู้อ่านที่รัก ฉันได้แสดงคำแนะนำเล็กๆ น้อยๆ ผ่าน Gen-2 เพื่อดูว่าโมเดลดังกล่าวสามารถทำอะไรได้บ้างและไม่สามารถบรรลุผลสำเร็จได้ (ปัจจุบันทางวิ่งให้บริการสร้างวิดีโอฟรีประมาณ 100 วินาที) มีวิธีบ้าๆ บอๆ ไม่มาก แต่ฉันกำลังพยายามจับภาพมุมต่างๆ ที่ผู้กำกับมืออาชีพหรือมือสมัครเล่นอาจต้องการเห็นบนหน้าจอหรือบน แล็ปท็อป ประเภทและสไตล์ข้อจำกัดของ Gen-2 นั้นชัดเจนในทันที โดยโมเดลสร้างวิดีโอความยาว 4 วินาทีที่อัตราเฟรมต่ำจนกระตุกเหมือนสไลด์โชว์ในที่ต่างๆ สิ่งที่ไม่ชัดเจนคือว่านี่เป็นปัญหาทางเทคนิคหรือความพยายามของ Runway ที่จะประหยัดค่าใช้จ่ายในการคำนวณ แต่ไม่ว่าในกรณีใด สิ่งนี้ทำให้ Gen-2 เป็นข้อเสนอที่ค่อนข้างไม่น่าสนใจสำหรับบรรณาธิการที่ต้องการหลีกเลี่ยงงานหลังการถ่ายทำนอกเหนือจากปัญหาเกี่ยวกับอัตราเฟรมแล้ว ฉันยังพบว่าคลิปที่สร้างจาก Gen-2 มีแนวโน้มที่จะแบ่งปันความหยาบหรือความเบลอบางอย่าง ราวกับว่ามีการใช้ตัวกรอง Instagram แบบเก่าบางอย่างกับพวกเขา นอกจากนี้ ยังมีสิ่งประดิษฐ์อื่นๆ เช่น การสร้างพิกเซลรอบๆ วัตถุเมื่อ "กล้อง" (เพราะไม่มีคำที่ดีกว่านี้) ไปรอบๆ วัตถุหรือซูมเข้าอย่างรวดเร็วบนวัตถุเหล่านั้นGen-2 ไม่สอดคล้องกันเป็นพิเศษในแง่ของฟิสิกส์หรือกายวิภาคศาสตร์ เช่นเดียวกับโมเดลเชิงกำเนิดหลายๆ แบบ Gen-2 สร้างวิดีโอเกี่ยวกับแขนและขาของผู้คนที่หลอมรวมเข้าด้วยกันแล้วแยกออกจากกัน ในขณะที่วัตถุต่างๆ ละลายลงสู่พื้นและหายไป และเงาถูกบิดเบี้ยว เช่นเดียวกับบางสิ่งที่นักเซอร์เรียลลิสต์สร้างขึ้น และ -- ตามคิว -- ใบหน้าของมนุษย์อาจเหมือนตุ๊กตา มีดวงตาแวววาว ไร้อารมณ์ และผิวสีซีด ชวนให้นึกถึงพลาสติกราคาถูก  นอกจากนั้นยังมีเรื่องของเนื้อหา Gen-2 ดูเหมือนจะมีช่วงเวลาที่ยากลำบากในการทำความเข้าใจความแตกต่างเล็กน้อย และการยึดติดกับคำอธิบายบางอย่างในพร้อมท์โดยไม่สนใจผู้อื่นดูเหมือนจะไม่มีเหตุผลฉันลองใช้คำใบ้ - "วิดีโอของยูโทเปียใต้น้ำที่ถ่ายด้วยกล้องเก่าสไตล์ภาพยนตร์ 'พบฟุตเทจ'" - แต่ Gen-2 ไม่ได้สร้างยูโทเปียดังกล่าว มีเพียงวิดีโอเดียวที่ดูเหมือนมุมมองบุคคลที่หนึ่ง Dive วิดีโอ ข้ามแนวปะการังนิรนาม ในบรรดาข้อความแจ้งอื่นๆ ของฉัน Gen-2 ยังล้มเหลวในการสร้างภาพซูมเข้าสำหรับข้อความแจ้งที่ขอให้ "ซูมช้า" โดยเฉพาะ และไม่เข้าใจอย่างถ่องแท้ว่านักบินอวกาศทั่วไปจะมีหน้าตาเป็นอย่างไรปัญหาเหล่านี้เกี่ยวข้องกับชุดข้อมูลการฝึกอบรม Gen-2 หรือไม่ อาจจะ.Gen-2 เช่นเดียวกับ Stable Diffusion เป็นโมเดลการแพร่กระจาย ซึ่งหมายความว่าจะเรียนรู้วิธีค่อยๆ ลบสัญญาณรบกวนออกจากภาพเริ่มต้นที่มีสัญญาณรบกวนทั้งหมดเพื่อเข้าใกล้สัญญาณทีละขั้นตอน แบบจำลองการแพร่กระจายเรียนรู้โดยการฝึกอบรมจากตัวอย่างนับล้านถึงพันล้านตัวอย่าง ในเอกสารวิชาการที่ให้รายละเอียดเกี่ยวกับสถาปัตยกรรม Gen-2 ทาง Runway กล่าวว่าแบบจำลองนี้ได้รับการฝึกอบรมในชุดข้อมูล 240 ล้านภาพและวิดีโอคลิป 6.4 ล้านคลิป ฝึกอบรมในชุดข้อมูลภายในตัวอย่างที่หลากหลายเป็นกุญแจสำคัญ หากชุดข้อมูลไม่มีคลิปแอนิเมชันจำนวนมาก โมเดลซึ่งขาดจุดอ้างอิงจะไม่สามารถสร้างแอนิเมชันที่มีคุณภาพเหมาะสมได้ (แน่นอนว่าแอนิเมชั่นเป็นสาขาที่กว้าง และแม้ว่าชุดข้อมูลจะมีคลิปของอนิเมะหรือแอนิเมชั่นที่วาดด้วยมือ แบบจำลองก็ไม่จำเป็นต้องครอบคลุมแอนิเมชั่นทุกประเภทได้ดีนัก) ในด้านบวก Gen-2 ผ่านการทดสอบความลำเอียงแบบผิวเผิน ในขณะที่โมเดล AI กำเนิดเช่น DALL-E 2 ถูกพบว่าเสริมสร้างอคติทางสังคม สร้างภาพลักษณ์ของตำแหน่งที่มีอำนาจ เช่น "CEO หรือผู้อำนวยการ" ซึ่งส่วนใหญ่เป็นภาพผู้ชายผิวขาว แต่ Gen-2 มีประสิทธิภาพมากกว่าในการสร้างอีกเล็กน้อย เนื้อหาที่หลากหลาย -- อย่างน้อยก็ในการทดสอบของฉันจากข้อความแจ้ง "วิดีโอของ CEO เดินเข้าไปในห้องประชุม" Gen-2 สร้างวิดีโอของชายและหญิง (แม้ว่าจะมีผู้ชายมากกว่าผู้หญิง) นั่งรอบโต๊ะประชุมที่คล้ายกัน ในขณะเดียวกัน Gen-2 ก็ส่งแพทย์หญิงชาวเอเชียออกไปด้านหลังโต๊ะตามคำอธิบาย "วิดีโอของแพทย์ที่ทำงานในสำนักงาน" ถึงกระนั้น การเตือนใดๆ ที่รวมคำว่า "พยาบาล" กลับมีแง่บวกน้อยกว่า โดยแสดงให้เห็นหญิงสาวผิวขาวอย่างสม่ำเสมอ เช่นเดียวกับวลี "บริกร" เห็นได้ชัดว่า Gen-2 ยังมีงานต้องทำอีกมากสำหรับฉันสิ่งที่ได้รับจากทั้งหมดนี้ก็คือ Gen-2 เป็นของเล่นแปลกใหม่มากกว่าเป็นเครื่องมือที่มีประโยชน์อย่างแท้จริงในเวิร์กโฟลว์วิดีโอใดๆ ผลลัพธ์เหล่านี้สามารถแก้ไขเป็นสิ่งที่สอดคล้องกันมากขึ้นได้หรือไม่? อาจจะ. แต่ทั้งนี้ขึ้นอยู่กับวิดีโอ วิธีนี้อาจได้ผลมากกว่าการถ่ายฟุตเทจในตอนแรกนี่ไม่ใช่การละทิ้งเทคโนโลยี สิ่งที่รันเวย์ทำนั้นน่าประทับใจ เอาชนะยักษ์ใหญ่ด้านเทคโนโลยีได้อย่างมีประสิทธิภาพเพื่อใช้ประโยชน์จากข้อความเป็นวิดีโอ ฉันแน่ใจว่าผู้ใช้บางคนจะพบว่าการใช้งานของ Gen-2 นั้นไม่ต้องการความสมจริงหรือการปรับแต่งมากนัก (Cristóbal Valenzuela CEO ของรันเวย์บอกกับ Bloomberg เมื่อเร็ว ๆ นี้ว่าเขาเห็น Gen-2 เป็นเครื่องมือสำหรับศิลปินและนักออกแบบเพื่อช่วยในกระบวนการสร้างสรรค์ของพวกเขา) ฉันยังพยายามด้วยตัวเอง Gen-2 เข้าใจสไตล์ที่หลากหลาย เช่น อนิเมะและแอนิเมชั่นดินเหนียว ซึ่งเหมาะสำหรับอัตราเฟรมที่ต่ำ ไม่ใช่เรื่องเป็นไปไม่ได้ที่จะรวมชิ้นส่วนหลาย ๆ ชิ้นเข้าด้วยกันเพื่อสร้างองค์ประกอบการเล่าเรื่องด้วยการปรับเปลี่ยนและแก้ไขเล็กน้อยเพื่อหลีกเลี่ยงการทำ Deepfake ทาง Runway กล่าวว่ากำลังใช้การผสมผสานระหว่างปัญญาประดิษฐ์และการกลั่นกรองโดยมนุษย์เพื่อป้องกันไม่ให้ผู้ใช้ผลิตวิดีโอที่มีภาพอนาจารหรือความรุนแรงหรือละเมิดลิขสิทธิ์ ฉันสามารถยืนยันได้ว่า Gen-2 มีตัวกรองเนื้อหา ซึ่งจริง ๆ แล้วค่อนข้างมากเกินไป นี่ไม่ใช่วิธีที่เข้าใจผิดได้ และเราจะต้องดูว่าใช้งานได้ดีเพียงใดในทางปฏิบัติแต่อย่างน้อยในตอนนี้ ผู้สร้างภาพยนตร์ แอนิเมเตอร์ ศิลปิน CGI และนักจริยธรรมสามารถสบายใจได้ จะมีการทำซ้ำอย่างน้อยสองสามครั้งก่อนที่เทคโนโลยีของ Runway จะใกล้เคียงกับการผลิตวิดีโอคุณภาพระดับภาพยนตร์ สมมติว่าไปถึงที่นั่น
การวัดจริงของ Runway AI โมเดล Gen-2 บริษัทเทคโนโลยีเบื้องหลังของ "The Instant Universe": ยังมีหนทางอีกยาวไกลในการสร้างวิดีโอคุณภาพระดับภาพยนตร์
โดย Kyle Wiggers
ที่มา: TechCrunch
ในการสัมภาษณ์ล่าสุดกับ Collider โจ รุสโซ ผู้กำกับภาพยนตร์ Marvel เช่น Avengers: Endgame ทำนายว่าภายในสองปี AI จะสามารถสร้างภาพยนตร์เต็มรูปแบบได้ ในเรื่องนี้ฉันจะบอกว่านี่เป็นการประมาณการที่ค่อนข้างดี แต่เรากำลังใกล้เข้ามา
สัปดาห์นี้ Runway สตาร์ทอัพ AI ที่ได้รับการสนับสนุนจาก Google (ซึ่งช่วยพัฒนาเครื่องกำเนิดภาพ AI Stable Diffusion) เปิดตัว Gen-2 ซึ่งเป็นโมเดลที่สร้างวิดีโอตามข้อความแจ้งหรือรูปภาพที่มีอยู่ (ก่อนหน้านี้ Gen-2 มีให้บริการเฉพาะในรายการรอที่จำกัดเท่านั้น) รุ่นต่อจากรุ่น Gen-1 ที่รันเวย์เปิดตัวในเดือนกุมภาพันธ์ รุ่น Gen-2 เป็นหนึ่งในโมเดลข้อความเป็นวิดีโอที่มีจำหน่ายในท้องตลาดรุ่นแรกๆ
"มีจำหน่ายทั่วไป" เป็นความแตกต่างที่สำคัญ Text-to-video ซึ่งเป็นพรมแดนตรรกะถัดไปสำหรับ AI กำเนิดหลังจากรูปภาพและข้อความ กำลังกลายเป็นจุดสนใจที่ใหญ่ขึ้น โดยเฉพาะอย่างยิ่งในกลุ่มบริษัทยักษ์ใหญ่ด้านเทคโนโลยี ซึ่งบางแห่งได้สาธิตการแปลงข้อความเป็นวิดีโอในปีที่ผ่านมา . แต่แบบจำลองเหล่านี้ยังอยู่ในขั้นตอนการวิจัยและไม่สามารถเข้าถึงได้ทั้งหมด ยกเว้นนักวิทยาศาสตร์ข้อมูลและวิศวกรเพียงไม่กี่คน
แน่นอน อันดับแรกไม่ได้หมายความว่าดีกว่า
ด้วยความอยากรู้อยากเห็นเป็นการส่วนตัวและเพื่อเป็นการบริการแก่คุณ ผู้อ่านที่รัก ฉันได้แสดงคำแนะนำเล็กๆ น้อยๆ ผ่าน Gen-2 เพื่อดูว่าโมเดลดังกล่าวสามารถทำอะไรได้บ้างและไม่สามารถบรรลุผลสำเร็จได้ (ปัจจุบันทางวิ่งให้บริการสร้างวิดีโอฟรีประมาณ 100 วินาที) มีวิธีบ้าๆ บอๆ ไม่มาก แต่ฉันกำลังพยายามจับภาพมุมต่างๆ ที่ผู้กำกับมืออาชีพหรือมือสมัครเล่นอาจต้องการเห็นบนหน้าจอหรือบน แล็ปท็อป ประเภทและสไตล์
ข้อจำกัดของ Gen-2 นั้นชัดเจนในทันที โดยโมเดลสร้างวิดีโอความยาว 4 วินาทีที่อัตราเฟรมต่ำจนกระตุกเหมือนสไลด์โชว์ในที่ต่างๆ
นอกเหนือจากปัญหาเกี่ยวกับอัตราเฟรมแล้ว ฉันยังพบว่าคลิปที่สร้างจาก Gen-2 มีแนวโน้มที่จะแบ่งปันความหยาบหรือความเบลอบางอย่าง ราวกับว่ามีการใช้ตัวกรอง Instagram แบบเก่าบางอย่างกับพวกเขา นอกจากนี้ ยังมีสิ่งประดิษฐ์อื่นๆ เช่น การสร้างพิกเซลรอบๆ วัตถุเมื่อ "กล้อง" (เพราะไม่มีคำที่ดีกว่านี้) ไปรอบๆ วัตถุหรือซูมเข้าอย่างรวดเร็วบนวัตถุเหล่านั้น
Gen-2 ไม่สอดคล้องกันเป็นพิเศษในแง่ของฟิสิกส์หรือกายวิภาคศาสตร์ เช่นเดียวกับโมเดลเชิงกำเนิดหลายๆ แบบ Gen-2 สร้างวิดีโอเกี่ยวกับแขนและขาของผู้คนที่หลอมรวมเข้าด้วยกันแล้วแยกออกจากกัน ในขณะที่วัตถุต่างๆ ละลายลงสู่พื้นและหายไป และเงาถูกบิดเบี้ยว เช่นเดียวกับบางสิ่งที่นักเซอร์เรียลลิสต์สร้างขึ้น และ -- ตามคิว -- ใบหน้าของมนุษย์อาจเหมือนตุ๊กตา มีดวงตาแวววาว ไร้อารมณ์ และผิวสีซีด ชวนให้นึกถึงพลาสติกราคาถูก
ฉันลองใช้คำใบ้ - "วิดีโอของยูโทเปียใต้น้ำที่ถ่ายด้วยกล้องเก่าสไตล์ภาพยนตร์ 'พบฟุตเทจ'" - แต่ Gen-2 ไม่ได้สร้างยูโทเปียดังกล่าว มีเพียงวิดีโอเดียวที่ดูเหมือนมุมมองบุคคลที่หนึ่ง Dive วิดีโอ ข้ามแนวปะการังนิรนาม ในบรรดาข้อความแจ้งอื่นๆ ของฉัน Gen-2 ยังล้มเหลวในการสร้างภาพซูมเข้าสำหรับข้อความแจ้งที่ขอให้ "ซูมช้า" โดยเฉพาะ และไม่เข้าใจอย่างถ่องแท้ว่านักบินอวกาศทั่วไปจะมีหน้าตาเป็นอย่างไร
ปัญหาเหล่านี้เกี่ยวข้องกับชุดข้อมูลการฝึกอบรม Gen-2 หรือไม่ อาจจะ.
Gen-2 เช่นเดียวกับ Stable Diffusion เป็นโมเดลการแพร่กระจาย ซึ่งหมายความว่าจะเรียนรู้วิธีค่อยๆ ลบสัญญาณรบกวนออกจากภาพเริ่มต้นที่มีสัญญาณรบกวนทั้งหมดเพื่อเข้าใกล้สัญญาณทีละขั้นตอน แบบจำลองการแพร่กระจายเรียนรู้โดยการฝึกอบรมจากตัวอย่างนับล้านถึงพันล้านตัวอย่าง ในเอกสารวิชาการที่ให้รายละเอียดเกี่ยวกับสถาปัตยกรรม Gen-2 ทาง Runway กล่าวว่าแบบจำลองนี้ได้รับการฝึกอบรมในชุดข้อมูล 240 ล้านภาพและวิดีโอคลิป 6.4 ล้านคลิป ฝึกอบรมในชุดข้อมูลภายใน
ตัวอย่างที่หลากหลายเป็นกุญแจสำคัญ หากชุดข้อมูลไม่มีคลิปแอนิเมชันจำนวนมาก โมเดลซึ่งขาดจุดอ้างอิงจะไม่สามารถสร้างแอนิเมชันที่มีคุณภาพเหมาะสมได้ (แน่นอนว่าแอนิเมชั่นเป็นสาขาที่กว้าง และแม้ว่าชุดข้อมูลจะมีคลิปของอนิเมะหรือแอนิเมชั่นที่วาดด้วยมือ แบบจำลองก็ไม่จำเป็นต้องครอบคลุมแอนิเมชั่นทุกประเภทได้ดีนัก)
จากข้อความแจ้ง "วิดีโอของ CEO เดินเข้าไปในห้องประชุม" Gen-2 สร้างวิดีโอของชายและหญิง (แม้ว่าจะมีผู้ชายมากกว่าผู้หญิง) นั่งรอบโต๊ะประชุมที่คล้ายกัน ในขณะเดียวกัน Gen-2 ก็ส่งแพทย์หญิงชาวเอเชียออกไปด้านหลังโต๊ะตามคำอธิบาย "วิดีโอของแพทย์ที่ทำงานในสำนักงาน"
สำหรับฉันสิ่งที่ได้รับจากทั้งหมดนี้ก็คือ Gen-2 เป็นของเล่นแปลกใหม่มากกว่าเป็นเครื่องมือที่มีประโยชน์อย่างแท้จริงในเวิร์กโฟลว์วิดีโอใดๆ ผลลัพธ์เหล่านี้สามารถแก้ไขเป็นสิ่งที่สอดคล้องกันมากขึ้นได้หรือไม่? อาจจะ. แต่ทั้งนี้ขึ้นอยู่กับวิดีโอ วิธีนี้อาจได้ผลมากกว่าการถ่ายฟุตเทจในตอนแรก
นี่ไม่ใช่การละทิ้งเทคโนโลยี สิ่งที่รันเวย์ทำนั้นน่าประทับใจ เอาชนะยักษ์ใหญ่ด้านเทคโนโลยีได้อย่างมีประสิทธิภาพเพื่อใช้ประโยชน์จากข้อความเป็นวิดีโอ ฉันแน่ใจว่าผู้ใช้บางคนจะพบว่าการใช้งานของ Gen-2 นั้นไม่ต้องการความสมจริงหรือการปรับแต่งมากนัก (Cristóbal Valenzuela CEO ของรันเวย์บอกกับ Bloomberg เมื่อเร็ว ๆ นี้ว่าเขาเห็น Gen-2 เป็นเครื่องมือสำหรับศิลปินและนักออกแบบเพื่อช่วยในกระบวนการสร้างสรรค์ของพวกเขา)
เพื่อหลีกเลี่ยงการทำ Deepfake ทาง Runway กล่าวว่ากำลังใช้การผสมผสานระหว่างปัญญาประดิษฐ์และการกลั่นกรองโดยมนุษย์เพื่อป้องกันไม่ให้ผู้ใช้ผลิตวิดีโอที่มีภาพอนาจารหรือความรุนแรงหรือละเมิดลิขสิทธิ์ ฉันสามารถยืนยันได้ว่า Gen-2 มีตัวกรองเนื้อหา ซึ่งจริง ๆ แล้วค่อนข้างมากเกินไป นี่ไม่ใช่วิธีที่เข้าใจผิดได้ และเราจะต้องดูว่าใช้งานได้ดีเพียงใดในทางปฏิบัติ
แต่อย่างน้อยในตอนนี้ ผู้สร้างภาพยนตร์ แอนิเมเตอร์ ศิลปิน CGI และนักจริยธรรมสามารถสบายใจได้ จะมีการทำซ้ำอย่างน้อยสองสามครั้งก่อนที่เทคโนโลยีของ Runway จะใกล้เคียงกับการผลิตวิดีโอคุณภาพระดับภาพยนตร์ สมมติว่าไปถึงที่นั่น