Đo đạc thực tế Runway AI model Gen-2, công ty công nghệ hậu trường của "The Instant Universe": Còn một chặng đường dài phía trước để tạo ra một video chất lượng như phim

Bởi Kyle Wiggers

Nguồn: TechCrunch

Nguồn hình ảnh: Được tạo bởi công cụ Unbounded AI

Trong một cuộc phỏng vấn gần đây với Collider, Joe Russo, đạo diễn của các bộ phim Marvel như Avengers: Endgame, đã dự đoán rằng trong vòng hai năm nữa, AI sẽ có thể tạo ra một bộ phim hoàn chỉnh. Về vấn đề này, tôi muốn nói rằng đây là một ước tính khá lạc quan. Nhưng chúng ta đang tiến gần hơn.

Tuần này, công ty khởi nghiệp AI do Google hỗ trợ Runway (đã giúp phát triển trình tạo hình ảnh AI Ổn định khuếch tán) đã phát hành Gen-2, một mô hình tạo video dựa trên lời nhắc văn bản hoặc hình ảnh hiện có. (Gen-2 trước đây chỉ có trong danh sách chờ hạn chế.) Là sản phẩm tiếp theo của mẫu Gen-1 mà Runway đã ra mắt vào tháng 2, Gen-2 là một trong những mẫu chuyển văn bản thành video thương mại đầu tiên.

"Có sẵn trên thị trường" là một điểm khác biệt quan trọng. Chuyển văn bản thành video, biên giới hợp lý tiếp theo cho AI tổng quát sau hình ảnh và văn bản, đang trở thành một lĩnh vực trọng tâm lớn hơn, đặc biệt là giữa những gã khổng lồ công nghệ, một số trong số đó đã chứng minh chuyển văn bản thành video trong năm qua. . Nhưng những mô hình này vẫn đang trong giai đoạn nghiên cứu và không thể tiếp cận được với tất cả trừ một số ít các nhà khoa học và kỹ sư dữ liệu.

Tất nhiên, đầu tiên không có nghĩa là tốt hơn.

Vì tò mò cá nhân và để phục vụ bạn, độc giả thân mến, tôi đã đưa ra một số gợi ý về Gen-2 để xem mô hình này có thể -- và không thể -- đạt được điều gì. (Runway hiện cung cấp khoảng 100 giây tạo video miễn phí.) Tôi không có nhiều phương pháp cho sự điên rồ của mình, nhưng tôi đang cố gắng ghi lại nhiều góc độ mà các đạo diễn chuyên nghiệp hoặc nghiệp dư có thể muốn xem trên màn hình hoặc trên một máy tính xách tay, loại và phong cách.

Những hạn chế của Gen-2 ngay lập tức trở nên rõ ràng, với việc kiểu máy này tạo ra các video dài 4 giây ở tốc độ khung hình thấp đến mức đôi chỗ bị giật hình giống như bản trình chiếu.

Điều chưa rõ là liệu đây là sự cố kỹ thuật hay nỗ lực của Runway nhằm tiết kiệm chi phí tính toán. Nhưng trong cả hai trường hợp, điều này làm cho Gen-2 trở thành một đề xuất khá kém hấp dẫn đối với các biên tập viên muốn tránh công việc hậu kỳ.

Bên cạnh các vấn đề về tốc độ khung hình, tôi cũng nhận thấy rằng các clip do Gen-2 tạo có xu hướng có độ hạt hoặc độ mờ nhất định, như thể chúng được áp dụng một số loại bộ lọc Instagram kiểu cũ. Ngoài ra, có những tạo tác ở nơi khác, chẳng hạn như pixel xung quanh các đối tượng khi "máy ảnh" (vì không có từ nào tốt hơn) đi xung quanh chúng hoặc phóng to chúng một cách nhanh chóng.

Giống như nhiều mô hình tổng quát, Gen-2 không đặc biệt nhất quán về mặt vật lý hoặc giải phẫu. Giống như một thứ gì đó mà một người theo chủ nghĩa siêu thực sẽ tạo ra, Gen-2 đã tạo ra các video quay cảnh tay và chân của mọi người hợp nhất với nhau rồi tách ra, trong khi các vật thể tan chảy xuống sàn và biến mất, đồng thời bóng bị biến dạng. Và - theo gợi ý - khuôn mặt con người có thể giống như búp bê, với đôi mắt sáng bóng, vô cảm và làn da nhợt nhạt gợi nhớ đến nhựa rẻ tiền.

Ngoài ra, còn có vấn đề về nội dung. Gen-2 dường như gặp khó khăn trong việc hiểu sắc thái và việc tuân theo một số mô tả nhất định trong lời nhắc trong khi bỏ qua những mô tả khác có vẻ tùy tiện.

Tôi đã thử một gợi ý - "video về một điều không tưởng dưới nước, được quay bằng máy ảnh cũ, kiểu phim 'cảnh tìm thấy'" - nhưng Gen-2 không tạo ra điều không tưởng như vậy, chỉ có một điều giống như góc nhìn thứ nhất Dive video, băng qua một rạn san hô vô danh. Trong số các lời nhắc khác của tôi, Gen-2 cũng không thể tạo ảnh phóng to cho lời nhắc yêu cầu cụ thể về "thu phóng chậm", cũng như không nắm bắt được hoàn toàn diện mạo của một phi hành gia bình thường.

Những vấn đề này có liên quan đến tập dữ liệu đào tạo Gen-2 không? Có lẽ.

Gen-2, giống như Khuếch tán ổn định, là một mô hình khuếch tán, có nghĩa là nó học cách loại bỏ dần nhiễu khỏi hình ảnh ban đầu được tạo hoàn toàn bằng nhiễu để từng bước tiếp cận tín hiệu. Các mô hình khuếch tán học bằng cách đào tạo trên hàng triệu đến hàng tỷ ví dụ; trong một bài báo học thuật trình bày chi tiết về kiến trúc Gen-2, Runway cho biết mô hình này được đào tạo trên bộ dữ liệu gồm 240 triệu hình ảnh và 6,4 triệu video clip. Được đào tạo trên bộ dữ liệu nội bộ.

Nhiều ví dụ là chìa khóa. Nếu tập dữ liệu không chứa nhiều clip hoạt hình, thì mô hình -- thiếu điểm tham chiếu -- sẽ không thể tạo hoạt ảnh có chất lượng hợp lý. (Tất nhiên, hoạt hình là một lĩnh vực rộng lớn và ngay cả khi tập dữ liệu có các đoạn phim hoạt hình hoặc hoạt hình vẽ tay, thì mô hình cũng không nhất thiết phải khái quát tốt cho tất cả các loại hoạt hình).

Về mặt tích cực, Gen-2 đã vượt qua bài kiểm tra thiên vị bề ngoài. Trong khi các mô hình AI tổng quát như DALL-E 2 được phát hiện là củng cố các thành kiến xã hội, tạo ra hình ảnh về các vị trí có thẩm quyền -- chẳng hạn như "CEO hoặc Giám đốc" -- chủ yếu mô tả những người đàn ông da trắng, thì Gen-2 hiệu quả hơn trong việc tạo ra nhiều hơn một chút đa dạng về nội dung -- ít nhất là trong các thử nghiệm của tôi.

Dựa trên lời nhắc "Video về một CEO bước vào phòng họp", Gen-2 đã tạo ra các video về nam giới và nữ giới (mặc dù nam giới nhiều hơn nữ giới) ngồi xung quanh các bàn hội nghị tương tự. Trong khi đó, Gen-2 xuất ra một nữ bác sĩ châu Á ngồi sau bàn làm việc, theo mô tả "Video về một bác sĩ làm việc trong văn phòng".

Tuy nhiên, bất kỳ lời nhắc nào bao gồm từ "y tá" đều tỏ ra kém tích cực hơn, liên tục cho thấy những phụ nữ trẻ da trắng. Điều tương tự cũng xảy ra với cụm từ "người phục vụ". Rõ ràng, Gen-2 vẫn còn rất nhiều việc phải làm.

Đối với tôi, điểm rút ra từ tất cả những điều này là Gen-2 giống một món đồ chơi mới lạ hơn là một công cụ thực sự hữu ích trong bất kỳ quy trình làm việc video nào. Những đầu ra này có thể được chỉnh sửa thành thứ gì đó mạch lạc hơn không? Có lẽ. Nhưng tùy thuộc vào video, điều này có thể hiệu quả hơn so với quay cảnh ngay từ đầu.

Điều này không phải để loại bỏ công nghệ. Những gì Runway đã làm được thật ấn tượng, đánh bại những gã khổng lồ công nghệ một cách hiệu quả để tận dụng lợi thế chuyển văn bản thành video. Tôi chắc rằng một số người dùng sẽ thấy rằng việc sử dụng Gen-2 không yêu cầu tính hiện thực cũng như không có nhiều khả năng tùy chỉnh. (Giám đốc điều hành Runway Cristóbal Valenzuela gần đây đã nói với Bloomberg rằng ông coi Gen-2 là một công cụ để các nghệ sĩ và nhà thiết kế hỗ trợ quá trình sáng tạo của họ).

Bản thân tôi cũng đã thử. Gen-2 hiểu nhiều phong cách, chẳng hạn như phim hoạt hình hoạt hình và hoạt hình đất sét, phù hợp với tốc độ khung hình thấp hơn. Không phải là không thể xâu chuỗi nhiều phần lại với nhau để tạo ra một bố cục tường thuật với một chút sửa đổi và chỉnh sửa.

Để tránh deepfakes, Runway cho biết họ đang sử dụng kết hợp trí tuệ nhân tạo và sự kiểm duyệt của con người để ngăn người dùng sản xuất video có nội dung khiêu dâm, bạo lực hoặc vi phạm bản quyền. Tôi có thể xác nhận rằng Gen-2 có bộ lọc nội dung -- thực tế là hơi quá nhiều. Đây không phải là những phương pháp hoàn hảo, chúng ta sẽ phải xem chúng hoạt động tốt như thế nào trong thực tế.

Nhưng ít nhất hiện tại, các nhà làm phim, họa sĩ hoạt hình, nghệ sĩ CGI và các nhà đạo đức học có thể yên tâm. Sẽ mất ít nhất một vài lần lặp lại trước khi công nghệ của Runway tiến gần đến việc tạo ra video chất lượng điện ảnh -- giả sử nó đạt được điều đó.

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)