📣 Gate.io动态大使春日邀新大派送,赢精美周边及瓜分$2,000奖池!
💰️ 成功邀请人数前十名大使可获得Gate.io品牌冲锋衣、茶具套装、品牌卫衣等精美周边!
💰️ 其余大使每成功邀请一名好友可得 $10 奖励,总奖池高达 $2,000!
💰️ 您同时还可享受邀请好友完成任务的返佣福利和高达 500 USDT,累计福利丰厚!
还不是动态大使?立即报名👉️https://www.gate.io/questionnaire/4937
参与方式:
1️⃣ 成为动态大使,点击大使群邀请活动报名表单进行报名
2️⃣ 点击邀请页面“邀请好友”按钮,生成专属邀请链接,分享到Gate.io以外社交平台
邀请页面链接:https://www.gate.io/referral
立即加入成为Gate.io动态大使,解锁你的专属邀请福利!
活动时间: 3月20日17:00 - 3月30日24:00 (UTC+8)
活动详情:https://www.gate.io/announcements/article/43970
实测《瞬息全宇宙》幕后技术公司 Runway AI 模型 Gen-2:离生成电影质感的视频还有很大距离
撰文:Kyle Wiggers
来源:TechCrunch
在最近接受 Collider 的采访时,《复仇者联盟:终局之战》等漫威电影的导演乔・罗素预测,在两年内,人工智能将能够创造一部成熟的电影。对此,我想说这是一个相当乐观的预估。但我们正逐渐接近。
本周,谷歌支持的人工智能初创公司 Runway(帮助开发了 AI 图像生成器 Stable Diffusion)发布了 Gen-2,这是一款根据文本提示或现有图像生成视频的模型。(Gen-2 之前只在有限的等候名单中使用。)作为 Runway 于 2 月推出的 Gen-1 模型的后续产品,Gen-2 是首批商业化的文本转视频模型之一。
“商业可用”是一个重要的区别。文本到视频是继图像和文本之后生成式人工智能的合理的下一个逻辑前沿,正在成为一个更大的关注领域,特别是在科技巨头中,其中一些公司在过去一年中展示了文本到视频模型。但这些模型仍处于研究阶段,除了少数数据科学家和工程师外,其他人都无法接触到。
当然,第一并不意味着更好。
出于个人的好奇心和对您的服务,亲爱的读者,我通过 Gen-2 运行了一些提示,以了解该模型能够 -- 和不能 -- 完成什么。(Runway 目前提供约 100 秒的免费视频生成。)我的疯狂并没有太多的方法,但我试图捕捉一系列无论是专业导演还是业余导演都可能希望在银幕或者在笔记本电脑上看到的角度、类型和风格。
Gen-2 的限制立即变得明显,该模型生成的 4 秒钟长的视频的帧率相当低,以至于在某些地方卡顿地就像幻灯片一样。
除了帧率问题,我还发现 Gen-2 生成的片段往往有着某种共同的颗粒感或模糊感,就像它们被应用了某种老式的 Instagram 滤镜。此外,其他地方也会出现假象,比如当“摄像机”(缺乏更好的词)绕过物体或快速向它们放大时,物体周围会出现像素化现象。
与许多生成模型一样,Gen-2 在物理学或解剖学方面也不是特别一致。就像超现实主义者创造的东西,Gen-2 制作的视频中人们的胳膊和腿融合在一起,然后又分开,而物体则融化在地板上并消失,影子也被扭曲变形。而且 -- 根据提示 -- 人脸可能会像洋娃娃一样,有光泽、没情感的眼睛和苍白的皮肤,让人想到廉价的塑料。
我试过一个提示 --“一个水下乌托邦的视频,用一台旧相机拍摄,‘found footage’电影风格”-- 但 Gen-2 没有生成这样的乌托邦,只有一个看起来像第一视角的潜水视频,穿过一个匿名的珊瑚礁。在我其他的提示中,Gen-2 也未能为一个特别要求”慢速变焦“的提示生成一个放大的镜头,也没有完全掌握普通宇航员的样子。
这些问题是否与 Gen-2 的训练数据集有关?也许吧。
Gen-2 和 Stable Diffusion 一样,是一个扩散模型,这意味着它学会了如何从完全由噪声构成的起始图像中逐渐减去噪声,使其一步一步地接近提示。扩散模型通过对数百万到数十亿的例子进行训练来学习;在一篇详细介绍 Gen-2 架构的学术论文中,Runway 说该模型是在一个由 2.4 亿张图片和 640 万个视频片段组成的内部数据集上训练的。
例子的多样性是关键。如果数据集不包含很多动画片段,那么这个模型 -- 缺乏参考点 -- 将无法生成合理质量的动画。(当然,动画是一个广泛的领域,即使数据集确实有动漫或手绘动画的片段,该模型也不一定能很好地推广到所有类型的动画)。
根据提示“一个 CEO 走进会议室的视频”,Gen-2 生成了男性和女性(尽管男性多于女性)围坐在类似会议桌旁的视频。同时,根据“一个医生在办公室工作的视频”这段描述,Gen-2 输出了一个在办公桌后的亚洲女医生。
对我来说,这一切的启示是,Gen-2 更像是一个新奇的玩具,而不是任何视频工作流程中真正有用的工具。这些输出可以被编辑成更连贯的东西吗?也许可以。但根据视频的情况,这可能比一开始就拍摄素材需要更多的工作量。
这并不是对这项技术的轻视。Runway 所做的一切令人印象深刻,它有效地击败了科技巨头,取得了文字转视频的优势。我敢肯定,一些用户会发现 Gen-2 的用途不需要真实感,也不需要大量的可定制性。(Runway 首席执行官 Cristóbal Valenzuela 最近告诉彭博社,他认为 Gen-2 是为艺术家和设计师提供的一种工具,可以帮助他们的创作过程)。
为了避免深层造假,Runway 表示它正在使用人工智能和人工审核的组合,防止用户产出包括色情或暴力内容或违反版权的视频。我可以确认 Gen-2 设有内容过滤器 -- 事实上过滤的程度会有点过。这些并不是万无一失的方法,我们必须看看它们在实践中的效果如何。
但至少现在,电影制片人、动画师、CGI 艺术家和伦理学家可以放心了。在 Runway 的技术接近生成电影质感的视频之前,至少还要经过几次迭代 -- 假设它能达到这个目标的话。