カイル・ウィガーズ著出典: TechCrunch *画像の出典: Unbounded AI ツールによって生成*『アベンジャーズ/エンドゲーム』などのマーベル映画の監督ジョー・ルッソ氏は、Colliderとの最近のインタビューで、2年以内にAIが本格的な映画を制作できるようになるだろうと予測した。この点に関しては、これはかなり楽観的な見積もりであると言えます。しかし、私たちは近づいています。今週、Google が支援する AI スタートアップ Runway (AI 画像生成器 Stable Diffusion の開発に協力) は、テキスト プロンプトまたは既存の画像に基づいてビデオを生成するモデル Gen-2 をリリースしました。 (Gen-2 は、以前は限られた順番待ちリストでのみ入手可能でした。) Runway が 2 月に発売した Gen-1 モデルに続く Gen-2 は、最初に市販されたテキストからビデオへのモデルの 1 つです。「商用利用可能」は重要な違いです。画像とテキストに次ぐ論理的な生成 AI のフロンティアであるテキストからビデオへの変換は、特にハイテク大手の間でより大きな焦点分野になりつつあり、その一部は過去 1 年間でテキストからビデオへの変換を実証しています。 。しかし、これらのモデルはまだ研究段階にあり、一部のデータ サイエンティストやエンジニア以外はアクセスできません。もちろん、最初が良いという意味ではありません。個人的な好奇心から、そして親愛なる読者への奉仕として、私は Gen-2 にいくつかのヒントを実行して、モデルが何を達成できるのか、そして何が達成できないのかを確認しました。 (現在、Runway では約 100 秒の無料ビデオ生成を提供しています。)私の狂気を解決する方法はあまりありませんが、プロまたはアマチュアの監督がスクリーン上またはテレビで見たいと思うであろうさまざまな角度をキャプチャしようとしています。ラップトップ、タイプ、スタイル。Gen-2 の限界はすぐに明らかになり、このモデルでは 4 秒の長さのビデオが非常に低いフレーム レートで生成されるため、所々スライド ショーのように途切れることがありました。 不明なのは、これが技術的な問題なのか、それとも計算コストを節約するための Runway の試みなのかです。しかし、どちらの場合でも、ポストプロダクション作業を避けたい編集者にとって、Gen-2 はかなり魅力のない提案になります。フレーム レートの問題とは別に、Gen-2 で生成されたクリップには、ある種の昔ながらの Instagram フィルターが適用されているかのように、特定の粒状感や不鮮明さが共有される傾向があることもわかりました。また、「カメラ」(適切な言葉がありませんが)がオブジェクトの周りを回ったり、オブジェクトにすばやくズームしたりするときに、オブジェクトの周囲にピクセル化が発生するなど、他の場所にもアーティファクトが発生します。多くの生成モデルと同様、Gen-2 は物理学や解剖学の点で特に一貫性がありません。 Gen-2 は、シュールレアリストが作成するもののように、人々の腕と脚が融合したり分離したり、物体が床に溶けて消えたり、影が歪んだりするビデオを作成しました。そして、その瞬間、人間の顔は人形のようになり、光沢のある感情のない目と安物のプラスチックを思わせる青白い肌になる可能性があります。  それ以上に、内容の問題があります。 Gen-2 はニュアンスを理解するのが難しいようで、プロンプト内の特定の説明に固執して他の説明を無視するのは恣意的であるように思えます。「古いカメラで撮影した、『ファウンド・フッテージ』映画スタイルの水中ユートピアのビデオ」というヒントを試してみましたが、Gen-2 ではそのようなユートピアは生成されず、一人称視点のダイブのようなユートピアしか生成されませんでした。匿名のサンゴ礁を渡るビデオ。私の他のプロンプトの中でも、Gen-2 は特に「低速ズーム」を要求するプロンプトに対してズームイン ショットを生成できず、平均的な宇宙飛行士がどのようなものかを完全に把握することもできませんでした。これらの問題は Gen-2 トレーニング データセットに関連していますか?多分。Gen-2 は、Stable Diffusion と同様に拡散モデルです。つまり、完全にノイズで構成される開始画像からノイズを徐々に差し引いて、段階的にキューに近づく方法を学習します。拡散モデルは、数百万から数十億の例でトレーニングすることによって学習します。Gen-2 アーキテクチャを詳細に説明する学術論文の中で、Runway は、モデルが 2 億 4,000 万の画像と 640 万のビデオ クリップのデータセットでトレーニングされたと述べています。内部データセットでトレーニングされました。多様な例が重要です。データセットに多くのアニメーション クリップが含まれていない場合、モデルは参照ポイントが不足しているため、適切な品質のアニメーションを生成できません。 (もちろん、アニメーションは幅広い分野であり、データセットにアニメや手描きのアニメーションのクリップが含まれていたとしても、モデルがすべての種類のアニメーションに適切に一般化できるとは限りません)。 プラス面としては、Gen-2 は表面的なバイアス テストに合格しています。 DALL-E 2 のような生成 AI モデルは社会的偏見を強化し、主に白人男性を描いた「CEO やディレクター」などの権威ある地位の画像を生成することが判明しましたが、Gen-2 はもう少し効果的に画像を生成することができました。コンテンツの多様性 -- 少なくとも私のテストでは。「会議室に入る CEO のビデオ」というプロンプトに基づいて、Gen-2 は同様の会議テーブルの周りに座っている男性と女性 (ただし、女性よりも男性の方が多かった) のビデオを生成しました。一方、Gen-2 では、「オフィスで働く医師のビデオ」という説明に従って、机の後ろに座るアジア人の女性医師が出力されます。 それでも、「看護師」という単語を含むプロンプトはどれも肯定的なものではなく、一貫して若い白人女性を示していました。 「ウェイター」というフレーズも同様です。 Gen-2 にはまだやるべきことがたくさんあることは明らかです。これらすべてから私にとって得られるのは、Gen-2 はビデオ ワークフローにおいて真に役立つツールというよりも、目新しいおもちゃにすぎないということです。これらの出力を編集して、より一貫性のあるものにすることはできますか?多分。ただし、ビデオによっては、最初に映像を撮影するよりも手間がかかる場合があります。これはテクノロジーを否定するものではありません。 Runway が成し遂げたことは印象的で、事実上ハイテク大手を破ってテキストからビデオへの変換という利点を獲得しました。 Gen-2 の使用にはリアリズムや高度なカスタマイズ性は必要ないと感じるユーザーもいると思います。 (ランウェイの CEO、クリストバル・ヴァレンズエラ氏は最近ブルームバーグに対し、Gen-2 はアーティストやデザイナーの創作プロセスを支援するツールだと考えていると語った)。 私も試してみました。 Gen-2 は、アニメやクレイメーション アニメーションなど、低いフレーム レートに適したさまざまなスタイルを理解します。いくつかの部分をつなぎ合わせて、少しの修正と編集を加えて物語の構成を作成することは不可能ではありません。ディープフェイクを回避するために、ランウェイは人工知能と人間によるモデレーションを組み合わせて、ユーザーがポルノや暴力を含むビデオを制作したり、著作権を侵害したりすることを防止していると述べた。 Gen-2 にはコンテンツ フィルターがあることが確認できました。実際、少し多すぎます。これらは確実な方法ではないため、実際にどれだけうまく機能するかを確認する必要があります。しかし、少なくとも今のところ、映画制作者、アニメーター、CGI アーティスト、倫理学者は安心していいでしょう。 Runway のテクノロジーが映画のような品質のビデオを作成できるようになるまでには、少なくとも数回の反復が必要になります (ただし、そこまで到達できたとしても)。
「インスタント・ユニバース」の裏テクノロジー企業、ランウェイAIモデルGen-2を実測:映画並みの動画生成までの道のりはまだまだ長い
カイル・ウィガーズ著
出典: TechCrunch
『アベンジャーズ/エンドゲーム』などのマーベル映画の監督ジョー・ルッソ氏は、Colliderとの最近のインタビューで、2年以内にAIが本格的な映画を制作できるようになるだろうと予測した。この点に関しては、これはかなり楽観的な見積もりであると言えます。しかし、私たちは近づいています。
今週、Google が支援する AI スタートアップ Runway (AI 画像生成器 Stable Diffusion の開発に協力) は、テキスト プロンプトまたは既存の画像に基づいてビデオを生成するモデル Gen-2 をリリースしました。 (Gen-2 は、以前は限られた順番待ちリストでのみ入手可能でした。) Runway が 2 月に発売した Gen-1 モデルに続く Gen-2 は、最初に市販されたテキストからビデオへのモデルの 1 つです。
「商用利用可能」は重要な違いです。画像とテキストに次ぐ論理的な生成 AI のフロンティアであるテキストからビデオへの変換は、特にハイテク大手の間でより大きな焦点分野になりつつあり、その一部は過去 1 年間でテキストからビデオへの変換を実証しています。 。しかし、これらのモデルはまだ研究段階にあり、一部のデータ サイエンティストやエンジニア以外はアクセスできません。
もちろん、最初が良いという意味ではありません。
個人的な好奇心から、そして親愛なる読者への奉仕として、私は Gen-2 にいくつかのヒントを実行して、モデルが何を達成できるのか、そして何が達成できないのかを確認しました。 (現在、Runway では約 100 秒の無料ビデオ生成を提供しています。)私の狂気を解決する方法はあまりありませんが、プロまたはアマチュアの監督がスクリーン上またはテレビで見たいと思うであろうさまざまな角度をキャプチャしようとしています。ラップトップ、タイプ、スタイル。
Gen-2 の限界はすぐに明らかになり、このモデルでは 4 秒の長さのビデオが非常に低いフレーム レートで生成されるため、所々スライド ショーのように途切れることがありました。
フレーム レートの問題とは別に、Gen-2 で生成されたクリップには、ある種の昔ながらの Instagram フィルターが適用されているかのように、特定の粒状感や不鮮明さが共有される傾向があることもわかりました。また、「カメラ」(適切な言葉がありませんが)がオブジェクトの周りを回ったり、オブジェクトにすばやくズームしたりするときに、オブジェクトの周囲にピクセル化が発生するなど、他の場所にもアーティファクトが発生します。
多くの生成モデルと同様、Gen-2 は物理学や解剖学の点で特に一貫性がありません。 Gen-2 は、シュールレアリストが作成するもののように、人々の腕と脚が融合したり分離したり、物体が床に溶けて消えたり、影が歪んだりするビデオを作成しました。そして、その瞬間、人間の顔は人形のようになり、光沢のある感情のない目と安物のプラスチックを思わせる青白い肌になる可能性があります。
「古いカメラで撮影した、『ファウンド・フッテージ』映画スタイルの水中ユートピアのビデオ」というヒントを試してみましたが、Gen-2 ではそのようなユートピアは生成されず、一人称視点のダイブのようなユートピアしか生成されませんでした。匿名のサンゴ礁を渡るビデオ。私の他のプロンプトの中でも、Gen-2 は特に「低速ズーム」を要求するプロンプトに対してズームイン ショットを生成できず、平均的な宇宙飛行士がどのようなものかを完全に把握することもできませんでした。
これらの問題は Gen-2 トレーニング データセットに関連していますか?多分。
Gen-2 は、Stable Diffusion と同様に拡散モデルです。つまり、完全にノイズで構成される開始画像からノイズを徐々に差し引いて、段階的にキューに近づく方法を学習します。拡散モデルは、数百万から数十億の例でトレーニングすることによって学習します。Gen-2 アーキテクチャを詳細に説明する学術論文の中で、Runway は、モデルが 2 億 4,000 万の画像と 640 万のビデオ クリップのデータセットでトレーニングされたと述べています。内部データセットでトレーニングされました。
多様な例が重要です。データセットに多くのアニメーション クリップが含まれていない場合、モデルは参照ポイントが不足しているため、適切な品質のアニメーションを生成できません。 (もちろん、アニメーションは幅広い分野であり、データセットにアニメや手描きのアニメーションのクリップが含まれていたとしても、モデルがすべての種類のアニメーションに適切に一般化できるとは限りません)。
「会議室に入る CEO のビデオ」というプロンプトに基づいて、Gen-2 は同様の会議テーブルの周りに座っている男性と女性 (ただし、女性よりも男性の方が多かった) のビデオを生成しました。一方、Gen-2 では、「オフィスで働く医師のビデオ」という説明に従って、机の後ろに座るアジア人の女性医師が出力されます。
これらすべてから私にとって得られるのは、Gen-2 はビデオ ワークフローにおいて真に役立つツールというよりも、目新しいおもちゃにすぎないということです。これらの出力を編集して、より一貫性のあるものにすることはできますか?多分。ただし、ビデオによっては、最初に映像を撮影するよりも手間がかかる場合があります。
これはテクノロジーを否定するものではありません。 Runway が成し遂げたことは印象的で、事実上ハイテク大手を破ってテキストからビデオへの変換という利点を獲得しました。 Gen-2 の使用にはリアリズムや高度なカスタマイズ性は必要ないと感じるユーザーもいると思います。 (ランウェイの CEO、クリストバル・ヴァレンズエラ氏は最近ブルームバーグに対し、Gen-2 はアーティストやデザイナーの創作プロセスを支援するツールだと考えていると語った)。
ディープフェイクを回避するために、ランウェイは人工知能と人間によるモデレーションを組み合わせて、ユーザーがポルノや暴力を含むビデオを制作したり、著作権を侵害したりすることを防止していると述べた。 Gen-2 にはコンテンツ フィルターがあることが確認できました。実際、少し多すぎます。これらは確実な方法ではないため、実際にどれだけうまく機能するかを確認する必要があります。
しかし、少なくとも今のところ、映画制作者、アニメーター、CGI アーティスト、倫理学者は安心していいでしょう。 Runway のテクノロジーが映画のような品質のビデオを作成できるようになるまでには、少なくとも数回の反復が必要になります (ただし、そこまで到達できたとしても)。