低構成で AIGC を再生できる 4G ビデオ メモリ! ControlNet 作者の新作が GitHub ホット リストのトップにランクイン

記事の出典: Qubit

文:クレッシー・シャオシャオ

AI ペイントをプレイすれば、黄老のナイフのスキルで「裏切り」されることを心配する必要はありません。

必要なのは 4 年前の GTX 1650 (4GB ビデオ メモリ) だけで、AI レンダリング効果は現在の最高のオープンソース モデル SDXL に匹敵します。

** ** 出典:Twitter@ナビ

これは新しいプロジェクト Fooocus で、数日連続で GitHub のトップ 1 リストを独占しています。3 日間で 4K のマークが付きました。ControlNet 作者 によって制作されました。

発売前は、Stable Diffusion の最新 XL モデルをスムーズに動作させたい場合は、16G ビデオ メモリを搭載した 4060ti を使用する必要がありました (12G ビデオ メモリを搭載したオリジナルの 3060 は動作に非常に抵抗がありました)。

他のオープンソース AI ツールとは異なり、Fooocus は「生成自体に焦点を当て」ており、ハードウェア要件が低いだけでなく、使いやすく、非常に初心者に優しい——

プロセス全体でパラメータを調整する必要はなく、マウスをクリックするだけで、3 ステップで画像を生成できます。

** ****△**画像出典 Twitter @Photogenic Weekend

一部のネチズンは、「これは単に安定版拡散とミッドジャーニーの集大成だ」と叫んだ。

手動チューニングに別れを告げましょう!オフライン、オープンソース、無料で、言葉と画像を促すだけで魔法が起こります。

一部のネチズンは、「Xiaobai でも Stable Diffusion XL モデルの効果を最大限に発揮できる」と嘆いています。

では、このまったく新しい画像 AI ツールの実際の生成効果はどのようなものでしょうか?試してみました。

Colab は 30 分で絵を描き、その効果は SD に匹敵します

実行インターフェイスの観点から見ると、Fooocus には 100 以上の組み込みスタイルから選択できます。

** ****△**画像出典 Twitter @camenduru

効率に関しては、Fooocus は描画も非常に高速です。 Colab では、速度優先モードで絵を描くのに約 30 分かかります。

ログに表示される時間は描画時間ですが、その前にテキスト解析のプロセスがあり、合計で約 40 秒かかりました。

** **### 画像は高速化されました

次に、最初に似顔絵を描いてもらい、AIの観点から「マザール戦争」がどのように見えるかを見てみましょう。 (このマザハではありません)

AI を使用してポートレートを直接生成するため、手の扱いにはまだいくつかの問題があるため、マスクとザッカーバーグには単に手袋を着用させました。

効果はかなり良いようです。彼らに賭けがあるかどうかは知りませんが、敗者にドレスアップをさせるのもいいかもしれません。

(注意:戦いに勝者はありません)

最後には二人が「握手して和解」するという貴重なシーンもカメラマンが撮影したのですが、全体的にそういう味わいになっているのでしょうか?

「マザールの戦い」が終わった後、老馬は素直に会社に戻り、テスラを売却した。

ロゴを無視すれば、ポスターのデザインセンスは非常にオンラインです。

実際、Fooocus の組み込みスタイルはどれも非常に興味深いので、さまざまなスタイルのライブ写真を見てみましょう。

有名な作品を模倣する場合、サイバーパンク バージョン、ゼルダ バージョン、Minecraft バージョン、さらには Pokémon バージョンの Musk にも注目してください。

他のアート形式としては、ピクセル スタイルや ローポリ スタイル、ねんどろいど バージョンや シソリアル バージョンなどがあります…

もちろん、例は無限にあるので、より多くのスタイルの読者や友人が自分で体験することができます。

(AI描画内のテキストは最終的にはゴースト描画ではないと言わなければなりません)

偉大な画家たちはすでにせっかちで、それを試してみたいと思っているのでしょうか? Fooocusの遊び方をすぐにご紹介します!

Fooocus のインターフェースは Aunt Jiang のもので、非常に簡潔であると言えます。

何か新しいことを試しているだけで、特別な要件がない場合は、このプロンプト ボックスで完全に十分です

作成者は多くの複雑なスキルをプログラムに組み込んでいるため、パラメータを調整するこれらの操作を手動で行う必要はなくなりました。

下のボックスに直接入力し、生成ボタンをクリックして、図面が生成されるまで待ちます。

(デフォルトでは一度に2枚出力、サイズは1152×896、スタイルはシネマティックデフォルト、速度優先)

詳細設定が必要な場合は、左下隅の「詳細」にチェックを入れると、ページの右側に構成情報が 3 つのタブに分かれて表示されます。

調整できる内容には、サイズ、数量、スタイル、パフォーマンスなどが含まれます。

プロのプレイヤーの場合は、モデルのバージョンを選択し、LoRA パラメーターを調整することもできます。

さらに、切れ味を調整するというハイエンドなゲームもあります。

同じコンテンツについて、次の GIF はシャープネスが 2 から 10、その後 20 に変化することを示しています。鮮明さが増すにつれて、画像の詳細がますます豊かになることがわかります。

ただし、Fooocus が 中国語 に対応しているかどうかについては、私たちも試してみましたが、まだ利用できないのが残念です。

たとえば、「リンゴ」というプロンプト単語を入力すると、結果は女の子になります。

これは...「あなたは私の目のリンゴです」と言いたいのでしょうか?

Fooocus のプレイ方法はおそらくわかったでしょう。それでは、どのように設定すればよいでしょうか?

Nvidia グラフィック カードを搭載した Windows マシンをお持ちの場合は、すぐに使えるバージョンを使用できます。 (おそらく老黄が麻雀で勝ったのはこれで 114514 回目です)

同時に、ハードウェアは最小構成要件(4GB ビデオ メモリ + 8GB メモリ)を満たす必要があります。

まずはここから直接ダウンロードしてください:

解凍後、run.bat をダブルクリックして実行すると、システムがモデルを自動的にダウンロードしてデプロイし、構成の完了後に使用できるようになります。

Linux バージョンの構成要件は Windows の構成要件と同じですが、構成プロセスはより複雑です。

(Jupyterをお持ちの方はColabで使用しているノートファイルも参照できます)

まず、環境の依存関係をインストールします。

gitクローン cd フーカス conda env create -f 環境.yaml condaはfooocusをアクティブ化します pip install -rrequirements_versions.txt

次に、モデル ファイルをダウンロードして、指定したディレクトリに保存します。

** ** 詳細はGitHubページをご覧ください。

もちろん、システムにモデルを自動的にダウンロードさせることもできます。

Pythonの起動.py

Mac を使用している場合、またはハードウェア構成が要件を満たしていない場合は、Colab で直接実行することもできます。

(ポータル:

ただし、それでも不満を感じなければならないのは、Colab バージョンが時々何度かクラッシュし、自動的に停止したり、メモリ オーバーフローが発生したりすることです...

Mac または A カード コンピュータで Fooocus をよりスムーズに実行したい場合は、作者のアップデートを待ってください。

全体として、Fooocus の画像出力効果は良好で、プロンプトワードを適切に選択すれば、安定した拡散としても使用できます。重要なのは、ハードウェア構成要件が高くないことです。

いったいどうやってそんなことが可能なのでしょうか?

ControlNet 作者の最新プロジェクトより

アーキテクチャ設計の観点から見ると、Fooocus は主にインタラクティブ インターフェイスと AI モデルの 2 つの部分に分かれています。

このうち、インタラクティブ インターフェイス は、stable-diffusion-webui と ComfyUI という 2 つのプロジェクトを指します。

steady-diffusion-webui は主に対話型インターフェースのフロントエンド設計です。

ComfyUI には、安定した拡散の GUI とバックエンド設計の両方があります。

AI モデル に関しては、安定拡散の新しい SDXL モデルが使用されていることがわかります。

これは現在、Stable Diffusion の最良のバージョンの 1 つであり、生成効果は以前のバージョン 1.5 と比較して大幅に改善されています。

ただし、Fooocus のモデルと UI デザインは既製の Stable Diffusion オープンソース プロジェクトを参照していますが、作成者は作成時に独自の最適化設計を多く組み込んでおり、モデルがよりスムーズに動作するようになりました。

たとえば、著者は Fooocus で自ら設計した高度な k 拡散サンプリング手法を慎重に採用しました。これにより、サンプリングの連続性が向上し、パフォーマンスの損失が軽減され、サンプリング効率が向上します。

また、オリジナル版をベースに、サンプラー(Sampler)のパラメーターを入念に調整し、ムービースタイルなどの新たな設定をいくつか修正・追加しました。

LoRA オプションが Fooocus に追加された理由は、LoRA を使用した SDXL モデル (重み設定が 0.5 未満) が、LoRA を使用しない SDXL モデルよりもほとんどの場合優れていることを著者が発見したためです。

Fooocus プロジェクトを開発した著者の名前は Lvmin Zhang で、2021 年に東州大学を卒業し、現在スタンフォード大学の博士課程の学生です。

ControlNet や style2paints など、彼が行ったいくつかのプロジェクトでは、そのほぼすべてが爆発的に成長しました。

現在、最新プロジェクト Fooocus も同様に人気があるようです。

ソーシャルメディア上では、一部のネチズンがさまざまな形式の Excel でプロンプトワードのコレクションの Fooocus バージョンを自発的に作成しました。

どのような種類の画像を生成すればよいかわからない場合は、このドキュメントのプロンプトの単語を参照してください。

Fooocus でどのような画像を生成したいかは決まりましたか?

プロジェクトアドレス:

参考リンク: [1] [2] プロンプト単語のコレクション: [3] [4]

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)