2023 年 5 月 19 日、中国インターネット協会と中国ソフトウェア産業協会、天津人工知能協会、Zhiding Technology、Zhiding Think Tank が共同で主導した第 7 回世界知能会議「世界知能技術革新協力サミット」において、著者が作成した「グローバル生成 AI 産業マップ 2023 年」と「2023 年グローバル生成 AI 産業調査レポート」は、政府部門、業界関係者、教育者、および公共の状況を参考としてグローバルな生成 AI の開発をより深く理解するために公開されています。
画像クレジット: Unbounded AI ツールによって生成
人工知能のフロンティア分野として、生成 AI は世界で最もホットな技術トピックとなっています。 2022 年に OpenAI が ChatGPT をリリースすると、生成 AI はモデル アプリケーション レベルで重要な進歩を遂げ、月間アクティブ ユーザー数はわずか 2 か月で 1 億人を超え、史上最も急速に成長するコンシューマー アプリケーションとなりました。世界中の多くのテクノロジー企業は、生成 AI 分野の研究開発への投資を増やし、技術、製品、アプリケーションにおける重要な成果を継続的に発表し、人工知能の革新と商業化を促進し続けています。
これに関連して、中国インターネット協会と中国ソフトウェア産業協会の指導の下、天津人工知能協会、志鼎科技、志鼎シンクタンクは共同で「2023年世界生成AI産業調査報告書」を発表した。グローバルな視点、業界の概要、インフラストラクチャ、アルゴリズム モデル、シナリオの適用、生成 AI の機会と課題を整理し、生成 AI の産業発展を包括的に表示し、政府部門、業界関係者、教育者、および一般向けに詳細な情報を提供します。生成 AI についてよく理解することが参考になります。
01 生成 AI 業界の概要
1.1 生成 AI のコンセプトとコンテンツ生成段階
Generative AI は、人工知能技術を使用して、専門家が作成したコンテンツ (PGC) とユーザーが作成したコンテンツ (UGC) に続いてコンテンツを自動的に生成する新しい制作方法です。
生成 AI は、膨大なトレーニング データと大規模な事前トレーニング済みモデルに基づいて、テキスト、音声、画像、ビデオ、クロスモーダル情報を自動的に生成および作成します。
OpenAI が 2022 年に ChatGPT をリリースして以来、生成 AI の世界的な波が勃発し、多くのテクノロジー企業が生成 AI モデル、製品、関連する基盤となるインフラストラクチャとサービスを発売しました。
1.2 生成型 AI 産業発展の原動力
近年、世界のデータ規模は成長を続けており、IDC は、世界のデータ規模が 2025 年までに 175ZB に達すると予測しており、人工知能モデルのトレーニングに大量のデータ リソースが提供され、高性能 AI チップの導入により、重要なコンピューティング能力がサポートされます。大規模な事前トレーニング モデル; Transformer、BERT、LaMDA、ChatGPT などのモデルは継続的な開発により、迅速な反復最適化を実現しました。データ、コンピューティング能力、モデルを原動力として、世界の生成 AI 業界は急速に発展し、関連するシナリオとアプリケーションは継続的に充実してきました。
一般に、NLP テクノロジーに基づくテキスト生成は、生成 AI の初期のアプリケーションであり、世界的に有名なテクノロジー企業は、Microsoft、Xmind、およびコピーライティング、データ分析、プレゼンテーションなどの関連製品などのテキスト生成アプリケーション ツールを次々と発表しています。マインドマッピングやその他の側面を考慮したアプリケーションケース。
5.1 生成型 AI の時代では、事務作業は高度に代替され、「顧客に尋ねる」ことが新しい職業になると予想されます
生成型 AI が雇用に与える影響 課題と機会は共存しています。一方で、生成型 AI は仕事のインテリジェントなアップグレードを促進し、一部の仕事は置き換えられます。ゴールドマン・サックスの分析によると、生成 AI のインテリジェントな自動化機能により、作業効率が大幅に向上し、運用コストが削減されます。米国とヨーロッパの従来の仕事は、さまざまな程度で AI 自動化の影響を受け、生成 AI が仕事の 4 分の 1 を置き換える可能性があります。 。
一方で、生成 AI は新しい仕事も生み出します。「エンジニア」では、人々が AI と対話して情報を取得したり作品を作成したりするためのプロンプトとして自然言語を使用できるようになります。さらに、人工知能を中心とした関連分野でも、多数の新たな雇用が創出されるでしょう。
法的主体が権利を享受できるため、生成 AI 著作物の著作権は、その著作物の生成に貢献した者のみが享受することができ、関係者には、ソフトウェア開発者、所有者、ユーザーが含まれます (主体の身元が重複する場合があります)。ソフトウェアの著作権から補償されており、生成 AI 著作物の著作権は主にソフトウェアの所有者とユーザーの間で分配されます。
中国インターネット協会が「2023年世界生成AI産業調査報告書」を発表
出典: 中国インターネット協会
人工知能のフロンティア分野として、生成 AI は世界で最もホットな技術トピックとなっています。 2022 年に OpenAI が ChatGPT をリリースすると、生成 AI はモデル アプリケーション レベルで重要な進歩を遂げ、月間アクティブ ユーザー数はわずか 2 か月で 1 億人を超え、史上最も急速に成長するコンシューマー アプリケーションとなりました。世界中の多くのテクノロジー企業は、生成 AI 分野の研究開発への投資を増やし、技術、製品、アプリケーションにおける重要な成果を継続的に発表し、人工知能の革新と商業化を促進し続けています。
これに関連して、中国インターネット協会と中国ソフトウェア産業協会の指導の下、天津人工知能協会、志鼎科技、志鼎シンクタンクは共同で「2023年世界生成AI産業調査報告書」を発表した。グローバルな視点、業界の概要、インフラストラクチャ、アルゴリズム モデル、シナリオの適用、生成 AI の機会と課題を整理し、生成 AI の産業発展を包括的に表示し、政府部門、業界関係者、教育者、および一般向けに詳細な情報を提供します。生成 AI についてよく理解することが参考になります。
01 生成 AI 業界の概要
1.1 生成 AI のコンセプトとコンテンツ生成段階
Generative AI は、人工知能技術を使用して、専門家が作成したコンテンツ (PGC) とユーザーが作成したコンテンツ (UGC) に続いてコンテンツを自動的に生成する新しい制作方法です。
生成 AI は、膨大なトレーニング データと大規模な事前トレーニング済みモデルに基づいて、テキスト、音声、画像、ビデオ、クロスモーダル情報を自動的に生成および作成します。 OpenAI が 2022 年に ChatGPT をリリースして以来、生成 AI の世界的な波が勃発し、多くのテクノロジー企業が生成 AI モデル、製品、関連する基盤となるインフラストラクチャとサービスを発売しました。
近年、世界のデータ規模は成長を続けており、IDC は、世界のデータ規模が 2025 年までに 175ZB に達すると予測しており、人工知能モデルのトレーニングに大量のデータ リソースが提供され、高性能 AI チップの導入により、重要なコンピューティング能力がサポートされます。大規模な事前トレーニング モデル; Transformer、BERT、LaMDA、ChatGPT などのモデルは継続的な開発により、迅速な反復最適化を実現しました。データ、コンピューティング能力、モデルを原動力として、世界の生成 AI 業界は急速に発展し、関連するシナリオとアプリケーションは継続的に充実してきました。
02 生成 AI インフラストラクチャ
2.1 AI 高性能チップは、生成 AI トレーニングのコンピューティング能力をサポートします
人工知能の発展はディープラーニングの時代から大規模モデルの時代に入り、大規模な事前学習モデルのパラメータ数は指数関数的に増加しており、高性能な計算能力のサポートが必要となっています。
現在、大規模な事前トレーニング モデルのトレーニング コンピューティング能力は、過去の 10 ~ 100 倍になっています。現在の主流の生成 AI モデル トレーニングでは、Nvidia Tensor Core GPU チップが広く使用されています。たとえば、Microsoft は数億ドルを費やしました。 Open AI による ChatGPT の構築を支援するために、数万個の Nvidia A100 チップを購入するためです。
AI コンピューティング クラスターは、大規模なコンピューティング能力を提供し、コンピューティング能力リソースの使用率を継続的に向上させ、データ ストレージと処理能力を向上させ、AI 大規模モデルのトレーニングと推論の効率を加速します。
現在、Nvidia DGX SuperPOD、Baidu インテリジェント クラウド ハイパフォーマンス コンピューティング クラスター EHC、テンセントの新世代ハイパフォーマンス コンピューティング クラスター HCC などの典型的な AI コンピューティング クラスター、関連コンピューティング パワー インフラストラクチャは、生成のための強力なコンピューティング パワー リソースを提供し続けています。 AI トレーニング シナリオにより、モデル トレーニングのしきい値とコストをさらに削減し、生成 AI モデルの実装を促進します。
人工知能の事前トレーニングモデルの開発にはクラウドサービスの需要が大きく、AIクラウドサービスは人工知能開発モジュールを提供でき、多様なサービスモデルを通じて開発者の開発コストと製品開発サイクルを削減し、AIのエンパワーメントを提供できます。モデル開発用です。
典型的な例は、画像/画像分析、音声処理、自然言語理解およびその他の関連サービスを提供できる Amazon SageMaker であり、ユーザーはパラメータやアルゴリズムを知らなくても機能的なアプリケーションを実現できます。
Baidu Flying Paddle EasyDL ゼロしきい値 AI 開発プラットフォームは、画像分類、物体検出、テキスト分類、音声分類、ビデオ分類などの機能を提供し、ワンストップの自動トレーニングを実現し、AI カスタム開発のしきい値を下げます。
03 生成 AI アルゴリズム モデル
3.1 グローバル生成 AI モデルの開発の歴史
2018 年以来、OpenAI は GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4 などの一連の生成事前トレーニング モデルを連続してリリースしてきました。 GPT-1 モデルは Transformer アーキテクチャに基づいており、アーキテクチャのデコーダ部分のみが保持されます。
GPT-2 モデルは、GPT-1 の教師あり微調整段階をキャンセルします。
GPT-3 モデルは GPT-2 のゼロショットを放棄し、特定のタスクに対して少数のサンプルを提供するために少数ショットを使用します。ChatGPT は RLHF (ヒューマン フィードバック強化学習) テクノロジーを使用して、タスクの出力を調整する機能を強化します。モデル。
2023年にリリースされるGPT-4モデルは、より強力なマルチモーダル機能を備えており、グラフィックスとテキストのマルチモーダル入力をサポートし、応答テキストを生成することで、視覚要素の分類、分析、暗黙的な意味抽出を実現でき、優れた応答能力を示します。 。
2017 年に Google は象徴的な Transformer モデルをリリースしました。このモデルのデコード モジュールは GPT モデルの中核要素になりました。アテンション メカニズムを導入することで、より大規模な並列コンピューティングを実現し、モデルのトレーニング時間を大幅に短縮できます。大規模な AI モデルを適用します。 BERT モデルと LaMDA モデルは、情報抽出機能とセキュリティの点で常に改善されています。
新しく発売されたPaLM-Eモデルは、強力な汎化機能と移行機能を備えており、マルチモーダルデータ(言語、視覚、触覚など)を処理できます。
拡散モデルの研究は 2015 年に遡り、2020 年にはノイズ除去拡散確率モデル (DDPM) が提案され、拡散モデルの強力な機能が実証され、拡散モデルの開発が促進されました。モデルは主に順処理と逆処理の 2 つの処理で構成されます。順処理は拡散処理とも呼ばれます。拡散モデルは画像にガウス ノイズを加えて学習し、学習データを破壊し、ノイズを元に戻す方法を見つけます。プロセスを実行し、学習したノイズ除去手法を使用することで、ランダムな入力から新しい画像を合成できます。
拡散モデルの利点は、生成される画像の品質が高く、敵対的トレーニングを必要としないことであり、必要なデータが少ない条件下では、モデルの画像生成効果が大幅に向上します。
テキスト生成アプリケーションは主に、コンテンツの継続、テキスト スタイルの転送、要約/タイトルの生成、テキスト全体の生成の 4 つの分野に分かれており、関連するパーソナライズされたテキストの生成とリアルタイムのテキスト インタラクションは幅広い見通しを持っています。
一般に、NLP テクノロジーに基づくテキスト生成は、生成 AI の初期のアプリケーションであり、世界的に有名なテクノロジー企業は、Microsoft、Xmind、およびコピーライティング、データ分析、プレゼンテーションなどの関連製品などのテキスト生成アプリケーション ツールを次々と発表しています。マインドマッピングやその他の側面を考慮したアプリケーションケース。
イメージ生成の技術シナリオは、イメージ属性の編集、部分イメージの生成と変更、エンドツーエンドのイメージ生成に分かれています。このうち、最初の 2 つのランディング シナリオは画像編集ツールであり、エンドツーエンドの画像生成は、クリエイティブ画像生成と機能画像生成の 2 つの主要なランディング シナリオに対応します。
現在、画像編集ツールが広く使用されており、関連製品も比較的豊富で、クリエイティブな画像生成は主にNFTなどの形で提示され、機能的な画像は主にマーケティングポスター/インターフェース、ロゴ、モデル写真、ユーザーアバターなどです。 。
オーディオ生成はすでに日常生活の中で一般的であり、その応用分野はさらに音声合成と音楽作成に分類でき、音声合成にはテキスト生成固有音声 (TTS) や音声クローンの分野が含まれます。
TTS 分野の技術的成熟度は比較的高いですが、感情表現はまだ不足しています。音声クローンは映画、アニメーション、その他の業界にとって非常に重要であり、注目に値します。音楽制作はさらに作詞、作曲、音楽制作に細分化できます。アレンジ、レコーディング、ミキシングなど、多方向の制作プロセスは主に Transformer モデルに依存します。
ビデオ生成は、将来のクロスモーダル生成の分野で中程度から高い可能性のあるシナリオになると予想されます。ビデオ生成は主に、ビデオ属性編集、ビデオ自動編集、ビデオパーツ生成の 3 つの分野に対応します。
ビデオ属性編集はビデオ作成の分野で広く使用されており、ビデオ編集の効率が大幅に向上しています。自動ビデオ編集は主に技術試行段階にあります。ビデオパーツ生成の原理と本質は画像生成と似ており、ビデオのカットに重点が置かれています。画像処理、この段階での技術は、修正の精度とリアルタイムの修正を向上させることです。
デジタル ヒューマンとは、非物理的な世界 (写真、ビデオ、生放送、VR など) に存在する複数の人間の特性を統合したものを指します。デジタル ヒューマンは、テキスト/オーディオなどの低密度モダリティから、画像/ビデオ/リアルタイム インタラクションなどのより高密度の情報モダリティへの移行を表しており、将来的にはビデオ、さらにはメタバースもデジタル ヒューマンの重要なアプリケーション シナリオとなるでしょう。
生成 AI の分野では、デジタル ヒューマンの生成はデジタル ヒューマンのビデオ生成とデジタル ヒューマンのリアルタイム インタラクションに分けられます。デジタル ヒューマンのビデオ生成は現在最も広く使用されている分野の 1 つであり、デジタル ヒューマンのリアルタイム インタラクションは主に使用されています。ビジュアルインテリジェントな顧客サービスなど、リアルタイムのインタラクティブ機能を重視します。
05 生成型 AI の機会と課題
5.1 生成型 AI の時代では、事務作業は高度に代替され、「顧客に尋ねる」ことが新しい職業になると予想されます
生成型 AI が雇用に与える影響 課題と機会は共存しています。一方で、生成型 AI は仕事のインテリジェントなアップグレードを促進し、一部の仕事は置き換えられます。ゴールドマン・サックスの分析によると、生成 AI のインテリジェントな自動化機能により、作業効率が大幅に向上し、運用コストが削減されます。米国とヨーロッパの従来の仕事は、さまざまな程度で AI 自動化の影響を受け、生成 AI が仕事の 4 分の 1 を置き換える可能性があります。 。
一方で、生成 AI は新しい仕事も生み出します。「エンジニア」では、人々が AI と対話して情報を取得したり作品を作成したりするためのプロンプトとして自然言語を使用できるようになります。さらに、人工知能を中心とした関連分野でも、多数の新たな雇用が創出されるでしょう。
生成AIの本質は機械学習の応用であり、モデルの学習段階では必然的に大量のデータセットを使用して学習を行うことになりますが、学習後の製品の著作権帰属の問題は依然として議論の余地があります。
法的主体が権利を享受できるため、生成 AI 著作物の著作権は、その著作物の生成に貢献した者のみが享受することができ、関係者には、ソフトウェア開発者、所有者、ユーザーが含まれます (主体の身元が重複する場合があります)。ソフトウェアの著作権から補償されており、生成 AI 著作物の著作権は主にソフトウェアの所有者とユーザーの間で分配されます。