L'Internet Society of China a publié: Rapport de recherche sur l'industrie mondiale de l'IA générative 2023

Source : Société Internet de Chine

Le 19 mai 2023, lors de la Seventh World Intelligence Conference "World Intelligent Technology Innovation Cooperation Summit", guidée conjointement par l'Internet Society of China et la China Software Industry Association, la Tianjin Artificial Intelligence Society, Zhiding Technology et le Zhiding Think Tank The " Global Generative AI Industry Map 2023" et "2023 Global Generative AI Industry Research Report" préparés par l'auteur sont publiés pour mieux comprendre le développement de l'IA générative mondiale pour les ministères, les praticiens de l'industrie, les éducateurs et la situation publique à titre de référence.

Crédit image : Généré par les outils Unbounded AI

En tant que domaine frontalier de l'intelligence artificielle, l'IA générative est devenue le sujet technologique le plus brûlant au monde. En 2022, OpenAI a lancé ChatGPT, et l'IA générative a réalisé une percée importante au niveau des applications modèles. Le nombre d'utilisateurs actifs mensuels a dépassé les 100 millions en seulement deux mois, ce qui en fait l'application grand public à la croissance la plus rapide de l'histoire. De nombreuses entreprises technologiques à travers le monde ont augmenté leurs investissements dans la recherche et le développement dans le domaine de l'IA générative, et ont continuellement lancé d'importantes réalisations en matière de technologie, de produits et d'applications, et ont continué à promouvoir l'innovation et la commercialisation de l'intelligence artificielle.

Dans ce contexte, sous la direction de l'Internet Society of China et de la China Software Industry Association, la Tianjin Artificial Intelligence Society, Zhiding Technology et Zhiding Think Tank ont publié conjointement le "Rapport de recherche sur l'industrie de l'IA générative mondiale 2023", qui part d'un perspective globale, pour trier la vue d'ensemble de l'industrie, l'infrastructure, le modèle d'algorithme, l'application de scénarios, les opportunités et les défis de l'IA générative, afficher de manière exhaustive le développement industriel de l'IA générative et fournir plus d'informations aux ministères, aux praticiens de l'industrie, aux éducateurs et au public une bonne compréhension de l'IA générative fournit une référence.

01 Aperçu de l'industrie de l'IA générative

1.1 Concept d'IA générative et étape de génération de contenu

L'IA générative est une nouvelle méthode de production qui utilise la technologie de l'intelligence artificielle pour générer automatiquement du contenu après le contenu généré par des professionnels (PGC) et le contenu généré par l'utilisateur (UGC).

L'IA générative génère et crée automatiquement des informations textuelles, audio, image, vidéo et intermodales basées sur des données de formation massives et des modèles pré-formés à grande échelle. Depuis qu'OpenAI a lancé ChatGPT en 2022, une vague mondiale d'IA générative a éclaté et de nombreuses entreprises technologiques ont lancé des modèles, des produits et des infrastructures et services sous-jacents d'IA générative.

1.2 Moteurs du développement de l'industrie de l'IA générative

Au cours des dernières années, l'échelle mondiale des données a continué de croître. IDC prévoit que l'échelle mondiale des données atteindra 175 ZB d'ici 2025, fournissant des ressources de données massives pour la formation de modèles d'intelligence artificielle ; l'introduction de puces d'IA hautes performances fournit un support de puissance de calcul important pour modèles de pré-formation à grande échelle ; avec un développement continu, des modèles tels que Transformer, BERT, LaMDA et ChatGPT ont atteint une optimisation itérative rapide. Poussée par les données, la puissance de calcul et les modèles, l'industrie mondiale de l'IA générative s'est développée rapidement, et les scénarios et applications connexes ont été continuellement enrichis.

02 Infrastructure d'IA générative

** Les puces hautes performances 2.1 AI fournissent une prise en charge de la puissance de calcul pour la formation générative à l'IA **

Le développement de l'intelligence artificielle est entré dans l'ère des grands modèles depuis l'ère du deep learning.Le nombre de paramètres des modèles de pré-apprentissage à grande échelle a connu une augmentation exponentielle, ce qui nécessite le support d'une puissance de calcul performante.

À l'heure actuelle, la puissance de calcul de formation des modèles de pré-formation à grande échelle est 10 à 100 fois supérieure à celle du passé. La formation actuelle des modèles d'IA générative grand public utilise largement les puces GPU Nvidia Tensor Core. Par exemple, Microsoft a dépensé des centaines de millions de dollars pour acheter des dizaines de milliers de puces Nvidia A100 pour aider Open AI à construire ChatGPT.

2.2 Les grappes informatiques d'IA fournissent des ressources informatiques à grande échelle pour la formation générative en IA

Les grappes informatiques d'IA peuvent fournir une puissance de calcul à grande échelle, améliorer en permanence le taux d'utilisation des ressources de puissance de calcul, améliorer les capacités de stockage et de traitement des données et accélérer la formation des grands modèles d'IA et l'efficacité du raisonnement.

À l'heure actuelle, les clusters de calcul AI typiques tels que Nvidia DGX SuperPOD, le cluster de calcul haute performance EHC de Baidu Intelligent Cloud, la nouvelle génération de cluster de calcul haute performance HCC de Tencent, etc., l'infrastructure de puissance de calcul connexe continue de fournir de puissantes ressources de puissance de calcul pour la génération Scénarios de formation à l'IA, réduire davantage le seuil et le coût de la formation de modèles et promouvoir la mise en œuvre de modèles d'IA génératifs.

2.3 Le service cloud d'IA fournit un support de plate-forme pour le développement de modèles d'IA génératifs

Le développement de modèles de pré-formation en intelligence artificielle suscite une forte demande de services cloud. Les services cloud d'IA peuvent fournir des modules de développement d'intelligence artificielle. Grâce à des modèles de services diversifiés, les coûts de développement des développeurs et les cycles de développement de produits peuvent être réduits, et l'autonomisation de l'IA peut être fournie pour le développement de modèles. .

Un cas typique est Amazon SageMaker, qui peut fournir une analyse d'image/d'image, un traitement de la parole, une compréhension du langage naturel et d'autres services connexes, et les utilisateurs peuvent réaliser des applications fonctionnelles sans connaître les paramètres et les algorithmes.

La plate-forme de développement AI à seuil zéro Baidu Flying Paddle EasyDL fournit des fonctions telles que la classification d'images, la détection d'objets, la classification de texte, la classification sonore et la classification vidéo, réalisant une formation automatisée à guichet unique et abaissant le seuil pour le développement personnalisé d'IA.

03 Modèle d'algorithme d'IA générative

3.1 Historique du développement des modèles mondiaux d'IA générative

3.2 Modèles grand public pour la génération de langage : OpenAI GPT-1 à GPT-4

Depuis 2018, OpenAI a successivement publié une série de modèles de pré-formation génératifs tels que GPT-1, GPT-2, GPT-3, ChatGPT et GPT-4. Le modèle GPT-1 est basé sur l'architecture Transformer, et seule la partie décodeur de l'architecture est conservée ;

Le modèle GPT-2 annule l'étape de réglage fin supervisé dans GPT-1 ;

Le modèle GPT-3 abandonne le tir zéro du GPT-2 et utilise quelques tirs pour donner un petit nombre d'échantillons pour des tâches spécifiques ; ChatGPT utilise la technologie RLHF (apprentissage par renforcement de la rétroaction humaine) pour améliorer la capacité d'ajuster la sortie de le modèle;

Le modèle GPT-4 publié en 2023 a des capacités multimodales plus puissantes. Il prend en charge la saisie multimodale de graphiques et de texte et génère un texte de réponse, qui peut réaliser la classification, l'analyse et l'extraction sémantique implicite d'éléments visuels, montrant une excellente capacité de réponse. .

3.3 Modèle courant de génération de classe de langue : Google Transformer vers PaLM-E

En 2017, Google a publié le modèle emblématique Transformer. Le module de décodage de ce modèle est devenu l'élément central du modèle GPT. En introduisant le mécanisme d'attention, il peut réaliser un calcul parallèle à plus grande échelle, réduire considérablement le temps de formation du modèle, et faire en sorte que des modèles d'IA à grande échelle soient appliqués. Le modèle BERT et le modèle LaMDA s'améliorent constamment en termes de capacités d'extraction d'informations et de sécurité.

Le modèle PaLM-E, récemment lancé, possède de fortes capacités de généralisation et de migration et peut traiter des données multimodales (langage, vision, toucher, etc.).

3.4 Modèle grand public pour la génération d'images : modèle de diffusion

La recherche sur le modèle de diffusion remonte à 2015, et le modèle probabiliste de diffusion de débruitage (DDPM) a été proposé en 2020, démontrant les puissantes capacités du modèle de diffusion et entraînant le développement du modèle de diffusion. Le modèle comprend principalement deux processus : le processus direct et le processus inverse. Le processus direct est également appelé processus de diffusion. Le modèle de diffusion apprend en ajoutant du bruit gaussien à l'image pour détruire les données d'entraînement, découvre la méthode d'inversion du bruit. processus, et utilise les méthodes de débruitage apprises permettant la synthèse de nouvelles images à partir d'entrées aléatoires.

L'avantage du modèle Diffusion est que les images générées sont de meilleure qualité et ne nécessitent pas de formation contradictoire. À condition que moins de données soient nécessaires, l'effet de génération d'images du modèle est considérablement amélioré.

PARTIE 04 Application du scénario d'IA générative 4.1 Présentation des applications typiques de l'IA générative dans le monde

4.2 Application de scénario d'IA générative—Génération de texte

Les applications de génération de texte se situent principalement dans quatre domaines : la continuation de contenu, le transfert de style de texte, la génération de résumé/titre et la génération de texte entier. La génération de texte personnalisé associée et l'interaction de texte en temps réel ont de larges perspectives.

D'une manière générale, la génération de texte basée sur la technologie NLP est une application antérieure dans l'IA générative.Des entreprises technologiques de renommée mondiale ont successivement lancé des outils d'application de génération de texte, tels que Microsoft, Xmind et d'autres produits connexes dans la rédaction, l'analyse de données, les présentations. cas d'application dans la cartographie mentale et d'autres aspects.

4.3 Application de scène IA générative - génération d'images

Les scénarios techniques de génération d'images sont divisés en édition d'attributs d'image, génération et modification d'image partielle et génération d'image de bout en bout. Parmi eux, les deux premiers scénarios d'atterrissage sont des outils d'édition d'images, et la génération d'images de bout en bout correspond aux deux principaux scénarios d'atterrissage de la génération d'images créatives et de la génération d'images fonctionnelles.

À l'heure actuelle, les outils d'édition d'images sont largement utilisés et les produits associés sont relativement abondants ; la génération d'images créatives est principalement présentée sous la forme de NFT, etc., et les images fonctionnelles sont principalement des affiches/interfaces marketing, un LOGO, des images de modèles et des avatars d'utilisateurs .

4.4 Application de scénario d'IA générative—Génération audio

La génération audio est déjà courante dans la vie quotidienne, et ses domaines d'application peuvent être divisés en synthèse vocale et création musicale, et la synthèse vocale comprend le domaine de la parole spécifique à la génération de texte (TTS) et du clonage de la parole.

La maturité technique du domaine TTS est relativement élevée, mais il y a encore un manque d'expression émotionnelle ; le clonage de la voix est d'une grande importance pour le cinéma, l'animation et d'autres industries et mérite l'attention ; la création musicale peut être subdivisée en paroles, composition, arrangement, enregistrement, mixage, etc. De multiples directions, le processus de création s'appuie principalement sur le modèle Transformer.

4.5 Application de scénario d'IA générative—Génération vidéo

La génération vidéo devrait être un scénario à potentiel moyen à élevé dans le domaine de la génération intermodale à l'avenir. La génération vidéo correspond principalement à trois domaines : l'édition d'attributs vidéo, l'édition automatique de vidéos et la génération de parties vidéo.

L'édition d'attributs vidéo a été largement utilisée dans le domaine de la création vidéo, améliorant considérablement l'efficacité de l'édition vidéo ; l'édition vidéo automatique est principalement au stade de l'essai technique ; le principe et l'essence de la génération de parties vidéo sont similaires à la génération d'images, mettant l'accent sur le découpage de la vidéo en images, puis en éditant chaque image.Le traitement d'image, la technologie à ce stade consiste à améliorer la précision de la modification et de la modification en temps réel.

4.6 Application de scénario d'IA générative—humain numérique

Les humains numériques font référence à la synthèse de multiples caractéristiques humaines qui existent dans le monde non physique (telles que les images, les vidéos, les émissions en direct et la réalité virtuelle). L'humain numérique représente la transition des modalités à faible densité telles que le texte/l'audio vers des modalités à densité d'information plus élevée telles que l'image/la vidéo/l'interaction en temps réel. À l'avenir, la vidéo et même le métaverse seront des scénarios d'application importants pour l'humain numérique.

Dans le domaine de l'IA générative, la génération humaine numérique peut être divisée en génération vidéo humaine numérique et interaction humaine numérique en temps réel. La génération vidéo humaine numérique est actuellement l'un des domaines les plus largement utilisés, tandis que l'interaction humaine numérique en temps réel est principalement utilisée. dans le service client visuel intelligent, et plus Accent mis sur les fonctionnalités interactives en temps réel.

05 Opportunités et défis de l'IA générative

5.1 À l'ère de l'IA générative, le travail administratif est largement remplacé et "demander aux clients" devrait devenir une nouvelle profession

L'impact de l'IA générative sur l'emploi Défis et opportunités coexistent. D'une part, l'IA générative favorisera la revalorisation intelligente des emplois, et certains emplois seront remplacés. Selon l'analyse de Goldman Sachs, les capacités d'automatisation intelligente de l'IA générative peuvent grandement améliorer l'efficacité du travail et réduire les coûts d'exploitation.Les emplois traditionnels aux États-Unis et en Europe seront affectés par l'automatisation de l'IA à des degrés divers, et l'IA générative peut remplacer un quart des emplois .

D'un autre côté, l'IA générative créera également de nouveaux emplois : "Engineer" permet aux gens d'utiliser le langage naturel comme invites pour interagir avec l'IA pour obtenir des informations ou créer des œuvres. De plus, les domaines connexes autour de l'intelligence artificielle généreront également un grand nombre de nouveaux emplois.

5.2 Le droit d'auteur des œuvres d'IA générative est principalement réparti entre les propriétaires de logiciels et les utilisateurs

L'essence de l'IA générative est l'application de l'apprentissage automatique. Dans la phase d'apprentissage du modèle, elle utilisera inévitablement un grand nombre d'ensembles de données pour effectuer la formation. Cependant, la question de la propriété des droits d'auteur des produits après la formation est encore controversée.

Étant donné que les sujets juridiques peuvent jouir de droits, le droit d'auteur des œuvres d'IA générative ne peut être exercé que par ceux qui ont contribué à la génération de l'œuvre. Le personnel concerné comprend les développeurs de logiciels, les propriétaires et les utilisateurs (les identités des sujets peuvent se chevaucher). Les développeurs de logiciels d'IA ont été compensés par les droits d'auteur des logiciels, et les droits d'auteur des œuvres d'IA génératives sont principalement répartis entre les propriétaires de logiciels et les utilisateurs.

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)