Publicación de Internet Society of China: Informe de investigación de la industria de IA generativa global de 2023

Fuente: Sociedad de Internet de China

El 19 de mayo de 2023, durante la Séptima Conferencia Mundial de Inteligencia "Cumbre Mundial de Cooperación en Innovación en Tecnología Inteligente", guiada por Internet Society of China y China Software Industry Association, Tianjin Artificial Intelligence Society, Zhiding Technology y Zhiding Think Tank conjuntamente The " El Mapa de la industria de IA generativa global 2023" y el "Informe de investigación de la industria de IA generativa global 2023" preparados por el autor se publican para comprender mejor el desarrollo de la IA generativa global para los departamentos gubernamentales, los profesionales de la industria, los educadores y la situación pública como referencia.

Crédito de la imagen: Generado por herramientas Unbounded AI

Como campo fronterizo de la inteligencia artificial, la IA generativa se ha convertido en el tema tecnológico más candente del mundo. En 2022, OpenAI lanzó ChatGPT, y la IA generativa logró un avance importante a nivel de aplicación modelo. La cantidad de usuarios activos mensuales superó los 100 millones en solo dos meses, lo que la convierte en la aplicación de consumo de más rápido crecimiento en la historia. Muchas empresas tecnológicas de todo el mundo han aumentado su inversión en investigación y desarrollo en el campo de la IA generativa, lanzando continuamente importantes logros en tecnología, productos y aplicaciones, y promoviendo continuamente la innovación y comercialización de la inteligencia artificial.

En este contexto, bajo la dirección de la Sociedad de Internet de China y la Asociación de la Industria de Software de China, la Sociedad de Inteligencia Artificial de Tianjin, Zhiding Technology y Zhiding Think Tank publicaron conjuntamente el "Informe de Investigación de la Industria de IA Generativa Global 2023", que parte de un perspectiva global, para ordenar la descripción general de la industria, la infraestructura, el modelo de algoritmo, la aplicación de escenarios, las oportunidades y los desafíos de la IA generativa, mostrar de manera integral el desarrollo industrial de la IA generativa y proporcionar más información para los departamentos gubernamentales, los profesionales de la industria, los educadores y el público A una buena comprensión de la IA generativa proporciona una referencia.

01 Descripción general de la industria de IA generativa

1.1 Concepto de IA generativa y etapa de generación de contenido

La IA generativa es un nuevo método de producción que utiliza tecnología de inteligencia artificial para generar contenido automáticamente después del contenido generado profesionalmente (PGC) y el contenido generado por el usuario (UGC).

La IA generativa genera y crea automáticamente información de texto, audio, imagen, video y multimodal basada en datos de entrenamiento masivos y modelos pre-entrenados a gran escala. Desde que OpenAI lanzó ChatGPT en 2022, ha estallado una ola global de IA generativa, y muchas empresas de tecnología han lanzado modelos, productos e infraestructura y servicios subyacentes relacionados con IA generativa.

1.2 Fuerzas impulsoras para el desarrollo de la industria de IA generativa

En los últimos años, la escala global de datos ha seguido creciendo. IDC predice que la escala global de datos alcanzará los 175ZB para 2025, lo que proporcionará recursos de datos masivos para el entrenamiento de modelos de inteligencia artificial; la introducción de chips de IA de alto rendimiento proporciona un importante soporte de potencia informática para modelos de pre-entrenamiento a gran escala; Con el desarrollo continuo, modelos como Transformer, BERT, LaMDA y ChatGPT han logrado una rápida optimización iterativa. Impulsada por los datos, el poder de cómputo y los modelos, la industria global de IA generativa se ha desarrollado rápidamente y los escenarios y aplicaciones relacionados se han enriquecido continuamente.

02 Infraestructura de IA generativa

Los chips de alto rendimiento 2.1 AI brindan soporte de potencia informática para el entrenamiento generativo de IA

El desarrollo de la inteligencia artificial ha entrado en la era de los grandes modelos desde la era del aprendizaje profundo. El número de parámetros de los modelos de preentrenamiento a gran escala ha mostrado un aumento exponencial, lo que requiere el apoyo de una potencia informática de alto rendimiento.

En la actualidad, el poder de cómputo de entrenamiento de los modelos de preentrenamiento a gran escala es de 10 a 100 veces mayor que en el pasado. El actual modelo de entrenamiento generativo de IA utiliza ampliamente chips Nvidia Tensor Core GPU. Por ejemplo, Microsoft gastó cientos de millones de dólares para comprar decenas de miles de chips Nvidia A100 para ayudar a Open AI a construir ChatGPT.

2.2 Los clústeres de cómputo de IA brindan recursos de cómputo a gran escala para el entrenamiento generativo de IA

Los clústeres de cómputo de IA pueden proporcionar poder de cómputo a gran escala, mejorar continuamente la utilización de recursos de poder de cómputo, mejorar las capacidades de procesamiento y almacenamiento de datos, y acelerar el entrenamiento de modelos grandes de IA y la eficiencia de inferencia.

En la actualidad, los clústeres informáticos típicos de IA, como Nvidia DGX SuperPOD, Baidu Intelligent Cloud High-Performance Computing Cluster EHC, la nueva generación de clústeres informáticos de alto rendimiento HCC de Tencent, etc., la infraestructura de potencia informática relacionada continúa proporcionando potentes recursos de potencia informática para generativos Escenarios de entrenamiento de IA, Reduzca aún más el umbral y el costo del entrenamiento de modelos, y promueva la implementación de modelos de IA generativos.

2.3 El servicio en la nube de IA brinda soporte de plataforma para el desarrollo de modelos de IA generativos

El desarrollo de modelos de entrenamiento previo de inteligencia artificial tiene una gran demanda de servicios en la nube. Los servicios en la nube de IA pueden proporcionar módulos de desarrollo de inteligencia artificial. A través de modelos de servicio diversificados, se pueden reducir los costos de desarrollo de los desarrolladores y los ciclos de desarrollo de productos, y se puede proporcionar el empoderamiento de la IA. para el desarrollo de modelos.

Un caso típico es Amazon SageMaker, que puede proporcionar análisis de imagen/imagen, procesamiento de voz, comprensión del lenguaje natural y otros servicios relacionados, y los usuarios pueden realizar aplicaciones funcionales sin conocer los parámetros ni los algoritmos.

La plataforma de desarrollo de IA de umbral cero Baidu Flying Paddle EasyDL proporciona funciones como clasificación de imágenes, detección de objetos, clasificación de texto, clasificación de sonido y clasificación de video, realizando un entrenamiento automatizado integral y reduciendo el umbral para el desarrollo personalizado de IA.

03 Modelo de algoritmo de IA generativo

3.1 Historial de desarrollo de modelos globales de IA generativa

3.2 Modelos convencionales para la generación de lenguaje: OpenAI GPT-1 a GPT-4

Desde 2018, OpenAI ha lanzado sucesivamente una serie de modelos generativos de preentrenamiento como GPT-1, GPT-2, GPT-3, ChatGPT y GPT-4. El modelo GPT-1 se basa en la arquitectura Transformer y solo se conserva la parte del decodificador de la arquitectura;

El modelo GPT-2 cancela la etapa de ajuste fino supervisado en GPT-1;

El modelo GPT-3 abandona el disparo cero de GPT-2 y usa pocos disparos para dar una pequeña cantidad de muestras para tareas específicas; ChatGPT usa tecnología RLHF (aprendizaje de refuerzo de retroalimentación humana) para mejorar la capacidad de ajustar la salida de el modelo;

El modelo GPT-4 lanzado en 2023 tiene capacidades multimodales más potentes. Admite la entrada multimodal de gráficos y texto y genera texto de respuesta, que puede realizar la clasificación, el análisis y la extracción semántica implícita de elementos visuales, mostrando una excelente capacidad de respuesta. .

3.3 Modelo general de generación de clases de idioma: Google Transformer a PaLM-E

En 2017, Google lanzó el icónico modelo Transformer. El módulo de decodificación de este modelo se ha convertido en el elemento central del modelo GPT. Al introducir el mecanismo de atención, puede realizar computación paralela a mayor escala, reducir significativamente el tiempo de entrenamiento del modelo. y hacer que se apliquen modelos de IA a gran escala. El modelo BERT y el modelo LaMDA están mejorando constantemente en términos de seguridad y capacidades de extracción de información.

El modelo PaLM-E recientemente lanzado tiene fuertes capacidades de generalización y migración Puede procesar datos multimodales (lenguaje, visión, tacto, etc.) Función.

3.4 Modelo de corriente principal para la generación de imágenes: modelo de difusión

La investigación sobre el modelo de difusión se remonta a 2015, y el modelo probabilístico de difusión de eliminación de ruido (DDPM) se propuso en 2020, lo que demuestra las poderosas capacidades del modelo de difusión e impulsa el desarrollo del modelo de difusión. El modelo incluye principalmente dos procesos: el proceso directo y el proceso inverso. El proceso directo también se denomina proceso de difusión. El modelo de difusión aprende agregando ruido gaussiano a la imagen para destruir los datos de entrenamiento, descubre el método para invertir el ruido. y utiliza los métodos de eliminación de ruido aprendidos que permiten la síntesis de nuevas imágenes a partir de entradas aleatorias.

La ventaja del modelo Diffusion es que las imágenes generadas son de mayor calidad y no requieren entrenamiento contradictorio Bajo la condición de que se requieran menos datos, el efecto de generación de imágenes del modelo mejora significativamente.

PARTE 04 Aplicación de escenario de IA generativa 4.1 Descripción general de las aplicaciones típicas de IA generativa global

4.2 Aplicación de escenario de IA generativa—Generación de texto

Las aplicaciones de generación de texto se encuentran principalmente en cuatro áreas: continuación de contenido, transferencia de estilo de texto, generación de resumen/título y generación de texto completo.La generación de texto personalizado relacionado y la interacción de texto en tiempo real tienen amplias perspectivas.

En términos generales, la generación de texto basada en la tecnología NLP es una aplicación anterior en la IA generativa. Empresas de tecnología de renombre mundial han lanzado sucesivamente herramientas de aplicación de generación de texto, como Microsoft, Xmind y otros productos relacionados en redacción, análisis de datos, presentaciones, etc. casos de aplicación en mapas mentales y otros aspectos.

4.3 Aplicación de escena de IA generativa: generación de imágenes

Los escenarios técnicos de generación de imágenes se dividen en edición de atributos de imagen, generación y modificación de imágenes parciales y generación de imágenes de extremo a extremo. Entre ellos, los dos primeros escenarios de aterrizaje son herramientas de edición de imágenes, y la generación de imágenes de extremo a extremo corresponde a los dos principales escenarios de aterrizaje de generación de imágenes creativas y generación de imágenes funcionales.

En la actualidad, las herramientas de edición de imágenes se utilizan ampliamente y los productos relacionados son relativamente abundantes; la generación de imágenes creativas se presenta principalmente en forma de NFT, etc., y las imágenes funcionales son principalmente carteles/interfaces de marketing, LOGOTIPOS, imágenes de modelos y avatares de usuarios. .

4.4 Aplicación de escenario de IA generativa—Generación de audio

La generación de audio ya es común en la vida diaria, y sus campos de aplicación se pueden dividir en síntesis de voz y creación de música, y la síntesis de voz incluye el campo del habla específica de generación de texto (TTS) y la clonación de voz.

La madurez técnica del campo TTS es relativamente alta, pero aún falta expresión emocional; la clonación de voz es de gran importancia para el cine, la animación y otras industrias y merece atención; la creación musical se puede subdividir en letras, composición, arreglo, grabación, mezcla, etc. Múltiples direcciones, el proceso de creación se basa principalmente en el modelo Transformer.

4.5 Aplicación de escenario de IA generativa—Generación de video

Se espera que la generación de video sea un escenario de potencial medio a alto en el campo de la generación multimodal en el futuro. La generación de video corresponde principalmente a tres campos: edición de atributos de video, edición automática de video y generación de partes de video.

La edición de atributos de video se ha utilizado ampliamente en el campo de la creación de videos, mejorando en gran medida la eficiencia de la edición de videos; la edición automática de videos se encuentra principalmente en la etapa de prueba técnica; el principio y la esencia de la generación de partes de video es similar a la generación de imágenes, enfatizando el corte de video en marcos, y luego editar cada marco.Procesamiento de imágenes, la tecnología en esta etapa es mejorar la precisión de la modificación y la modificación en tiempo real.

4.6 Aplicación de escenario de IA generativa: humano digital

Los humanos digitales se refieren a la síntesis de múltiples características humanas que existen en el mundo no físico (como imágenes, videos, transmisiones en vivo y VR). El ser humano digital representa la transición de modalidades de baja densidad, como texto/audio, a modalidades de mayor densidad de información, como imagen/video/interacción en tiempo real. En el futuro, el video e incluso el metaverso serán importantes escenarios de aplicación para el ser humano digital.

En el campo de la IA generativa, la generación humana digital se puede dividir en generación de video humano digital e interacción humana digital en tiempo real. La generación de video humano digital es actualmente uno de los campos más utilizados, mientras que la interacción humana digital en tiempo real se usa principalmente en atención al cliente inteligente visual, y más Énfasis en funciones interactivas en tiempo real.

05 Oportunidades y desafíos de la IA generativa

5.1 En la era de la IA generativa, el trabajo administrativo está altamente sustituido y se espera que "preguntar a los clientes" se convierta en una nueva profesión

El impacto de la IA generativa en el empleo Coexisten desafíos y oportunidades. Por un lado, la IA generativa promoverá la actualización inteligente de puestos de trabajo, y algunos puestos de trabajo serán reemplazados. Según el análisis de Goldman Sachs, las capacidades de automatización inteligente de la IA generativa pueden mejorar en gran medida la eficiencia del trabajo y reducir los costos operativos. Los trabajos tradicionales en los Estados Unidos y Europa se verán afectados por la automatización de la IA en diversos grados, y la IA generativa puede reemplazar una cuarta parte de los puestos de trabajo. .

Por otro lado, la IA generativa también creará nuevos trabajos: "Ingeniero" permite a las personas usar el lenguaje natural como indicaciones para interactuar con la IA para obtener información o crear trabajos. Además, los campos relacionados con la inteligencia artificial también generarán una gran cantidad de nuevos puestos de trabajo.

5.2 Los derechos de autor de las obras de IA generativa se distribuyen principalmente entre los propietarios y usuarios del software

La esencia de la IA generativa es la aplicación del aprendizaje automático. En la etapa de aprendizaje del modelo, inevitablemente utilizará una gran cantidad de conjuntos de datos para realizar la capacitación. Sin embargo, la cuestión de la propiedad de los derechos de autor de los productos después de la capacitación sigue siendo controvertida.

Dado que los sujetos legales pueden disfrutar de los derechos, los derechos de autor de las obras de IA generativa solo pueden ser disfrutados por aquellos que han contribuido a la generación de la obra. El personal relevante incluye desarrolladores de software, propietarios y usuarios (las identidades de los sujetos pueden superponerse). Los desarrolladores de software de IA han sido compensado por los derechos de autor del software, y los derechos de autor de los trabajos generativos de IA se distribuyen principalmente entre los propietarios y usuarios del software.

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)