A Sociedade da Internet da China divulgou: Relatório de pesquisa da indústria global de IA generativa de 2023

Fonte: Internet Society of China

Em 19 de maio de 2023, durante a Sétima Conferência Mundial de Inteligência "Cúpula Mundial de Cooperação em Inovação em Tecnologia Inteligente", guiada pela Internet Society of China e China Software Industry Association, Tianjin Artificial Intelligence Society, Zhiding Technology e Zhiding Think Tank em conjunto O " Global Generative AI Industry Map 2023" e "2023 Global Generative AI Industry Research Report" preparados pelo autor são lançados para entender melhor o desenvolvimento da IA generativa global para departamentos governamentais, profissionais da indústria, educadores e a situação pública para referência.

Crédito da imagem: Gerado por ferramentas Unbounded AI

Como o campo de fronteira da inteligência artificial, a IA generativa se tornou o tópico de tecnologia mais quente do mundo. Em 2022, a OpenAI lançou o ChatGPT, e a IA generativa alcançou um avanço importante no nível do aplicativo de modelo. O número de usuários ativos mensais ultrapassou 100 milhões em apenas dois meses, tornando-o o aplicativo de consumo de crescimento mais rápido da história. Muitas empresas de tecnologia em todo o mundo aumentaram seus investimentos em pesquisa e desenvolvimento no campo da IA generativa e lançaram continuamente conquistas importantes em tecnologia, produtos e aplicativos e continuaram a promover a inovação e a comercialização da inteligência artificial.

Nesse contexto, sob a orientação da Internet Society of China e da China Software Industry Association, a Tianjin Artificial Intelligence Society, a Zhiding Technology e a Zhiding Think Tank lançaram em conjunto o "Relatório de pesquisa da indústria global de IA geradora de 2023", que começa com uma perspectiva global, para classificar a visão geral da indústria, infraestrutura, modelo de algoritmo, aplicação de cenário, oportunidades e desafios da IA generativa, exibir de forma abrangente o desenvolvimento industrial da IA generativa e fornecer mais informações para departamentos governamentais, profissionais da indústria, educadores e o público A uma boa compreensão da IA generativa fornece uma referência.

01 Visão geral da indústria de IA generativa

1.1 Conceito de IA generativa e estágio de geração de conteúdo

Generative AI é um novo método de produção que usa tecnologia de inteligência artificial para gerar conteúdo automaticamente após conteúdo gerado profissionalmente (PGC) e conteúdo gerado pelo usuário (UGC).

A IA generativa gera e cria automaticamente informações de texto, áudio, imagem, vídeo e cross-modal com base em dados de treinamento massivos e modelos pré-treinados em grande escala. Desde que a OpenAI lançou o ChatGPT em 2022, uma onda global de IA generativa surgiu e muitas empresas de tecnologia lançaram modelos, produtos e serviços e infraestrutura subjacentes relacionados a IA generativa.

1.2 Forças motrizes para o desenvolvimento da indústria de IA generativa

Nos últimos anos, a escala global de dados continuou a crescer. A IDC prevê que a escala global de dados atingirá 175 ZB até 2025, fornecendo recursos massivos de dados para treinamento de modelos de inteligência artificial; a introdução de chips de IA de alto desempenho fornece importante suporte de poder de computação para modelos de pré-treinamento em larga escala; Com desenvolvimento contínuo, modelos como Transformer, BERT, LaMDA e ChatGPT alcançaram otimização iterativa rápida. Impulsionada por dados, poder de computação e modelos, a indústria global de IA generativa se desenvolveu rapidamente e os cenários e aplicativos relacionados foram continuamente enriquecidos.

02 Infraestrutura Gerativa de IA

Os chips de alto desempenho 2.1 AI fornecem suporte de poder de computação para treinamento generativo de AI

O desenvolvimento da inteligência artificial entrou na era dos grandes modelos da era do aprendizado profundo. O número de parâmetros dos modelos de pré-treinamento em larga escala mostrou um aumento exponencial, o que requer o suporte do poder de computação de alto desempenho.

Atualmente, o poder de computação de treinamento de modelos de pré-treinamento em larga escala é de 10 a 100 vezes maior do que no passado. O atual modelo de treinamento de IA generativa usa amplamente chips de GPU Nvidia Tensor Core. Por exemplo, a Microsoft gastou centenas de milhões de dólares para comprar dezenas de milhares de chips Nvidia A100 para ajudar a Open AI a construir o ChatGPT.

2.2 Os clusters de computação de IA fornecem recursos de computação em grande escala para treinamento de IA generativo

Os clusters de computação de IA podem fornecer poder de computação em grande escala, melhorar continuamente a utilização de recursos de energia de computação, melhorar os recursos de armazenamento e processamento de dados e acelerar o treinamento de modelos grandes de IA e a eficiência de inferência.

Atualmente, os clusters típicos de computação AI, como Nvidia DGX SuperPOD, Baidu Intelligent Cloud High-Performance Computing Cluster EHC, a nova geração de cluster de computação de alto desempenho HCC da Tencent, etc. Os cenários de treinamento de IA reduzem ainda mais o limite e o custo do treinamento de modelos e promovem a implementação de modelos de IA generativos.

2.3 O serviço de nuvem AI fornece suporte de plataforma para desenvolvimento de modelo de IA generativo

O desenvolvimento de modelos de pré-treinamento de inteligência artificial tem uma grande demanda por serviços de nuvem. Os serviços de nuvem de IA podem fornecer módulos de desenvolvimento de inteligência artificial. Por meio de modelos de serviço diversificados, os custos de desenvolvimento dos desenvolvedores e os ciclos de desenvolvimento de produtos podem ser reduzidos e o empoderamento da IA pode ser fornecido para o desenvolvimento do modelo. .

Um caso típico é o Amazon SageMaker, que pode fornecer análise de imagem/imagem, processamento de fala, compreensão de linguagem natural e outros serviços relacionados, e os usuários podem realizar aplicativos funcionais sem conhecer parâmetros e algoritmos.

A plataforma de desenvolvimento AI de limiar zero Baidu Flying Paddle EasyDL fornece funções como classificação de imagem, detecção de objeto, classificação de texto, classificação de som e classificação de vídeo, realizando treinamento automatizado completo e diminuindo o limiar para desenvolvimento personalizado de AI.

03 Modelo Generativo de Algoritmo de IA

3.1 Histórico de desenvolvimento de modelos globais de IA generativa

3.2 Modelos mainstream para geração de linguagem: OpenAI GPT-1 a GPT-4

Desde 2018, a OpenAI lançou sucessivamente uma série de modelos de pré-treinamento generativos, como GPT-1, GPT-2, GPT-3, ChatGPT e GPT-4. O modelo GPT-1 é baseado na arquitetura Transformer, e apenas a parte do decodificador da arquitetura é mantida;

O modelo GPT-2 cancela o estágio de ajuste fino supervisionado no GPT-1;

O modelo GPT-3 abandona o tiro zero do GPT-2 e usa poucos tiros para fornecer um pequeno número de amostras para tarefas específicas; o ChatGPT usa a tecnologia RLHF (aprendizado por reforço de feedback humano) para aprimorar a capacidade de ajustar a saída de o modelo;

O modelo GPT-4 lançado em 2023 possui uma capacidade multimodal mais poderosa. Suporta entrada multimodal de gráficos e texto e gera texto de resposta, que pode realizar a classificação, análise e extração semântica implícita de elementos visuais, mostrando excelente capacidade de resposta.

3.3 Modelo mainstream de geração de classe de linguagem: Google Transformer para PaLM-E

Em 2017, o Google lançou o icônico modelo Transformer. O módulo de decodificação desse modelo tornou-se o elemento central do modelo GPT. Ao introduzir o mecanismo de atenção, ele pode realizar computação paralela em larga escala, reduzir significativamente o tempo de treinamento do modelo, e fazer com que modelos de IA em grande escala sejam aplicados. O modelo BERT e o modelo LaMDA estão melhorando constantemente em termos de recursos de extração de informações e segurança.

O recém-lançado modelo PaLM-E possui fortes capacidades de generalização e migração, podendo processar dados multimodais (linguagem, visão, toque, etc.).

3.4 Modelo mainstream para geração de imagens: Modelo de Difusão

A pesquisa sobre o Modelo de Difusão pode ser rastreada até 2015, e o Modelo Probabilístico de Difusão Denoising (DDPM) foi proposto em 2020, demonstrando as poderosas capacidades do modelo de difusão e impulsionando o desenvolvimento do modelo de difusão. O modelo inclui principalmente dois processos: o processo direto e o processo reverso. O processo direto também é chamado de processo de difusão. O modelo de difusão aprende adicionando ruído gaussiano à imagem para destruir os dados de treinamento, descobre o método de reversão do ruído processo, e usa os métodos Denoising aprendidos permitem a síntese de novas imagens de entradas aleatórias.

A vantagem do modelo de difusão é que as imagens geradas são de maior qualidade e não requerem treinamento adversário.Sob a condição de que menos dados são necessários, o efeito de geração de imagem do modelo é significativamente melhorado.

PARTE.04 Aplicativo de cenário de IA generativa 4.1 Visão geral de aplicativos típicos de IA generativa global

4.2 Aplicação de cenário de IA generativa - geração de texto

Os aplicativos de geração de texto estão principalmente em quatro áreas: continuação de conteúdo, transferência de estilo de texto, geração de resumo/título e geração de texto inteiro. A geração de texto personalizado relacionada e a interação de texto em tempo real têm amplas perspectivas.

De um modo geral, a geração de texto com base na tecnologia NLP é uma aplicação anterior em IA generativa. Empresas de tecnologia de renome mundial lançaram sucessivamente ferramentas de geração de texto, como Microsoft, Xmind e outros produtos relacionados em direitos autorais, análise de dados, apresentações. casos de aplicação em mapas mentais e outros aspectos.

4.3 Aplicativo de cena AI generativa - geração de imagem

Os cenários técnicos de geração de imagem são divididos em edição de atributos de imagem, geração e modificação de imagem parcial e geração de imagem de ponta a ponta. Entre eles, os dois primeiros cenários de pouso são ferramentas de edição de imagem, e a geração de imagem de ponta a ponta corresponde aos dois principais cenários de pouso de geração de imagem criativa e geração de imagem funcional.

Atualmente, as ferramentas de edição de imagens são amplamente utilizadas e os produtos relacionados são relativamente abundantes; a geração de imagens criativas é apresentada principalmente na forma de NFT, etc. .

4.4 Aplicação de cenário de IA generativa - geração de áudio

A geração de áudio já é comum na vida diária, e seus campos de aplicação podem ser divididos em síntese de fala e criação de música, e a síntese de fala inclui o campo de fala específica de geração de texto (TTS) e clonagem de fala.

A maturidade técnica do campo TTS é relativamente alta, mas ainda falta expressão emocional; a clonagem de voz é de grande importância para o cinema, animação e outras indústrias e merece atenção; a criação musical pode ser subdividida em letras, composição, arranjo, gravação, mixagem, etc. Múltiplas direções, o processo de criação depende principalmente do modelo Transformer.

4.5 Aplicação de cenário de IA generativa — geração de vídeo

Espera-se que a geração de vídeo seja um cenário de médio a alto potencial no campo da geração cross-modal no futuro. A geração de vídeo corresponde principalmente a três campos: edição de atributos de vídeo, edição automática de vídeo e geração de partes de vídeo.

A edição de atributos de vídeo tem sido amplamente utilizada no campo da criação de vídeo, melhorando consideravelmente a eficiência da edição de vídeo; a edição automática de vídeo está principalmente na fase de teste técnico; o princípio e a essência da geração de peças de vídeo são semelhantes à geração de imagens, enfatizando o corte de vídeo em quadros e, em seguida, editando cada quadro. Processamento de imagem, a tecnologia nesta fase é melhorar a precisão da modificação e modificação em tempo real.

4.6 Aplicação de cenário de IA generativa - Humano digital

Humanos digitais referem-se à síntese de múltiplas características humanas que existem no mundo não físico (como fotos, vídeos, transmissões ao vivo e RV). Humano digital representa a transição de modalidades de baixa densidade, como texto/áudio, para modalidades de alta densidade de informação, como imagem/vídeo/interação em tempo real.No futuro, vídeo e até mesmo metaverso serão importantes cenários de aplicação para humanos digitais.

No campo da IA generativa, a geração humana digital pode ser dividida em geração de vídeo humano digital e interação humana digital em tempo real. A geração de vídeo humano digital é atualmente um dos campos mais amplamente utilizados, enquanto a interação humana digital em tempo real é mais usada em atendimento ao cliente visual inteligente e mais ênfase em recursos interativos em tempo real.

05 Oportunidades e desafios de IA generativa

5.1 Na era da IA generativa, o trabalho administrativo é altamente substituído e espera-se que "pedir clientes" se torne uma nova profissão

O impacto da IA generativa no emprego Os desafios e as oportunidades coexistem. Por um lado, a IA generativa promoverá a atualização inteligente de empregos e alguns empregos serão substituídos. De acordo com a análise do Goldman Sachs, os recursos de automação inteligente da IA generativa podem melhorar muito a eficiência do trabalho e reduzir os custos operacionais. Os empregos tradicionais nos Estados Unidos e na Europa serão afetados pela automação da IA em graus variados, e a IA generativa pode substituir um quarto dos empregos .

Por outro lado, a IA generativa também criará novos empregos: "Engenheiro" permite que as pessoas usem a linguagem natural como prompts para interagir com a IA para obter informações ou criar obras. Além disso, campos relacionados à inteligência artificial também gerarão um grande número de novos empregos.

5.2 Os direitos autorais dos trabalhos generativos de IA são distribuídos principalmente entre proprietários de software e usuários

A essência da IA generativa é a aplicação do aprendizado de máquina. No estágio de aprendizado do modelo, ele inevitavelmente usará um grande número de conjuntos de dados para realizar o treinamento. No entanto, a questão da propriedade dos direitos autorais dos produtos após o treinamento ainda é controversa.

Como os sujeitos legais podem desfrutar de direitos, os direitos autorais das obras de IA generativas só podem ser desfrutados por aqueles que contribuíram para a geração do trabalho. O pessoal relevante inclui desenvolvedores de software, proprietários e usuários (as identidades dos sujeitos podem se sobrepor). Os desenvolvedores de software de IA foram compensados por direitos autorais de software, e os direitos autorais de obras de IA generativas são distribuídos principalmente entre proprietários e usuários de software.

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate.io
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)