Pesquisadores do MIT revelam mecanismo de sobreposição forte de LLMs: duplicar a largura reduz aproximadamente pela metade os erros

robot
Geração do resumo em andamento

AIMPACT mensagem, 3 de maio (UTC+8), pesquisadores do MIT revelam o mecanismo de expansão confiável do desempenho de grandes modelos de linguagem com o aumento de escala, fornecendo pela primeira vez uma validação experimental do fenômeno de “sobreposição”. A pesquisa descobriu que os LLMs contornam a limitação de dimensão armazenando múltiplos conceitos na mesma dimensão, essa “sobreposição forte” permite que o modelo represente todos os conceitos simultaneamente, e a origem do erro vem do ruído gerado pelo sobreposição. A equipe usou o modelo simplificado da Anthropic e modelos de código aberto como OPT, GPT-2, Qwen2.5, Pythia para validação: ao dobrar a largura do modelo, o erro é reduzido aproximadamente pela metade, o índice de escala atinge 0,91, próximo do valor teórico de 1. A pesquisa responde duas questões-chave: a expansão terminará quando a largura do modelo corresponder ao tamanho do vocabulário; para tarefas de linguagem natural, a distribuição de frequência de palavras plana limita a aceleração do espaço, mas o design de arquitetura que incentiva a sobreposição pode alcançar desempenho superior na mesma escala.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar