Estudo do MIT revela o mecanismo de expansão de desempenho de grandes modelos de linguagem, verificando experimentalmente o fenômeno de "sobreposição forte": múltiplos conceitos coexistindo na mesma dimensão, onde o ruído de sobreposição leva a erros. Com a validação usando modelos simplificados da Anthropic e modelos de código aberto: ao dobrar a largura, os erros são reduzidos pela metade, com um expoente de escala de aproximadamente 0,91. A pesquisa responde a duas perguntas: a expansão cessará quando a largura atingir o tamanho do vocabulário; embora a distribuição de frequência de palavras em tarefas de linguagem natural limite o espaço de expansão, arquiteturas que incentivam a sobreposição podem alcançar melhor desempenho na mesma escala.

MeNews

2026-05-03 13:01:58

Geração do resumo em andamento

AIMPACT mensagem, 3 de maio (UTC+8), pesquisadores do MIT revelam o mecanismo de expansão confiável do desempenho de grandes modelos de linguagem com o aumento de escala, fornecendo pela primeira vez uma validação experimental do fenômeno de “sobreposição”. A pesquisa descobriu que os LLMs contornam a limitação de dimensão armazenando múltiplos conceitos na mesma dimensão, essa “sobreposição forte” permite que o modelo represente todos os conceitos simultaneamente, e a origem do erro vem do ruído gerado pelo sobreposição. A equipe usou o modelo simplificado da Anthropic e modelos de código aberto como OPT, GPT-2, Qwen2.5, Pythia para validação: ao dobrar a largura do modelo, o erro é reduzido aproximadamente pela metade, o índice de escala atinge 0,91, próximo do valor teórico de 1. A pesquisa responde duas questões-chave: a expansão terminará quando a largura do modelo corresponder ao tamanho do vocabulário; para tarefas de linguagem natural, a distribuição de frequência de palavras plana limita a aceleração do espaço, mas o design de arquitetura que incentiva a sobreposição pode alcançar desempenho superior na mesma escala.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
WCTCTradingKingPK
547.69K Popularidade
#
USSeeksStrategicBitcoinReserve
58.76M Popularidade
#
IsraelStrikesIranBTCPlunges
39.64K Popularidade
#
BitcoinETFOptionLimitQuadruples
1.03M Popularidade
#
#FedHoldsRateButDividesDeepen
43.67K Popularidade

Marcar

sitemap

Pesquisadores do MIT revelam mecanismo de sobreposição forte de LLMs: duplicar a largura reduz aproximadamente pela metade os erros

Tendências

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Marcar