Sakana AI lança o sistema KAME, alcançando uma latência quase zero enquanto realiza uma injeção de conhecimento mais profunda

robot
Geração do resumo em andamento

AIMPACT mensagem, 3 de maio (UTC+8), Sakana AI lançou a arquitetura híbrida KAME, que pode injetar conhecimento do LLM de backend em tempo real, mantendo uma latência próxima de zero.
O sistema é composto por dois componentes assíncronos que operam em paralelo: o módulo S2S baseado na arquitetura Moshi, que processa áudio aproximadamente a cada 80 milissegundos e gera respostas imediatamente;
o backend é composto por um componente STT e um LLM completo, que constrói continuamente transcrições parciais e gera um fluxo de oráculo transmitido de volta ao frontend, podendo corrigir a resposta no meio do caminho quando um oráculo melhor chega.
A avaliação mostrou que, isoladamente, Moshi obteve uma pontuação de 2,05, KAME+gpt-4.1 obteve 6,43, KAME+claude-opus-4-1 obteve 6,23, com latências semelhantes às do Moshi;
sistemas de nível superior, como Unmute, obtiveram uma pontuação de 7,70, mas com uma latência de até 2,1 segundos.
O backend do KAME é independente, suportando a troca de LLM durante a inferência sem necessidade de retreinamento.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar