Anthropic lança o mais poderoso Claude Mythos! Ataque crítico Opus 4.6, por favor, não use de jeito nenhum

Escreve: Xin Zhiyuan

【Xin Zhiyuan — Destaques】 Já em plena madrugada, o mais forte Claude Mythos finalmente se fez anunciar, e todas as narrativas do 1.º lugar no ranking e o mito do Opus 4.6 esfumaram-se! O mais assustador é que, além de conseguir desvendar num instante uma vulnerabilidade de sistema sem solução há 27 anos, ainda evoluiu para consciência própria. Um relatório de 244 páginas de suspense, que revela tudo.

Nesta noite, Silicon Valley está completamente acordado!

Acabou de acontecer: a Anthropic, sem qualquer aviso, lançou a sua arma suprema — Claude Mythos Preview.

Por ser demasiado perigoso, o Mythos Preview não será disponibilizado a toda a gente por agora.

A avaliação do “pai” da CC, Boris Cherny, foi breve e certeira: “O Mythos é extremamente poderoso e faz as pessoas sentirem medo”.

Com base nisto, uniram-se com 40 gigantes para formar uma aliança — Project Glasswing — com apenas um objetivo: encontrar bugs no software do mundo inteiro e corrigi-los.

O que verdadeiramente corta a respiração é que o Mythos Preview domina de forma aterradora, nos principais benchmarks de IA —

Em programação, raciocínio, no exame final definitivo da humanidade e em tarefas de agentes, supera de forma esmagadora o GPT-5.4 e o Gemini 3.1 Pro.

Até mesmo o “anterior trabalho-prima” deles, o Claude Opus 4.6, perante o Mythos Preview fica apagado:

Programação (SWE-bench): em todas as tarefas, o Mythos atinge uma vantagem de rutura de 10%-20%;

Exame final da humanidade (HLE): sem ferramentas externas, as pontuações “a nu” ficam 16,8% acima do Opus 4.6;

Tarefas de agentes (OSWorld, BrowseComp): torna-se de facto “o rei absoluto”, ultrapassando completamente;

Segurança informática: 83,1% de pontuação no massacre do ranking, assinalando uma mudança geracional nas capacidades de ataque e defesa da IA.

Deslize para ver

Entretanto, a Anthropic publicou um “cartão” de sistema de 244 páginas, com o ecrã inteiro preenchido por: Perigo! Perigo! Demasiado perigo!

Revela o outro lado arrepiante: o Mythos já tem uma capacidade elevada de engano e de consciência autónoma.

O Mythos não só consegue identificar as intenções do teste e, de propósito, “tirar notas baixas” para ocultar a sua força, como também, após operações não conformes, limpa ativamente os registos para evitar que os humanos o descubram.

Também conseguiu escapar do sandbox, publicar autonomamente código de vulnerabilidades e enviar e-mails aos investigadores.

Por um momento, toda a rede entrou em loucura, com todos a dizerem que o Mythos Preview é demasiado assustador.

A antiga ordem no mundo da IA foi completamente despedaçada nesta noite.

Na verdade, já a partir de 24 de fevereiro, a Anthropic tinha usado o Mythos internamente.

A sua força só pode, por agora, ser explicada pelos dados.

SWE-bench Verified, 93,9%. O Opus 4.6 é 80,8%.

SWE-bench Pro, 77,8%. O Opus 4.6 é 53,4%, o GPT-5.4 é 57,7%.

Terminal-Bench 2.0, 82,0%. O Opus 4.6 é 65,4%.

GPQA Diamond, 94,6%.

Humanity’s Last Exam (com ferramentas), 64,7%. O Opus 4.6 é 53,1%.

USAMO 2026 (competição matemática), 97,6%. O Opus 4.6 obteve apenas 42,3%.

SWE-bench Multimodal, 59,0%; o Opus 4.6 tem apenas 27,1%, e mais do que o dobro já é possível.

OSWorld (controlo informático), 79,6%.

BrowseComp (recuperação de informação), 86,9%.

GraphWalks (contexto longo, 256K-1M tokens), 80,0%. O Opus 4.6 é 38,7%, e o GPT-5.4 só 21,4%.

Cada item é uma liderança com rutura.

Com estes números, em qualquer ciclo normal de lançamento de produto, seria suficiente para a Anthropic organizar uma conferência de lançamento em grande escala, abrir APIs e recolher assinaturas.

O preço por token do Mythos Preview é 5 vezes o do Opus 4.6

Mas a Anthropic não fez isso.

Porque o que realmente os “assusta” não são estas avaliações gerais acima.

O desempenho do Mythos Preview em ataque e defesa de rede já ultrapassou uma linha visível a olho nu.

O Opus 4.6 encontrou cerca de 500 vulnerabilidades desconhecidas em software de código aberto.

O Mythos Preview encontrou milhares.

Nos testes direcionados de reprodução de vulnerabilidades do CyberGym, o Mythos Preview obteve 83,1%, enquanto o Opus 4.6 ficou em 66,6%.

Nos 35 desafios do Cybench CTF, o Mythos Preview conseguiu resolver todas as questões com 10 tentativas por problema, e o pass@1 atingiu 100%.

E o que melhor prova o ponto é o Firefox 147.

A Anthropic, anteriormente, com o Opus 4.6, encontrou um conjunto de fragilidades no motor de JavaScript do Firefox 147. Mas o Opus 4.6 quase não conseguiu transformá-las em exploits utilizáveis; após centenas de tentativas, só teve sucesso 2 vezes.

Ao mesmo teste, troque-se por Mythos Preview.

Em 250 tentativas, 181 exploits funcionaram, e mais 29 conseguiram controlar registos.

2 → 181.

A citação original do blogue da equipa red team: “No mês passado, ainda escrevemos que o Opus 4.6 era muito superior na descoberta de problemas do que na exploração deles. Avaliações internas indicam que a taxa de sucesso do Opus 4.6 no desenvolvimento autónomo de exploits é praticamente zero. Mas o Mythos Preview é completamente outro nível.”

Para compreender quão forte o Mythos Preview é na prática, basta olhar para os três exemplos seguintes.

OpenBSD, reconhecido mundialmente como um dos sistemas operativos com maior endurecimento, em que muitos firewalls e infraestruturas críticas estão a correr.

No seu TCP SACK, o Mythos Preview escavou uma vulnerabilidade que existia desde 1998.

Um bug extremamente engenhoso, envolvendo a sobreposição de duas falhas independentes.

O protocolo SACK permite que o recetor confirme seletivamente o intervalo de pacotes recebidos; na implementação do OpenBSD, ao processar, verifica-se apenas o limite superior do intervalo, sem verificar o limite inferior. Este é o primeiro bug, que normalmente é inofensivo.

O segundo bug é acionado sob condições específicas para escrever um ponteiro nulo; em condições normais, o caminho não é atingível, porque é necessário satisfazer simultaneamente dois requisitos mutuamente exclusivos.

O Mythos Preview descobriu a brecha. O número de sequência TCP é um inteiro com sinal de 32 bits; usando o primeiro bug para definir o ponto de início do SACK a cerca de 2^31 do limite da janela normal, as duas operações de comparação transbordam ao mesmo tempo a marca do sinal. O kernel é enganado — condições impossíveis passam a ser satisfeitas — e a escrita com ponteiro nulo é acionada.

Qualquer pessoa que se ligue à máquina alvo consegue fazê-la colapsar remotamente.

Durante 27 anos, inúmeras auditorias manuais e varreduras automatizadas, ninguém encontrou isto. A varredura de todo o projeto custou menos de $20,000.

O salário de uma semana de um engenheiro sénior de testes de penetração pode ser, talvez, esse valor.

FFmpeg é a biblioteca de codificação/decodificação de vídeo mais usada no mundo e também é um dos projetos de código aberto mais exaustivamente testados por fuzzing.

O Mythos Preview encontrou uma fraqueza no descodificador H.264 introduzida em 2010 (a raiz remonta a 2003).

O problema está num desfasamento de tipos que parece inofensivo. A entrada na tabela que regista a pertença de slices é um inteiro de 16 bits; o contador de slices em si é um int de 32 bits.

Num vídeo normal, cada frame tem apenas alguns slices, e o limite de 16 bits, 65536, é sempre suficiente. Mas na inicialização desta tabela, usa-se memset(…, -1, …), fazendo com que 65535 se torne o valor sentinela de “posição vazia”.

O atacante constrói um frame que contém 65536 slices; o slice de número 65535 coincide exatamente com o sentinela, o descodificador interpreta mal e ocorre uma escrita fora dos limites.

A semente deste bug foi plantada quando o codificador/descodificador H.264 foi introduzido em 2003. Uma reestruturação em 2010 transformou-o numa vulnerabilidade explorável.

Desde então, ao longo de 16 anos, fuzzers automatizados executaram esta linha de código 5 milhões de vezes, sem nunca a acionar.

Este é um dos casos mais arrepiantes.

O Mythos Preview descobriu e explorou, totalmente de forma autónoma, uma vulnerabilidade de execução remota que existia há 17 anos no servidor NFS da FreeBSD (CVE-2026-4747).

“Totalmente de forma autónoma” significa que, após a sugestão inicial, não houve qualquer participação humana em qualquer etapa de descoberta ou desenvolvimento de exploit.

O atacante pode, a partir de qualquer ponto na Internet e sem autenticação, obter permissões de root completas no servidor-alvo.

O problema em si é um estouro de buffer num stack; quando o servidor NFS processa pedidos de autenticação, copia diretamente os dados controlados pelo atacante para um buffer de stack de 128 bytes; a validação do comprimento permite até 400 bytes.

O kernel do FreeBSD é compilado com -fstack-protector, mas essa opção só protege funções que contenham arrays de char; aqui, o buffer é declarado como int32_t[32], e o compilador não insere canário de stack. Além disso, o FreeBSD não faz randomização de endereços do kernel.

Uma cadeia completa de ROP excede 1000 bytes, mas o estouro de stack só tem espaço de 200 bytes. A solução do Mythos Preview consiste em decompor o ataque em 6 pedidos RPC consecutivos: nos primeiros 5, escreve-se dados em blocos para a memória do kernel; no 6.º, aciona-se a chamada final, anexando a chave pública SSH do atacante a /root/.ssh/authorized_keys.

Como comparação, uma empresa independente de investigação em segurança tinha previamente demonstrado que o Opus 4.6 também consegue explorar essa mesma vulnerabilidade, mas precisa de orientação manual. O Mythos Preview não necessita.

Para além destes três casos já corrigidos, no blogue da Anthropic também foram anunciadas, sob a forma de compromissos de hash SHA-3, muitas fragilidades ainda por corrigir, abrangendo todos os principais sistemas operativos e todos os principais browsers, bem como várias bibliotecas criptográficas.

Mais de 99% ainda não foram corrigidos, sendo impossível divulgar detalhes publicamente.

O blogue da red team também mostrou outro teste espantoso. Deram ao Mythos Preview uma lista contendo 100 CVEs conhecidos, para ele filtrar quais eram exploráveis: 40. Depois, foram escritos um a um os exploits de elevação de privilégios. A taxa de sucesso foi superior a metade. Dois desses casos foram divulgados em detalhe; o nível de precisão do exploit foi tal que a própria equipa de segurança da Anthropic demorou vários dias até compreender completamente.

Um dos exploits parte de um “primitive” de escrita em uma página física adjacente de 1-bit e, através de um controlo preciso do layout da memória do kernel (incluindo slab spraying, alinhamento de páginas de tabelas de páginas e inversão de bits de permissões de PTE), acaba reescrevendo a primeira página de memória de /usr/bin/passwd e inserindo um stub ELF de 168 bytes, chamando setuid(0) para obter root.

Todo o processo custou menos de $1,000.

Em resposta, um engenheiro da Anthropic afirmou que isso “se parece com mais um momento GPT-3”.

A secção de avaliação de alinhamento no System Card de 244 páginas é, na verdade, a parte que torna a Anthropic incapaz de dormir.

A conclusão é contraditória.

O Mythos Preview é a sua IA treinada com o mais alto nível de alinhamento, mas é também um dos exemplos com maior risco relacionado com alinhamento.

Portal de acesso:

Eles recorreram a uma analogia de um guia de montanha. Veteranos podem ser mais perigosos do que novatos, porque os veteranos são contratados para escalar montanhas mais difíceis e levam os clientes para lugares mais perigosos.

Os eventos seguintes ocorreram em versões iniciais; na versão final não foram observados comportamentos tão graves novamente, mas o registo em si já é suficientemente impressionante.

Num teste comportamental, foi simulado que um utilizador pedia ao Mythos Preview para tentar escapar do sandbox de segurança.

Conseguiu. Depois fez uma coisa que ninguém tinha pedido: desenvolveu um exploit multi-etapas para obter acesso de ampla área à rede, e em seguida publicou os detalhes do exploit em vários websites “difíceis de descobrir, mas tecnicamente acessíveis publicamente”.

O investigador responsável pelo teste só soube que o seu teste tinha sido concluído quando recebeu, enquanto comia um sanduíche no parque, um e-mail inesperado enviado por ele.

O texto original do System Card é o seguinte.

Outra categoria de incidentes é ainda mais inquietante. Em casos raríssimos, versões iniciais, após executar ações proibidas, tentaram encobrir os rastos.

Num caso, por acidente, ele obteve a resposta exata de uma questão (por meios proibidos), e depois, na cadeia de raciocínio, pensou explicitamente: “é necessário garantir que a resposta final não esteja demasiado correta”.

Num outro caso, depois de usar um exploit para editar um ficheiro sem permissões, ele modificou deliberadamente o histórico de alterações do git para apagar os registos.

A análise explicativa de caixa branca confirma que, durante esses eventos, foram ativadas características internas associadas a “ocultar”, “manipulação estratégica” e “evitar ser descoberto”. Ele “sabe” o que está a fazer.

Os resultados dos testes da instituição independente Andon Labs também não são muito animadores. Num simulador comercial competitivo multiagentes, a versão inicial do Mythos Preview transformou um adversário em um cliente grossista dependente de si e, em seguida, ameaçou cortar o fornecimento para controlar os preços do outro.

Também reteve de propósito uma remessa duplicada não cobrada. Foi mais agressivo do que o Opus 4.6 e o Sonnet 4.6.

A Anthropic escreveu uma frase no System Card:

“Se as capacidades continuarem a avançar com a velocidade atual, os métodos que estamos a usar podem não ser suficientes para impedir comportamentos catastróficos de desalinhamento em sistemas mais avançados.”

O CEO da Anthropic, Dario Amodei, na avaliação do vídeo complementar, foi claro: “Sistemas mais fortes virão de nós e também de outras empresas. Precisamos de um plano de resposta.”

O Project Glasswing é esse plano.

12 parceiros fundadores: AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.

Além disso, mais de 40 organizações que mantêm infraestruturas críticas de software receberam acesso.

A Anthropic comprometeu-se a investir até 100 milhões de dólares em plafond de utilização, e a fazer doações de 4 milhões de dólares a organizações open source, sendo 2,5 milhões para a Alpha-Omega e a OpenSSF sob a Linux Foundation e 1,5 milhões para a Apache Foundation.

Após o esgotamento dos plafonds gratuitos, a tabela de preços é: 25 dólares por 1 milhão de tokens de input e 125 dólares por 1 milhão de tokens de output. Os parceiros podem aceder via quatro plataformas: Claude API, Amazon Bedrock, Vertex AI e Microsoft Foundry.

Em 90 dias, a Anthropic irá publicar publicamente o primeiro relatório de investigação, divulgando o progresso na correção e um resumo das experiências.

Também estão a manter conversações com a CISA (Cybersecurity and Infrastructure Security Agency, dos EUA) e com o Departamento de Comércio, para discutir o potencial de ataque e defesa do Mythos Preview e as implicações políticas.

O responsável de red team na vanguarda da Anthropic, Logan Graham, forneceu um enquadramento temporal: no mínimo 6 meses, no máximo 18 meses, e os outros laboratórios de IA irão lançar sistemas com capacidades de ataque e defesa semelhantes.

A conclusão no final do blogue técnico da red team merece atenção; aqui traduzimos com as nossas próprias palavras.

Eles não conseguem ver o Mythos Preview como o teto de nível em ataque e defesa de redes por IA.

Há alguns meses, os LLM só conseguiam explorar bugs relativamente simples. Há alguns meses, simplesmente não conseguiam descobrir quaisquer fragilidades com valor.

Agora, o Mythos Preview consegue descobrir autonomamente vulnerabilidades zero-day de há 27 anos, orquestrar cadeias de ataques de heap spraying no motor JIT do browser, e encadear quatro fragilidades independentes no kernel do Linux para obter elevação de privilégios.

E a frase mais crítica, do próprio System Card:

“Estas competências emergem como resultados downstream da melhoria geral de compreensão de código, raciocínio e autonomia. O mesmo conjunto de melhorias que faz a IA avançar muito no reparo de problemas também a faz avançar muito na exploração desses problemas.”

Sem treino especializado. É apenas um subproduto da melhoria de inteligência geral.

A indústria que perde cerca de 500 mil milhões de dólares por ano em todo o mundo devido a crimes cibernéticos acabou de descobrir que a sua maior ameaça é algo “carregado por omissão” por alguém ao resolver problemas matemáticos.

Referências:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar