a16z artigo de dezenas de milhares de palavras: O próximo avanço da IA não está na linguagem, mas no mundo físico — o triplo ciclo de avanço em robótica, ciência autônoma e interfaces cérebro-máquina

Autor: Oliver Hsu (a16z)

Tradução: Deep潮 TechFlow

Deep潮 guia: Este artigo vem do pesquisador da a16z Oliver Hsu, sendo o mapa de investimento em “IA física” mais sistemático desde 2026. Sua avaliação é: a linha principal de linguagem/código ainda está em escala, mas as verdadeiras capacidades revolucionárias da próxima geração estão nas três áreas adjacentes — robótica geral, ciência autônoma (cientistas de IA), interfaces cérebro-máquina e outros novos interfaces homem-máquina. O autor decompôs as cinco capacidades fundamentais que as sustentam e argumenta que essas três frentes formarão um ciclo de feedback estrutural que se alimenta mutuamente. Para quem quer entender a lógica de investimento em IA física, este é atualmente o quadro mais completo.

Hoje, o paradigma dominante de IA gira em torno de linguagem e código. A lei de escala de grandes modelos de linguagem já está bem delineada, o ciclo de negócios de dados, poder computacional e melhorias de algoritmos está em movimento, e os retornos de cada avanço de capacidade ainda são significativos, sendo em grande parte visíveis. Essa abordagem justifica o capital e atenção que atrai.

Por outro lado, um conjunto adjacente de áreas já está em fase de progresso substancial. Inclui rotas como VLA (modelo de visão-linguagem-ação), WAM (modelo de ação do mundo), além de IA para ciência física e raciocínio científico, e interfaces inovadoras de interação humano-máquina (incluindo interfaces cérebro-máquina e neurotecnologia). Além da tecnologia em si, esses campos estão começando a atrair talentos, capital e fundadores. As linguagens técnicas que estendem a IA de ponta para o mundo físico estão amadurecendo simultaneamente, e os avanços dos últimos 18 meses indicam que esses domínios logo entrarão em suas próprias fases de escala.

Em qualquer paradigma tecnológico, os pontos de maior delta entre capacidade atual e potencial de médio prazo geralmente apresentam duas características: primeiro, podem se beneficiar da mesma rodada de escala que impulsiona o estado da arte atual; segundo, estão a uma etapa do paradigma principal — suficientemente próximos para herdar sua infraestrutura e impulso de pesquisa, mas ainda requerem trabalho adicional concreto. Essa distância tem um duplo efeito: naturalmente cria uma barreira de entrada para seguidores rápidos, e também define um espaço de problema mais escasso e menos saturado de informações, aumentando a probabilidade de surgimento de novas capacidades — justamente porque o atalho ainda não foi totalmente percorrido.

Legenda: Relação entre o paradigma atual de IA (linguagem/código) e os sistemas de fronteira adjacentes

Atualmente, três áreas se encaixam nessa descrição: aprendizado de robôs, ciência autônoma (especialmente materiais e ciências da vida), e novos interfaces homem-máquina (incluindo interfaces cérebro-máquina, fala silenciosa, wearables neurais, e novos canais sensoriais como olfato digital). Elas não são trabalhos totalmente independentes, mas compartilham um conjunto de “primitivos” de baixo nível: representação de dinâmica física, arquiteturas para ações corporais, infraestrutura de simulação e dados sintéticos, canais sensoriais em expansão contínua, e sistemas de controle de agentes em ciclo fechado. Essas áreas se reforçam mutuamente por meio de feedback intersetorial. São também os locais mais propensos a emergir capacidades de mudança de paradigma — resultado da interação entre escala de modelos, implementação física e novos tipos de dados, que juntos impulsionam a inovação.

Este artigo irá explorar esses primitivos tecnológicos, explicar por que esses três campos representam oportunidades de ponta, e propor que sua interação reforçada forma um ciclo de feedback estrutural que impulsiona a IA para o mundo físico.

Cinco primitivos fundamentais

Antes de mergulhar em aplicações específicas, é importante entender as bases tecnológicas compartilhadas por esses sistemas de ponta. Levar IA de ponta ao mundo físico depende de cinco primitivos principais. Essas tecnologias não são exclusivas de qualquer campo de aplicação, mas sim componentes — que possibilitam a construção de sistemas que estendem a IA ao mundo físico. Sua maturidade sincronizada é a razão pela qual este momento é particularmente especial.

Legenda: Os cinco primitivos fundamentais que sustentam a IA física

Primitivo 1: Representação de dinâmica física aprendida

O primitivo mais fundamental é a capacidade de aprender uma representação compacta e geral do comportamento físico do mundo — como objetos se movem, deformam, colidem, reagem às forças. Sem essa camada, cada sistema de IA física teria que aprender do zero as leis físicas de seu domínio, o que é inviável.

Vários ramos arquiteturais estão se aproximando desse objetivo por diferentes caminhos. O modelo VLA parte de cima: usa modelos pré-treinados de visão-linguagem — que já possuem compreensão semântica de objetos, relações espaciais e linguagem — e adiciona um decodificador de ações para gerar comandos de controle de movimento. O ponto-chave é que o enorme custo de aprender “ver” e “entender o mundo” pode ser diluído pelo pré-treinamento em escala de internet de imagens e textos. Physical Intelligence π₀, Google DeepMind Gemini Robotics, NVIDIA GR00T N1, todos validaram essa abordagem em escalas crescentes.

O modelo WAM parte de baixo: baseado em um Transformer de difusão de vídeo treinado em vídeos em escala de internet, herdando ricos priors de dinâmica física (como objetos caem, são ocultados, interagem sob força), e integrando esses priors com geração de ações. A NVIDIA DreamZero demonstra generalização zero-shot para tarefas e ambientes novos, com adaptação a poucos dados a partir de demonstrações humanas, melhorando a generalização ao mundo real.

Uma terceira rota, talvez mais inspiradora para o futuro, pula o pré-treinamento de VLM e difusão de vídeo. O GEN-1 da Generalist é um modelo de base com corpo físico treinado do zero, usando mais de 500 mil horas de dados de interação física real coletados principalmente por dispositivos vestíveis de baixo custo, de pessoas realizando tarefas cotidianas. Não é um VLA padrão (sem backbone de visão-linguagem ajustado), nem WAM. É um modelo de base projetado especificamente para interação física, aprendendo não as estatísticas de imagens, textos ou vídeos da internet, mas as estatísticas de contato humano com objetos.

Empresas como World Labs, que trabalham com inteligência espacial, valorizam esse primitivo porque preenche uma lacuna comum a VLA, WAM e modelos de corpo nativo: todos eles não modelam explicitamente a estrutura tridimensional do cenário. VLA herda características visuais 2D de pré-treinamento de imagens e textos; WAM aprende dinâmica de vídeos, que são projeções 2D de ambientes 3D; modelos treinados com sensores vestíveis captam força e cinemática, mas não a geometria do cenário. Modelos de inteligência espacial podem ajudar a preencher essa lacuna — aprendendo a reconstruir, gerar e raciocinar sobre a estrutura física completa 3D, incluindo geometria, iluminação, oclusões, relações entre objetos e disposição espacial.

A convergência dessas rotas é um ponto central. Independentemente de a representação vir de VLM, de treinamento colaborativo com vídeos, ou de uma construção nativa a partir de dados de interação física, o primitivo subjacente é o mesmo: um modelo de comportamento físico do mundo, compacto e transferível. Os ciclos de dados que alimentam esses modelos são enormes — ainda na maior parte inexplorados — incluindo vídeos de internet, trajetórias de robôs, e uma vasta quantidade de experiência humana coletada por dispositivos vestíveis em escala. Essa representação pode servir tanto a um robô aprendendo a dobrar toalhas quanto a um laboratório autônomo prevendo reações, ou a um neurodecodificador interpretando intenções de agarrar no córtex motor.

Primitivo 2: Arquitetura para ações corporais

Ter apenas representação física não basta. Para traduzir “compreensão” em ações físicas confiáveis, é preciso uma arquitetura que resolva questões interligadas: mapear intenções de alto nível em comandos de movimento contínuos, manter coerência em sequências longas, operar com latência em tempo real, e evoluir com a experiência.

Arquiteturas hierárquicas de dois sistemas tornaram-se padrão para tarefas corporais complexas: um modelo visual-linguagem lento, forte, responsável por compreensão de cenário e raciocínio de tarefas (Sistema 2), junto de uma estratégia de controle visual-motor rápida e leve (Sistema 1). GR00T N1, Gemini Robotics, Helix da Figure usam variações dessa abordagem, resolvendo a tensão entre “modelos grandes com raciocínio rico” e “controle em milissegundos”. O approach do Generalist é diferente: usa “raciocínio ressonante” para fazer pensar e agir simultaneamente.

A geração de ações também evolui rapidamente. π₀, baseado em correspondência de fluxo e difusão, tornou-se o método dominante para gerar movimentos suaves e contínuos de alta frequência, substituindo tokenização discreta herdada de modelos de linguagem. Essas abordagens tratam a geração de ações como um processo de denoising semelhante à síntese de imagens, produzindo trajetórias mais suaves e robustas a erros, superando previsões autoregressivas de tokens.

A maior inovação arquitetural talvez seja a extensão do aprendizado por reforço (RL) a modelos pré-treinados de VLA — um modelo treinado em demonstrações, capaz de melhorar por prática autônoma, como humanos que refinam habilidades com repetição e autoajuste. O trabalho π*₀.₆ da Physical Intelligence demonstra isso em escala: usando RECAP (aprendizado por reforço com estratégias de vantagem e correções), resolve o problema de atribuição de crédito em sequências longas. Por exemplo, se um robô inclina levemente a alavanca de uma máquina de café expresso, a falha pode só se manifestar após alguns passos. O RL permite atribuir crédito a ações anteriores, ajustando a estratégia. O método integra dados heterogêneos — demonstrações, experiência autônoma, correções remotas — em um pipeline único de treinamento.

Os resultados são promissores para o futuro do RL em ações físicas. π*₀.₆ consegue, em ambientes domésticos reais, empilhar 50 tipos de roupas nunca vistos, montar caixas de papelão de forma confiável, fazer café expresso em máquinas profissionais, por horas sem intervenção. Em tarefas difíceis, supera em mais de duas vezes a taxa de sucesso de métodos apenas imitativos, reduzindo a taxa de falha pela metade. Além disso, demonstra comportamentos qualitativamente melhores após treinamento com RL: movimentos de recuperação mais suaves, estratégias de captura mais eficientes, correções adaptativas que não estavam presentes nos dados de demonstração.

Esses avanços indicam que a força de escala de modelos grandes — de GPT-2 a GPT-4 — começa a se refletir na área de ações corporais, embora ainda em uma fase inicial, com espaço para lidar com espaços de ação contínuos, de alta dimensão, e com as restrições físicas do mundo real.

Primitivo 3: Infraestrutura de simulação e dados sintéticos para escala

Na linguagem, o problema de dados foi resolvido pela internet: trilhões de tokens de texto gerados naturalmente e disponíveis gratuitamente. No mundo físico, o problema é várias ordens de magnitude maior — e essa é uma constatação consensual. O sinal mais direto é o crescimento rápido de startups de fornecimento de dados físicos. Coletar trajetórias reais de robôs é caro, arriscado em escala, e limitado em diversidade. Modelos de linguagem podem aprender com bilhões de diálogos, mas um robô ainda não consegue ter bilhões de interações físicas.

A geração de dados sintéticos e simulação é a infraestrutura fundamental para superar essa limitação. Sua maturidade é uma das razões principais pelas quais a IA física está acelerando hoje, em vez de há cinco anos.

A pilha moderna de simulação combina motores físicos, renderização fotorrealista por ray tracing, geração procedural de ambientes, e modelos de mundo que geram vídeos fotorrealistas a partir de entradas simuladas — ajudando a fechar o gap sim-to-real. Desde reconstruções neurais de ambientes reais (que podem ser feitas com um smartphone), até a criação de ativos 3D precisos, e geração de grandes volumes de dados sintéticos anotados automaticamente.

A melhoria na infraestrutura de simulação muda a economia da IA física: se o gargalo passa de “coletar dados reais” para “projetar ambientes virtuais diversos”, o custo despenca. A simulação escala com poder computacional, sem depender de hardware físico ou mão de obra. Essa mudança é análoga à transformação do treinamento de modelos de linguagem com dados de texto na internet, e representa um grande incentivo ao investimento em infraestrutura de simulação — potencializando toda a cadeia de valor.

Mas simulação não é só para primitivos de robótica. A mesma infraestrutura serve para ciência autônoma (digital twins de laboratórios, simulações para hipóteses), novas interfaces (treinamento de decodificadores BCI, sensores sintéticos), e outros domínios de interação IA-mundo físico. A simulação é uma engine de dados universal para IA física.

Primitivo 4: Ampliação dos canais sensoriais

Os sinais do mundo físico são muito mais ricos do que visão e linguagem. Tato transmite propriedades de materiais, estabilidade de pegada, geometria de contato — informações invisíveis a câmeras. Os sinais neurais, por sua vez, codificam intenções de movimento, estados cognitivos, experiências sensoriais com largura de banda muito maior do que qualquer interface humano existente. Atividades musculares subglóticas já codificam intenções de fala antes mesmo de gerar som. O quarto primitivo é a rápida expansão de IA para esses canais sensoriais anteriormente inacessíveis — impulsionada não só por pesquisa, mas por um ecossistema de dispositivos, softwares e infraestrutura de consumo.

Legenda: canais sensoriais de IA em expansão, de AR e EMG até interfaces cérebro-máquina

O indicador mais direto é o surgimento de novos dispositivos. Dispositivos de AR melhoraram bastante em experiência e forma nos últimos anos (com aplicações comerciais e industriais já em uso); wearables focados em voz permitem que IA de linguagem tenha contexto físico mais completo — eles realmente acompanham o usuário no ambiente. A longo prazo, interfaces neurais podem abrir canais de interação mais completos. A mudança na computação trazida pela IA cria uma oportunidade de elevar drasticamente a interação humano-máquina, com empresas como Sesame desenvolvendo novos canais e dispositivos.

A modalidade de fala, mais madura, também impulsiona novas formas de interação. Produtos como Wispr Flow priorizam a fala como principal entrada (por sua alta densidade de informação e vantagens naturais), enquanto interfaces de fala silenciosa — que usam sensores para captar movimentos da língua e das cordas vocais — melhoram o reconhecimento de linguagem sem som, representando uma nova modalidade de interação com maior densidade de informação.

Interfaces cérebro-máquina (invasivas e não invasivas) representam uma fronteira mais avançada, com ecossistemas comerciais em rápida evolução. Sinais aparecem em validações clínicas, aprovações regulatórias, plataformas de integração, e capital institucional — uma evolução que há poucos anos era exclusivamente acadêmica.

A percepção tátil também está entrando na arquitetura de IA corpórea, com alguns modelos de robótica começando a tratar o tato como uma capacidade fundamental. Interfaces olfativas estão se tornando produtos reais: detectores portáteis de odores com microgeradores de cheiros, resposta em milissegundos, já demonstrados em aplicações de realidade mista; modelos de olfato também começam a ser combinados com IA visual para monitoramento de processos químicos.

O padrão comum dessas evoluções é que elas tendem a convergir em seus limites. Óculos de AR continuam gerando dados visuais e espaciais de interação usuário-ambiente; sensores EMG captam intenções de movimento; interfaces silenciosas de fala capturam a relação entre atividade subglótica e linguagem; BCI de alta resolução decodificam atividade neural; sensores táteis captam dinâmica de contato. Cada novo dispositivo também é uma plataforma de geração de dados, alimentando múltiplos modelos de aplicação. Um robô treinado com dados de EMG para inferir intenções de movimento é diferente de um treinado apenas com dados de controle remoto; uma interface de laboratório que responde a comandos subglóticos é diferente de uma controlada por teclado; um decodificador neural treinado com dados de alta densidade de BCI produz representações de movimento que nenhum outro canal consegue.

A disseminação desses dispositivos expande o espaço de dados disponíveis para treinar sistemas de IA física avançados — e essa expansão é impulsionada em grande parte por empresas de consumo com forte capital, não apenas por laboratórios acadêmicos, acelerando o ciclo de dados com adoção de mercado.

Primitivo 5: Sistemas de agentes em ciclo fechado

Por fim, um primitivo mais de arquitetura: a capacidade de integrar percepção, raciocínio e ação em sistemas autônomos, contínuos e em ciclo fechado, operando por longos períodos sem intervenção humana.

No campo de modelos de linguagem, isso se traduz na emergência de agentes inteligentes — com raciocínio em múltiplas etapas, uso de ferramentas, autoajuste — levando o modelo de uma ferramenta de Q&A para um solucionador autônomo de problemas. No mundo físico, uma transformação semelhante está ocorrendo, mas com requisitos muito mais rigorosos. Um agente de linguagem pode errar e retroceder sem custo; um agente físico que derruba uma garrafa de reagente não pode simplesmente desfazer o erro.

As características que diferenciam esses agentes físicos dos digitais são três: primeiro, eles precisam estar integrados a experimentos ou operações em ciclo fechado — conectados diretamente a fluxos de dados de instrumentos, sensores de estado físico e primitivos de ação, para que o raciocínio seja aplicado na realidade física, não apenas na descrição textual; segundo, precisam de persistência em sequências longas — memória, rastreamento, segurança, recuperação — conectando múltiplos ciclos de operação; terceiro, precisam de adaptação em ciclo fechado — ajustando estratégias com base nos resultados físicos, não apenas na retroalimentação textual.

Esse primitivo integra capacidades independentes (bons modelos de mundo, arquiteturas confiáveis de ação, sensores diversos) em sistemas completos capazes de operar de forma autônoma no mundo físico. É a camada de integração, cuja maturidade é condição prévia para que esses três campos possam ser implantados no mundo real, além de demonstrações isoladas de pesquisa.

Três domínios

As bases descritas acima são enablers universais, não determinam onde as aplicações mais importantes irão se desenvolver. Muitos campos envolvem ações físicas, medições físicas ou percepções físicas. A distinção entre “sistemas de ponta” e “sistemas aprimorados existentes” depende do grau de efeito composto de melhorias de modelos e infraestrutura de escala — não apenas desempenho, mas a emergência de novas capacidades antes impossíveis.

Robótica, ciência impulsionada por IA, e novas interfaces homem-máquina são os três domínios onde esse efeito composto é mais forte. Cada um combina esses primitivos de forma única, cada um ainda limitado pelas restrições atuais, mas também produzindo, como subproduto, dados físicos estruturados que alimentam os modelos subjacentes. Esses dados criam ciclos de feedback que aceleram o sistema como um todo. Não são os únicos campos de IA física, mas são os mais densos em interação com a realidade física, e também os mais distantes do paradigma de linguagem/código atual — com maior potencial de emergência de novas capacidades — além de serem altamente complementares e capazes de se beneficiar dos seus avanços.

Robótica

Robótica é a manifestação mais literal de IA física: um sistema de IA que precisa perceber, raciocinar e exercer ações físicas no mundo material. Ela também serve como teste de resistência para cada primitivo.

Imagine o que um robô geral precisa fazer para empilhar uma toalha. Precisa de uma representação aprendida de como materiais deformáveis se comportam sob força — um prior físico que linguagem pré-treinada não fornece. Precisa de uma arquitetura de controle que traduza comandos de alto nível em sequências contínuas de movimento a mais de 20Hz. Precisa de dados de treinamento gerados por simulação, pois ninguém coletou milhões de demonstrações reais de dobrar toalhas. Precisa de feedback tátil para detectar escorregamento e ajustar a força de pegada, pois visão não consegue distinguir uma pegada firme de uma instável. E precisa de um controlador em ciclo fechado que identifique erros ao empilhar e recupere, ao invés de seguir cegamente uma trajetória memorizada.

Legenda: chamadas simultâneas aos cinco primitivos em tarefas de robótica

Por isso, robótica é um sistema de ponta, não apenas uma disciplina de engenharia madura. Esses primitivos não são melhorias em capacidades existentes, mas desbloqueiam categorias de operação, movimento e interação que antes estavam fora de alcance fora de ambientes industriais controlados.

Nos últimos anos, houve avanços significativos — já discutidos anteriormente. A primeira geração de VLA mostrou que modelos de base podem controlar robôs em tarefas variadas. Avanços arquiteturais conectaram raciocínio de alto nível com controle de baixo nível. Raciocínio em borda tornou-se viável, transferência entre domínios permite adaptar um modelo a plataformas novas com poucos dados. O desafio central ainda é confiabilidade em escala, que limita a implantação. Taxa de sucesso de 95% por passo, só 60% em uma cadeia de 10 passos, não é suficiente para produção. RL pós-treinamento tem potencial para elevar essa confiabilidade, levando a robótica a uma fase de escala.

Esses avanços impactam a estrutura de mercado. Décadas de valor na robótica estavam na máquina em si; ela continua importante, mas com estratégias de aprendizado mais padronizadas, o valor migra para modelos, infraestrutura de treinamento e ciclos de dados. Cada trajeto real no mundo fornece dados para melhorar o modelo, cada falha revela lacunas na simulação, cada novo domínio amplia a diversidade de experiências físicas disponíveis para pré-treinamento. Robótica é tanto consumidora quanto fonte de sinais de melhoria para esses primitivos.

Ciência autônoma

Se robótica testa os primitivos com ações físicas em tempo real, a ciência autônoma avalia a capacidade de raciocínio contínuo sobre sistemas físicos complexos — com intervalos de horas ou dias, interpretando resultados, ajustando estratégias.

Legenda: integração dos cinco primitivos na ciência autônoma (IA cientista)

A IA na ciência é o campo que mais combina esses primitivos. Um laboratório autônomo (SDL) precisa aprender representações de dinâmica física-química para prever resultados; usar ações corporais para manipular amostras e instrumentos; gerar dados sintéticos por simulação para pré-seleção de experimentos; ampliar canais sensoriais — espectroscopia, cromatografia, espectrometria de massa — para caracterizar resultados. Requer uma orquestração de agentes em ciclo fechado, capaz de manter múltiplas rodadas de hipóteses, experimentos, análises e ajustes, sem intervenção humana, com rastreamento, segurança e adaptação contínua.

Nenhum outro campo usa esses primitivos com tanta profundidade. Essa é a razão pela qual a ciência autônoma é um sistema de ponta, não apenas automação laboratorial. Empresas como Periodic Labs e Medra combinam capacidades de raciocínio científico e validação física, gerando dados de treinamento para iteração científica.

O valor é intuitivamente claro. Descobertas de materiais tradicionalmente levam anos até a comercialização; IA promete acelerar esse ciclo. A restrição principal passa de geração de hipóteses (que modelos podem ajudar bastante) para fabricação e validação — que requerem instrumentos físicos, robôs, ciclo fechado de otimização. SDL é uma resposta a esse gargalo.

Outro aspecto fundamental da ciência autônoma é seu papel como gerador de dados. Cada experimento realizado por um SDL não produz apenas um resultado científico, mas um sinal de treinamento validado, com aplicação física concreta. Uma medição de como um polímero cristaliza sob certas condições enriquece o modelo de materiais; uma rota sintética validada vira dado de raciocínio físico; uma falha caracterizada informa o sistema sobre onde suas previsões falham. Dados de um IA cientista que realiza experimentos reais são diferentes de textos na internet ou saídas de simulação: são estruturados, causais, validados empiricamente. Essa é a fonte de dados mais necessária para modelos de raciocínio físico, que nenhuma outra origem fornece. A ciência autônoma transforma a realidade física em conhecimento estruturado, impulsionando o ecossistema de IA física.

Novos interfaces

Robótica estende IA às ações físicas; ciência autônoma estende IA à pesquisa física. Novos interfaces conectam IA à percepção, sensação e sinais corporais humanos — de óculos AR, pulseiras EMG, até interfaces cerebrais implantáveis. O que une esses dispositivos não é uma tecnologia única, mas uma função comum: ampliar a largura de banda e os modos de comunicação entre humanos e IA — gerando dados de interação humano-mundo que alimentam os primitivos de ponta.

Legenda: espectro de novos interfaces, de óculos AR a interfaces cérebro-máquina

A distância do paradigma principal é tanto um desafio quanto uma oportunidade. Modelos de linguagem entendem esses modos conceitualmente, mas não dominam naturalmente os movimentos silenciosos, a geometria de receptores olfativos, ou a dinâmica temporal de sinais EMG. Decodificar esses sinais exige aprender a partir dos canais sensoriais em expansão. Muitos desses modos não têm corpus de pré-treinamento na escala da internet, e os dados só podem ser gerados pelos próprios dispositivos — o que implica uma evolução conjunta do sistema e seus dados, sem equivalente na IA de linguagem.

Recentemente, o destaque é a rápida ascensão de wearables de consumo com IA. Óculos AR, por exemplo, evoluíram bastante em experiência e forma; wearables de fala silenciosa, que captam movimentos da língua e cordas vocais, melhoram o reconhecimento de linguagem sem som, criando uma nova modalidade de interação mais densa em informação.

Interfaces neurais invasivas e não invasivas representam uma fronteira mais avançada, com ecossistemas comerciais em rápida evolução. Sinais aparecem em validações clínicas, aprovações regulatórias, plataformas de integração, e capital institucional — uma evolução que há poucos anos era só acadêmica.

A percepção tátil também está entrando na arquitetura de IA corpórea, com modelos de robótica começando a tratar o tato como capacidade fundamental. Interfaces olfativas estão se tornando produtos reais: detectores portáteis de odores com microgeradores de cheiros, resposta em milissegundos, já demonstrados em aplicações de realidade mista; modelos de olfato começam a ser combinados com IA visual para monitoramento químico.

O padrão comum dessas evoluções é que tendem a convergir em seus limites. Óculos AR continuam gerando dados visuais e espaciais de interação usuário-ambiente; sensores EMG captam intenções de movimento; interfaces silenciosas de fala capturam a relação entre atividade subglótica e linguagem; BCI de alta resolução decodificam atividade neural; sensores táteis captam dinâmica de contato. Cada novo dispositivo também é uma plataforma de geração de dados, alimentando múltiplos modelos de aplicação. Um robô treinado com dados de EMG para inferir intenções de movimento é diferente de um treinado apenas com controle remoto; uma interface de laboratório que responde a comandos subglóticos é diferente de uma controlada por teclado; um decodificador neural treinado com dados de alta densidade de BCI produz representações de movimento que nenhum outro canal consegue.

A disseminação desses dispositivos expande o espaço de dados disponíveis para treinar sistemas de IA física avançados — e essa expansão é impulsionada em grande parte por empresas de consumo com forte capital, não apenas por laboratórios acadêmicos, acelerando o ciclo de dados com adoção de mercado.

Primitivo 5: Sistemas de agentes em ciclo fechado

Por fim, um primitivo mais de arquitetura: a capacidade de integrar percepção, raciocínio e ação em sistemas autônomos, contínuos e em ciclo fechado, operando por longos períodos sem intervenção humana.

No campo de modelos de linguagem, isso se traduz na emergência de agentes inteligentes — com raciocínio em múltiplas etapas, uso de ferramentas, autoajuste — levando o modelo de uma ferramenta de Q&A para um solucionador autônomo de problemas. No mundo físico, uma transformação semelhante está ocorrendo, mas com requisitos muito mais rigorosos. Um agente de linguagem pode errar e retroceder sem custo; um agente físico que derruba uma garrafa de reagente não pode simplesmente desfazer o erro.

As características que diferenciam esses agentes físicos dos digitais são três: primeiro, eles precisam estar integrados a experimentos ou operações em ciclo fechado — conectados diretamente a fluxos de dados de instrumentos, sensores de estado físico e primitivos de ação, para que o raciocínio seja aplicado na realidade física, não apenas na descrição textual; segundo, precisam de persistência em sequências longas — memória, rastreamento, segurança, recuperação — conectando múltiplos ciclos de operação; terceiro, precisam de adaptação em ciclo fechado — ajustando estratégias com base nos resultados físicos, não apenas na retroalimentação textual.

Esse primitivo integra capacidades independentes (bons modelos de mundo, arquiteturas confiáveis de ação, sensores diversos) em sistemas completos capazes de operar de forma autônoma no mundo físico. É a camada de integração, cuja maturidade é condição prévia para que esses três campos possam ser implantados no mundo real, além de demonstrações isoladas de pesquisa.

Três domínios

As bases descritas acima são enablers universais, não determinam onde as aplicações mais importantes irão se desenvolver. Muitos campos envolvem ações físicas, medições físicas ou percepções físicas. A distinção entre “sistemas de ponta” e “sistemas aprimorados existentes” depende do grau de efeito composto de melhorias de modelos e infraestrutura de escala — não apenas desempenho, mas a emergência de novas capacidades antes impossíveis.

Robótica, ciência impulsionada por IA, e novas interfaces homem-máquina são os três domínios onde esse efeito composto é mais forte. Cada um combina esses primitivos de forma única, cada um ainda limitado pelas restrições atuais, mas também produzindo, como subproduto, dados físicos estruturados que alimentam os modelos subjacentes. Esses dados criam ciclos de feedback que aceleram o sistema como um todo. Não são os únicos campos de IA física, mas são os mais densos em interação com a realidade física, e também os mais distantes do paradigma de linguagem/código atual — com maior potencial de emergência de novas capacidades — além de serem altamente complementares e capazes de se beneficiar dos seus avanços.

Robótica

Robótica é a manifestação mais literal de IA física: um sistema de IA que precisa perceber, raciocinar e exercer ações físicas no mundo material. Ela também serve como teste de resistência para cada primitivo.

Imagine o que um robô geral precisa fazer para empilhar uma toalha. Precisa de uma representação aprendida de como materiais deformáveis se comportam sob força — um prior físico que linguagem pré-treinada não fornece. Precisa de uma arquitetura de controle que traduza comandos de alto nível em sequências contínuas de movimento a mais de 20Hz. Precisa de dados de treinamento gerados por simulação, pois ninguém coletou milhões de demonstrações reais de dobrar toalhas. Precisa de feedback tátil para detectar escorregamento e ajustar a força de pegada, pois visão não consegue distinguir uma pegada firme de uma instável. E precisa de um controlador em ciclo fechado que identifique erros ao empilhar e recupere, ao invés de seguir cegamente uma trajetória memorizada.

Legenda: chamadas simultâneas aos cinco primitivos em tarefas de robótica

Por isso, robótica é um sistema de ponta, não apenas uma disciplina de engenharia madura. Esses primitivos não são melhorias em capacidades existentes, mas desbloqueiam categorias de operação, movimento e interação que antes estavam fora de alcance fora de ambientes industriais controlados.

Nos últimos anos, houve avanços significativos — já discutidos anteriormente. A primeira geração de VLA mostrou que modelos de base podem controlar robôs em tarefas variadas. Avanços arquiteturais conectaram raciocínio de alto nível com controle de baixo nível. Raciocínio em borda tornou-se viável, transferência entre domínios permite adaptar um modelo a plataformas novas com poucos dados. O desafio central ainda é confiabilidade em escala, que limita a implantação. Taxa de sucesso de 95% por passo, só 60% em uma cadeia de 10 passos, não é suficiente para produção. RL pós-treinamento tem potencial para elevar essa confiabilidade, levando a robótica a uma fase de escala.

Esses avanços impactam a estrutura de mercado. Décadas de valor na robótica estavam na máquina em si; ela continua importante, mas com estratégias de aprendizado mais padronizadas, o valor migra para modelos, infraestrutura de treinamento e ciclos de dados. Cada trajeto real no mundo fornece dados para melhorar o modelo, cada falha revela lacunas na simulação, cada novo domínio amplia a diversidade de experiências físicas disponíveis para pré-treinamento. Robótica é tanto consumidora quanto fonte de sinais de melhoria para esses primitivos.

Ciência autônoma

Se robótica testa os primitivos com ações físicas em tempo real, a ciência autônoma avalia a capacidade de raciocínio contínuo sobre sistemas físicos complexos — com intervalos de horas ou dias, interpretando resultados, ajustando estratégias.

Legenda: integração dos cinco primitivos na ciência autônoma (IA cientista)

A IA na ciência é o campo que mais combina esses primitivos. Um laboratório autônomo (SDL) precisa aprender representações de dinâmica física-química para prever resultados; usar ações corporais para manipular amostras e instrumentos; gerar dados sintéticos por simulação para pré-seleção de experimentos; ampliar canais sensoriais — espectroscopia, cromatografia, espectrometria de massa — para caracterizar resultados. Requer uma orquestração de agentes em ciclo fechado, capaz de manter múltiplas rodadas de hipóteses, experimentos, análises e ajustes, sem intervenção humana, com rastreamento, segurança e adaptação contínua.

Nenhum outro campo usa esses primitivos com tanta profundidade. Essa é a razão pela qual a ciência autônoma é um sistema de ponta, não apenas automação laboratorial. Empresas como Periodic Labs e Medra combinam capacidades de raciocínio científico e validação física, gerando dados de treinamento para iteração científica.

O valor é intuitivamente claro. Descobertas de materiais tradicionalmente levam anos até a comercialização; IA promete acelerar esse ciclo. A restrição principal passa de geração de hipóteses (que modelos podem ajudar bastante) para fabricação e validação — que requerem instrumentos físicos, robôs, ciclo fechado de otimização. SDL é uma resposta a esse gargalo.

Outro aspecto fundamental da ciência autônoma é seu papel como gerador de dados. Cada experimento realizado por um SDL não produz apenas um resultado científico, mas um sinal de treinamento validado, com aplicação física concreta. Uma medição de como um polímero cristaliza sob certas condições enriquece o modelo de materiais; uma rota sintética validada vira dado de raciocínio físico; uma falha caracterizada informa o sistema sobre onde suas previsões falham. Dados de um IA cientista que realiza experimentos reais são diferentes de textos na internet ou saídas de simulação: são estruturados, causais, validados empiricamente. Essa é a fonte de dados mais necessária para modelos de raciocínio físico, que nenhuma outra origem fornece. A ciência autônoma transforma a realidade física em conhecimento estruturado, impulsionando o ecossistema de IA física.

Novos interfaces

Robótica estende IA às ações físicas; ciência autônoma estende IA à pesquisa física. Novos interfaces conectam IA à percepção, sensação e sinais corporais humanos — de óculos AR, pulseiras EMG, até interfaces cérebro-máquina implantáveis. O que une esses dispositivos não é uma tecnologia única, mas uma função comum: ampliar a largura de banda e os modos de comunicação entre humanos e IA — gerando dados de interação humano-mundo que alimentam os primitivos de ponta.

Legenda: espectro de novos interfaces, de óculos AR a interfaces cérebro-máquina

A distância do paradigma principal é tanto um desafio quanto uma oportunidade. Modelos de linguagem entendem esses modos conceitualmente, mas não dominam naturalmente os movimentos silenciosos, a geometria de receptores olfativos, ou a dinâmica temporal de sinais EMG. Decodificar esses sinais exige aprender a partir dos canais sensoriais em expansão. Muitos desses modos não têm corpus de pré-treinamento na escala da internet, e os dados só podem ser gerados pelos próprios dispositivos — o que implica uma evolução conjunta do sistema e seus dados, sem equivalente na IA de linguagem.

Recentemente, o destaque é a rápida ascensão de wearables de consumo com IA. Óculos AR, por exemplo, evoluíram bastante em experiência e forma; wearables focados em fala silenciosa, que captam movimentos da língua e cordas vocais, melhoram o reconhecimento de linguagem sem som, criando uma nova modalidade de interação mais densa em informação.

Interfaces neurais invasivas e não invasivas representam uma fronteira mais avançada, com ecossistemas comerciais em rápida evolução. Sinais aparecem em validações clínicas, aprovações regulatórias, plataformas de integração, e capital institucional — uma evolução que há poucos anos era só acadêmica.

A percepção tátil também está entrando na arquitetura de IA corpórea, com modelos de robótica começando a tratar o tato como capacidade fundamental. Interfaces olfativas estão se tornando produtos reais: detectores portáteis de odores com microgeradores de cheiros, resposta em milissegundos, já demonstrados em aplicações de realidade mista; modelos de olfato começam a ser combinados com IA visual para monitoramento químico.

O padrão comum dessas evoluções é que tendem a convergir em seus limites. Óculos AR continuam gerando dados visuais e espaciais de interação usuário-ambiente; sensores

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar