Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
a16z Long article: La prochaine frontière de l'IA ne réside pas dans le langage, mais dans le monde physique — la triple roue motrice des robots, de la science autonome et des interfaces cerveau-machine
Auteur : Oliver Hsu (a16z)
Traduction : DeepTech TechFlow
Introduction de DeepTech : Cet article, rédigé par le chercheur d’a16z Oliver Hsu, constitue la carte d’investissement la plus systématique dans le domaine de l’« IA physique » depuis 2026. Sa conclusion est que la ligne directrice de la langue/du code continue de s’étendre, mais que les capacités réellement disruptives de la prochaine génération émergent dans trois domaines adjacents — robots généralistes, science autonome (scientifiques IA), interfaces cerveau-machine et autres nouveaux interfaces homme-machine. L’auteur décompose cinq capacités fondamentales qui les soutiennent, et argumente que ces trois axes formeront un cycle de rétroaction mutuelle. Pour ceux qui veulent comprendre la logique d’investissement dans l’IA physique, c’est actuellement le cadre le plus complet.
Le paradigme dominant de l’IA aujourd’hui s’organise autour de la langue et du code. La loi de scaling des grands modèles linguistiques est bien établie, le moteur commercial basé sur la donnée, la puissance de calcul et l’amélioration des algorithmes tourne à plein régime, et chaque étape d’augmentation de capacité offre encore de grands retours — majoritairement visibles. Ce paradigme justifie l’attention et le capital qu’il attire.
Mais un autre ensemble de domaines adjacents a déjà fait des progrès substantiels durant leur phase de maturation. Cela inclut des trajectoires comme VLA (modèle visuel-langage-action), WAM (modèle d’action du monde), etc., pour les robots généralistes, la réflexion physique et scientifique autour de « l’IA scientifique », ainsi que de nouvelles interfaces homme-machine utilisant l’IA — interfaces cerveau-machine et neurotechnologies. Au-delà de la technique, ces directions attirent déjà talents, capitaux et fondateurs. Les primitives technologiques pour étendre l’IA à la monde physique mûrissent simultanément, et les 18 derniers mois montrent que ces domaines entreront rapidement dans leur phase de scaling.
Dans tout paradigme technologique, là où la différence entre capacité actuelle et potentiel à moyen terme est la plus grande, deux caractéristiques se dégagent : d’une part, ils bénéficient des mêmes retombées du scaling qui alimentent la frontière actuelle ; d’autre part, ils sont à une étape du paradigme principal — suffisamment proches pour hériter de ses infrastructures et de sa dynamique de recherche, mais encore éloignés pour nécessiter un travail supplémentaire concret. Cette distance joue un double rôle : elle crée une barrière pour les suiveurs rapides, tout en définissant un espace de problème plus rare, moins encombré, propice à l’émergence de nouvelles capacités — précisément parce que le raccourci n’a pas encore été parcouru.
Légende : Illustration de la relation entre le paradigme actuel de l’IA (langue/code) et les systèmes frontaux adjacents
Aujourd’hui, trois domaines correspondent à cette description : l’apprentissage robotique, la science autonome (notamment en matériaux et sciences de la vie), et les nouvelles interfaces homme-machine (interfaces cerveau-ordinateur, voix silencieuse, interfaces neuronales portables, sens nouveaux comme l’odorat numérique). Bien qu’ils ne soient pas totalement indépendants, ils partagent une « frontière » commune : des systèmes avancés du monde physique. Ils utilisent une même base primitive : la représentation apprise de la dynamique physique, une architecture pour les actions incarnées, une infrastructure pour la simulation et la synthèse de données, des canaux sensoriels en expansion continue, et une orchestration d’agents en boucle fermée. Leur rétroaction croisée renforce leur développement mutuel. Ce sont aussi probablement les zones où des capacités qualitatives émergeront — interactions entre la taille des modèles, leur ancrage physique, et la nouvelle forme de données, résultant de cette interaction.
Cet article va décrire ces primitives technologiques, expliquer pourquoi ces trois domaines représentent des opportunités de pointe, et montrer comment leur renforcement mutuel forme un cycle structurant qui pousse l’IA dans le monde physique.
Cinq primitives fondamentales
Avant d’aborder des applications concrètes, il faut comprendre la base technologique partagée par ces systèmes de pointe. La progression de l’IA vers le monde physique repose sur cinq primitives principales. Ces technologies ne sont pas exclusives à un seul domaine, ce sont des composants — permettant de construire des systèmes qui étendent l’IA au monde physique. Leur maturation simultanée explique pourquoi ce moment est si particulier.
Légende : Les cinq primitives fondamentales soutenant l’IA physique
Primitiva 1 : Représentations apprises de la dynamique physique
La primitive la plus fondamentale consiste à apprendre une représentation compacte et universelle du comportement physique du monde — comment les objets se déplacent, se déforment, entrent en collision, réagissent aux forces. Sans cette couche, chaque système d’IA physique devrait apprendre ses lois physiques spécifiques à partir de zéro, ce qui est insoutenable.
Plusieurs écoles d’architecture s’approchent de cet objectif par différentes voies. VLA commence par le haut : en utilisant un modèle visuel-langage pré-entraîné — qui possède déjà une compréhension sémantique des objets, des relations spatiales et du langage — auquel on ajoute un décodeur d’actions pour générer des commandes de mouvement. L’économie de coût de l’apprentissage « voir » et « comprendre le monde » via un pré-entraînement à grande échelle sur internet permet de réduire considérablement la barrière. Physical Intelligence π₀, Gemini Robotics de Google DeepMind, NVIDIA avec GR00T N1, ont validé cette architecture à des échelles croissantes.
WAM, de son côté, part du bas : en utilisant un transformeur de diffusion vidéo pré-entraîné sur des vidéos à l’échelle d’internet, qui hérite de riches priors sur la physique — comment les objets tombent, se cachent, interagissent sous force —, puis en couplant ces priors avec la génération d’actions. NVIDIA DreamZero montre une généralisation zéro-shot à de nouvelles tâches et environnements, avec peu de données d’adaptation, en transférant à partir de vidéos humaines, avec une capacité de généralisation dans le monde réel significative.
Une troisième voie, peut-être la plus éclairante pour l’avenir, saute complètement la représentation pré-entraînée : GEN-1, un modèle de base incarné entraîné à partir de zéro sur plus de 500 000 heures de données d’interactions physiques réelles, collectées principalement via des dispositifs portables à faible coût lors d’opérations quotidiennes. Ce n’est ni un VLA classique (pas de backbone visuel-langage finement ajusté), ni un WAM. C’est un modèle de base conçu pour l’interaction physique, qui apprend non pas la statistique des images, textes ou vidéos internet, mais la statistique des contacts humains avec les objets.
Des entreprises comme World Labs, qui travaillent sur l’intelligence spatiale, trouvent de la valeur dans cette primitive, car elle comble une faiblesse commune à VLA, WAM et aux modèles incarnés natifs : l’absence de modélisation explicite de la structure tridimensionnelle de la scène. VLA hérite de caractéristiques visuelles 2D pré-entraînées sur texte/image ; WAM apprend la dynamique à partir de vidéos, qui sont des projections 2D d’un espace 3D ; les modèles issus de capteurs portables captent la force et la cinématique, mais pas la géométrie de la scène. L’intelligence spatiale peut combler cette lacune — apprendre à reconstruire, générer, et raisonner sur la structure complète 3D de l’environnement : géométrie, éclairage, occlusion, relations d’objets, disposition spatiale.
La convergence de ces trajectoires est elle-même une étape clé. Qu’elle hérite de VLM, qu’elle soit issue de l’apprentissage collaboratif vidéo, ou qu’elle soit construite à partir de données d’interaction physique, la base reste la même : un modèle compact, transférable, de comportement physique du monde. La masse de données alimentant ces représentations est énorme, et la majorité n’a pas encore été exploitée — pas seulement des vidéos internet ou des trajectoires robot, mais aussi la vaste quantité d’expériences corporelles humaines en cours de collecte à grande échelle via des dispositifs portables. La même représentation peut servir un robot qui apprend à plier une serviette, un laboratoire autonome qui prédit des réactions, ou un décodeur neural qui interprète l’intention de préhension dans le cortex moteur.
Primitiva 2 : Architecture pour les actions incarnées
Avoir une représentation physique ne suffit pas. Traduire la « compréhension » en actions physiques fiables nécessite une architecture pour résoudre plusieurs problèmes liés : mapper une intention haute-niveau en commandes continues, maintenir la cohérence sur de longues séquences, fonctionner sous contraintes de latence en temps réel, et s’améliorer avec l’expérience.
Une architecture hiérarchique à deux systèmes est devenue la norme pour les tâches incarnées complexes : un modèle visuel-langage lent mais puissant pour la compréhension de la scène et le raisonnement (Système 2), associé à un contrôleur rapide et léger pour le contrôle en temps réel (Système 1). GR00T N1, Gemini Robotics, Helix de Figure utilisent cette approche ou ses variantes, pour concilier « raisonnement riche » et « contrôle milliseconde ». Generalist explore une autre voie : en utilisant la « résonance du raisonnement » pour faire penser et agir simultanément.
Les mécanismes de génération d’action évoluent rapidement. π₀, basé sur le couplage de flux et diffusion, est devenu la méthode dominante pour produire des mouvements fluides et continus, remplaçant la tokenisation discrète empruntée au langage. Ces méthodes traitent la génération d’actions comme un processus de débruitage, similaire à la synthèse d’images, produisant des trajectoires plus lisses, plus robustes à l’accumulation d’erreurs, supérieures à la prédiction autoregressive.
Mais la progression la plus critique concerne l’extension de l’apprentissage par renforcement (RL) à la représentation pré-entraînée VLA — un modèle de base entraîné sur des démonstrations, capable de s’améliorer par pratique autonome, comme un humain qui affine une compétence par répétition et auto-correction. Physical Intelligence π*₀.₆ illustre cette idée à grande échelle. Leur méthode, RECAP (expérience et correction par stratégie à avantage conditionnel), résout le problème de la distribution de crédit sur de longues séquences, que la simple imitation ne peut gérer. Si un robot saisit légèrement de travers la poignée d’une machine à expresso, l’échec ne sera pas immédiat, mais peut apparaître après plusieurs étapes. La imitation n’a pas de mécanisme pour attribuer cet échec à une étape antérieure, alors que RL le peut. RECAP entraîne une fonction de valeur qui estime la probabilité de succès à partir d’un état intermédiaire, et guide le VLA vers des actions à haut avantage. L’essentiel : il intègre dans un même pipeline des données hétérogènes — démonstrations, expérience autonome, corrections à distance — pour une optimisation continue.
Les résultats sont prometteurs pour l’avenir de la RL dans le domaine de l’action. π*₀.₆ peut, en environnement domestique réel, empiler 50 types de vêtements jamais rencontrés, assembler des cartons de façon fiable, préparer un expresso sur machine professionnelle, pendant plusieurs heures sans intervention humaine. Sur les tâches les plus difficiles, RECAP double la capacité de traitement par rapport à une simple imitation, et réduit de moitié le taux d’échec. La preuve que la formation post-RL peut produire des comportements qualitatifs inaccessibles à l’imitation : mouvements de récupération plus fluides, stratégies de préhension plus efficaces, correction adaptative non présente dans les données d’origine.
Ces gains montrent que la dynamique de scaling des grands modèles — de GPT-2 à GPT-4 — commence à opérer dans le domaine incarné, mais à un stade plus précoce, où l’espace d’action est continu, haute dimension, et soumis à des contraintes physiques implacables.
Primitiva 3 : Infrastructure de simulation et synthèse de données pour le scaling
Dans le domaine du langage, la question de la donnée a été résolue par l’Internet : des trillions de tokens de texte générés naturellement, accessibles gratuitement. Dans le monde physique, c’est plusieurs ordres de grandeur plus difficile — et c’est désormais reconnu. La source la plus immédiate est la multiplication des startups fournissant des données physiques. La collecte de trajectoires réelles de robots est coûteuse, risquée à grande échelle, et peu diversifiée. Un modèle linguistique peut apprendre à partir de milliards de dialogues, un robot (pour l’instant) pas.
La génération de données synthétiques et la simulation sont la couche d’infrastructure clé pour dépasser cette limite. La maturité de cette couche a été un facteur déterminant pour accélérer l’IA physique aujourd’hui, par rapport à il y a cinq ans.
Les stacks modernes combinent moteurs de simulation physique, rendu photoréaliste par ray tracing, génération procédurale d’environnements, et modèles de base pour la création de vidéos à partir d’entrées simulées — pour réduire le gap sim-to-real. La chaîne commence par la reconstruction neuronale d’un environnement réel (facile avec un smartphone), puis la création d’actifs 3D précis, jusqu’à la génération massive de données synthétiques annotées automatiquement.
L’amélioration de cette infrastructure modifie la logique économique de l’IA physique. Si le goulot d’étranglement passe de la collecte de données réelles à la conception d’environnements virtuels variés, le coût chute radicalement. La simulation s’étend avec la puissance de calcul, sans dépendre de la main-d’œuvre ou du hardware physique. C’est la même transformation que pour l’entraînement des modèles linguistiques à partir de données textuelles — un investissement dans l’infrastructure de simulation a un effet de levier énorme sur l’écosystème.
Mais la simulation ne concerne pas uniquement la primitive robotique. La même infrastructure sert aussi à la science autonome (jumeaux numériques d’équipements de laboratoire, simulation pour la sélection d’hypothèses), aux nouvelles interfaces (environnements neuronaux simulés pour entraîner des décodeurs BCI, synthèse sensorielle pour calibrer de nouveaux capteurs), et à d’autres domaines d’interaction IA-physique. La simulation est la plateforme universelle de données pour l’IA physique.
Primitiva 4 : Extension des canaux sensoriels
Les signaux du monde physique sont bien plus riches que la vision et le langage. La tactilité transmet des propriétés matérielles, la stabilité de la préhension, la géométrie du contact, des informations invisibles à la caméra. Les signaux neuronaux, avec toute la bande passante disponible, codent les intentions motrices, l’état cognitif, l’expérience sensorielle. La contraction des muscles sous la voix précède la parole. La quatrième primitive consiste à accélérer l’expansion de ces canaux sensoriels jusqu’ici difficiles à atteindre — via la recherche, mais aussi via un écosystème de dispositifs, logiciels et infrastructures grand public.
Légende : Canaux sensoriels IA en expansion, de l’AR à l’EMG, en passant par le cerveau
Le premier indicateur évident est l’émergence de nouveaux appareils. Les dispositifs AR ont connu ces dernières années une amélioration significative en expérience et en forme (déjà utilisés dans des applications grand public et industrielles) ; les wearables vocaux ont permis à l’IA de disposer d’un contexte physique plus complet — ils suivent l’utilisateur dans son environnement. À long terme, les interfaces neuronales ouvriront des modes d’interaction plus riches. La transformation des modes de calcul par l’IA crée une opportunité d’énormes avancées dans l’interaction homme-machine, avec des entreprises comme Sesame qui développent de nouvelles modalités et appareils.
La modalité vocale, plus mature, facilite aussi l’émergence de nouvelles formes d’interaction. Des produits comme Wispr Flow placent la voix comme principal mode d’entrée (forte densité d’information, avantage naturel), et le marché des interfaces vocales silencieuses s’améliore. Ces appareils utilisent divers capteurs pour capter les mouvements de la langue et des cordes vocales, permettant la reconnaissance silencieuse du langage — une modalité d’interaction à densité d’information supérieure.
Les interfaces cerveau-ordinateur (invasives ou non invasives) représentent une avancée plus profonde, avec un écosystème commercial en pleine croissance. Les signaux apparaissent dans des validations cliniques, des approbations réglementaires, des plateformes intégrées, et des investissements institutionnels — alors qu il y a quelques années, c’était encore un domaine purement académique.
La perception tactile commence à s’intégrer dans l’architecture de l’IA incarnée, avec certains modèles robotisés traitant explicitement le toucher comme une capacité essentielle. Les interfaces olfactives deviennent de véritables produits : capteurs portables avec micro-générateurs d’odeurs, réponse en millisecondes, déjà démontrés dans la réalité augmentée ; des modèles olfactifs commencent à être couplés à des systèmes visuels pour la surveillance chimique.
Le point commun de ces développements est leur convergence vers des limites extrêmes. Les lunettes AR génèrent en continu des données visuelles et spatiales d’interaction ; les capteurs EMG captent la statistique de l’intention motrice ; les interfaces silencieuses traduisent la contraction des muscles sous la voix ; les BCI enregistrent l’activité neuronale à haute résolution ; les capteurs tactiles captent la dynamique de contact. Chaque nouveau dispositif devient aussi une plateforme de génération de données, alimentant plusieurs domaines d’application. Un robot entraîné à partir de données EMG pour inférer l’intention motrice, et un autre entraîné uniquement avec des données de contrôle à distance, apprend des stratégies de préhension différentes ; un décodeur neural entraîné avec haute densité de BCI produit des représentations de planification motrice inaccessibles par d’autres canaux.
La diffusion de ces dispositifs étend la dimension effective de l’espace de données pour entraîner des systèmes d’IA physique avancés — et cette extension est largement portée par des entreprises de consommation bien financées, pas seulement par des laboratoires académiques, ce qui accélère la boucle de données en phase avec l’adoption du marché.
Primitiva 5 : Systèmes d’agents en boucle fermée
Enfin, la dernière primitive concerne l’architecture. Elle désigne la capacité à orchestrer perception, raisonnement, action en un système autonome, en boucle fermée, en continu, sur de longues périodes, sans intervention humaine.
Dans l’IA basée sur le langage, cette évolution correspond à l’émergence des agents intelligents — chaînes de raisonnement multi-étapes, utilisation d’outils, auto-correction — qui font passer le modèle d’un simple outil de question-réponse à un solveur autonome. Dans le monde physique, la même transformation se produit, mais avec des exigences beaucoup plus strictes. Un agent linguistique peut faire marche arrière sans coût ; un agent physique, si une bouteille de réactif est renversée, il ne peut pas revenir en arrière.
Les systèmes d’agents physiques se distinguent de leurs homologues numériques par trois caractéristiques : premièrement, ils doivent s’intégrer à des expériences ou des opérations en boucle fermée, en connectant directement aux flux de données d’instruments, capteurs, et primitives d’action, pour faire raisonner la réalité physique, et non sa simple description textuelle ; deuxièmement, ils doivent assurer une persistance sur la durée — mémoire, traçabilité, sécurité, récupération — en reliant plusieurs cycles d’opération, et pas traiter chaque tâche comme une unité indépendante ; troisièmement, ils doivent s’adapter en boucle fermée, en ajustant leur stratégie en fonction des résultats physiques, et pas seulement en fonction de retours textuels.
Cette primitive fusionne des capacités indépendantes — modèles du monde, architectures d’action fiables, capteurs riches — en un système complet capable de fonctionner de façon autonome dans le monde physique. Elle constitue la couche d’intégration, et sa maturité est la condition préalable à la déploiement réel de ces trois domaines, plutôt qu’à de simples démonstrations de recherche.
Trois domaines
Les primitives évoquées ci-dessus sont des couches d’activation universelles, sans définir précisément où se concentrent les applications les plus importantes. Beaucoup de domaines impliquent des actions, mesures ou perceptions physiques. La différence entre « frontier » et « simple amélioration » réside dans le degré de croissance exponentielle des capacités du modèle et de l’infrastructure de scaling — pas seulement de meilleures performances, mais l’émergence de capacités inédites.
Robotique, sciences pilotées par l’IA, interfaces homme-machine innovantes — ce sont ces trois domaines où cet effet de levier est le plus fort. Chacun assemble ces primitives de façon unique, chacun est encore limité par les contraintes que ces primitives cherchent à dépasser, et chacun génère en retour des données structurées du monde physique — qui alimentent à leur tour ces primitives, créant un cycle de rétroaction accélérant tout le système. Ce ne sont pas les seuls domaines de l’IA physique, mais ce sont ceux où la capacité d’interaction avec la réalité est la plus dense, où la distance avec le paradigme langue/code est la plus grande, et où le potentiel d’émergence de nouvelles capacités est maximal — tout en étant hautement complémentaires, profitant des retombées de ce paradigme.
Robotique
La robotique est l’incarnation la plus littérale de l’IA physique : un système d’IA qui doit percevoir, raisonner, et agir sur le monde matériel en temps réel. Elle constitue aussi un test de ces primitives.
Imaginez un robot généraliste devant plier une serviette : combien de tâches doit-il réaliser ? Il lui faut une représentation apprise du comportement des matériaux déformables sous force — un priors physique, que la pré-entraînement linguistique ne fournit pas. Il lui faut une architecture pour traduire une instruction haute-niveau en une séquence de commandes continues à plus de 20Hz. Il lui faut des données d’entraînement générées par simulation, car personne n’a collecté des millions de démonstrations réelles de pliage. Il lui faut du retour tactile pour détecter le glissement et ajuster la force de préhension, car la vision ne peut pas distinguer une prise stable d’une prise en train d’échouer. Et il lui faut un contrôleur en boucle fermée, capable d’identifier une erreur lors d’un pliage raté et de se corriger, plutôt que d’exécuter aveuglément une trajectoire mémorisée.
Légende : Appel simultané aux cinq primitives dans une tâche robotique
C’est pourquoi la robotique est une plateforme de systèmes en pointe, pas une discipline d’ingénierie mature. Ces primitives ne sont pas des améliorations de capacités robotisées existantes, elles débloquent des catégories d’opérations, de mouvements, d’interactions hors des environnements industriels étroits.
Les progrès récents sont significatifs — nous en avons déjà parlé. La première génération de VLA a montré qu’un modèle de base peut contrôler un robot pour diverses tâches. Les avancées architecturales ont permis de relier raisonnement haut-niveau et contrôle bas-niveau. La planification en boucle locale devient possible, la migration inter-plateformes permet d’adapter un modèle à un nouveau robot avec peu de données. Le défi restant est la fiabilité à grande échelle, qui limite encore le déploiement. Un taux de succès de 95 % par étape, 60 % sur une chaîne de 10 étapes, ce qui est insuffisant pour la production. L’apprentissage par renforcement post-formation a un potentiel énorme pour franchir ce cap, en apportant la robustesse et la scalabilité nécessaires.
Ces avancées influencent aussi la structure du marché. La valeur de la robotique s’est longtemps concentrée dans la mécanique — qui reste essentielle — mais avec la standardisation des stratégies d’apprentissage, la valeur migre vers les modèles, l’infrastructure d’entraînement, la boucle de données. La robotique alimente aussi ces primitives : chaque trajectoire réelle est une donnée d’entraînement pour améliorer la modélisation, chaque échec expose des lacunes dans la simulation, chaque nouveau robot testé augmente la diversité des expériences physiques disponibles pour l’entraînement. La robotique est à la fois un consommateur exigeant de ces primitives, et une source cruciale de signaux d’amélioration.
Science autonome
Si la robotique teste la primitive par « actions physiques en temps réel », la science autonome évalue une autre dimension — la capacité à raisonner sur des systèmes physiques complexes sur plusieurs étapes, sur des échelles de temps d’heures ou de jours, en interprétant, contextualisant, et ajustant la stratégie en conséquence.
Légende : Approche de la science autonome (scientifique IA) intégrant ces primitives
L’IA en science est le domaine où ces primitives sont le plus intégrées. Un laboratoire autonome (self-driving lab, SDL) doit apprendre une représentation physique-chimique pour prédire les résultats d’expériences ; utiliser des actions incarnées pour pipeter, positionner, manipuler ; recourir à la simulation pour pré-sélectionner des expériences et optimiser l’utilisation d’équipements rares ; étendre ses capteurs — spectromètres, chromatographes, spectromètres de masse, capteurs chimiques et biologiques — pour caractériser les résultats. Il nécessite une orchestration en boucle fermée, pour maintenir un flux de « hypothèses-expériences-analyses-rectifications » sans intervention humaine, avec traçabilité, sécurité, et ajustement continu.
Aucune autre discipline ne mobilise ces primitives à ce degré. C’est pourquoi la science autonome est une « plateforme » avancée, pas une simple automatisation de laboratoire. Des entreprises comme Periodic Labs ou Medra combinent capacité de raisonnement scientifique et validation physique, pour accélérer l’itération scientifique et produire en continu des données d’entraînement.
L’intérêt est évident. La découverte de nouveaux matériaux, qui prend des années, pourrait être accélérée par l’IA. La contrainte clé passe de la génération d’hypothèses (facilitée par des modèles de base) à la fabrication et la validation (requérant des instruments, robots, boucle fermée). SDL cible précisément ce défi.
Un autre aspect fondamental de la science autonome, valable pour tous ces systèmes physiques, est son rôle en tant que moteur de données. Chaque expérience réalisée par un SDL ne produit pas seulement un résultat scientifique, mais aussi un signal d’entraînement validé, ancré dans la réalité physique. Une mesure de cristallisation d’un polymère sous conditions spécifiques enrichit la modélisation du comportement matériel ; un chemin synthétique validé devient une donnée pour la modélisation causale ; un échec caractérisé indique où la prédiction est fausse. La donnée issue d’un scientifique IA est structurée, causale, vérifiée — un type de donnée que les modèles de raisonnement physique ont un besoin critique, mais qu’aucune autre source ne fournit. La science autonome transforme la réalité physique en connaissance structurée, et accélère tout l’écosystème de l’IA physique.
Nouvelles interfaces
Les robots étendent l’IA au mouvement physique, la science autonome à la recherche, et les nouvelles interfaces à la perception humaine directe, via des dispositifs connectés : lunettes AR, bracelets EMG, interfaces neuronales implantables. La caractéristique commune : augmenter le débit et la modalité des canaux de communication entre l’humain et l’IA — tout en générant des données d’interaction humain-monde directement exploitables pour construire l’IA physique.
Légende : Évolution des canaux sensoriels IA, de l’AR à l’EMG, jusqu’aux interfaces cerveau-ordinateur
Le premier indicateur est l’émergence de nouveaux appareils. Les dispositifs AR ont connu ces dernières années une amélioration notable en expérience et en forme (déjà utilisés dans des applications grand public et industrielles) ; les wearables vocaux permettent à l’IA d’accéder à un contexte physique plus riche — ils suivent l’utilisateur dans son environnement. À terme, les interfaces neuronales ouvriront des modes d’interaction plus complets. La transformation du calcul par l’IA crée une opportunité pour des interactions homme-machine radicalement améliorées, avec des entreprises comme Sesame qui développent de nouvelles modalités et appareils.
La modalité vocale, plus mature, facilite aussi l’émergence de nouvelles formes d’interaction. Des produits comme Wispr Flow placent la voix comme principal mode d’entrée (forte densité d’information, avantage naturel), et le marché des interfaces silencieuses s’accélère. Ces appareils utilisent divers capteurs pour capter les mouvements de la langue et des cordes vocales, permettant la reconnaissance silencieuse du langage — une modalité à densité d’information supérieure.
Les interfaces cerveau-ordinateur (invasives ou non) représentent une avancée plus profonde, avec un écosystème commercial en croissance. Les signaux neuronaux apparaissent dans des validations cliniques, des approbations réglementaires, des plateformes intégrées, et des investissements institutionnels — alors qu’il y a quelques années, c’était encore un domaine purement académique.
La perception tactile commence à s’intégrer dans l’architecture de l’IA incarnée, avec certains modèles robotisés traitant explicitement le toucher comme une capacité essentielle. Les interfaces olfactives deviennent de véritables produits : capteurs portables avec micro-générateurs d’odeurs, réponse en millisecondes, déjà démontrés dans la réalité augmentée ; des modèles olfactifs commencent à être couplés à des systèmes visuels pour la surveillance chimique.
Le point commun de ces développements est leur convergence vers des limites extrêmes. Les lunettes AR génèrent en continu des données visuelles et spatiales d’interaction ; les capteurs EMG captent la statistique de l’intention motrice ; les interfaces silencieuses traduisent la contraction des muscles sous la voix ; les BCI enregistrent l’activité neuronale à haute résolution ; les capteurs tactiles captent la dynamique de contact. Chaque nouveau dispositif devient aussi une plateforme de génération de données, alimentant plusieurs domaines d’application. Un robot entraîné à partir de données EMG pour inférer l’intention motrice, et un autre entraîné uniquement avec des données de contrôle à distance, apprend des stratégies de préhension différentes ; un décodeur neural entraîné avec haute densité de BCI produit des représentations de planification motrice inaccessibles par d’autres canaux.
La diffusion de ces dispositifs étend la dimension effective de l’espace de données pour entraîner des systèmes d’IA physique avancés — et cette extension est largement portée par des entreprises de consommation bien financées, pas seulement par des laboratoires académiques, ce qui accélère la boucle de données en phase avec l’adoption du marché.
Primitiva 5 : Systèmes d’agents en boucle fermée
La dernière primitive concerne l’architecture. Elle désigne la capacité à orchestrer perception, raisonnement, action en un système autonome, en boucle fermée, en continu, sur de longues périodes, sans intervention humaine.
Dans l’IA basée sur le langage, cette évolution correspond à l’émergence des agents intelligents — chaînes de raisonnement multi-étapes, utilisation d’outils, auto-correction — qui font passer le modèle d’un simple outil de question-réponse à un solveur autonome. Dans le monde physique, la même transformation se produit, mais avec des exigences beaucoup plus strictes. Un agent linguistique peut faire marche arrière sans coût ; un agent physique, si une bouteille de réactif est renversée, il ne peut pas revenir en arrière.
Les systèmes d’agents physiques se distinguent de leurs homologues numériques par trois caractéristiques : premièrement, ils doivent s’intégrer à des expériences ou des opérations en boucle fermée, en connectant directement aux flux de données d’instruments, capteurs, et primitives d’action, pour faire raisonner la réalité physique, et non sa simple description textuelle ; deuxièmement, ils doivent assurer une persistance sur la durée — mémoire, traçabilité, sécurité, récupération — en reliant plusieurs cycles d’opération, et pas traiter chaque tâche comme une unité indépendante ; troisièmement, ils doivent s’adapter en boucle fermée, en ajustant leur stratégie en fonction des résultats physiques, et pas seulement en fonction de retours textuels.
Cette primitive fusionne des capacités indépendantes — modèles du monde, architectures d’action fiables, capteurs riches — en un système complet capable de fonctionner de façon autonome dans le monde physique. Elle constitue la couche d’intégration, et sa maturité est la condition préalable à la déploiement réel de ces trois domaines, plutôt qu’à de simples démonstrations de recherche.
Trois domaines
Les primitives évoquées ci-dessus sont des couches d’activation universelles, sans définir précisément où se concentrent les applications les plus importantes. Beaucoup de domaines impliquent des actions, mesures ou perceptions physiques. La différence entre « frontier » et « simple amélioration » réside dans le degré de croissance exponentielle des capacités du modèle et de l’infrastructure de scaling — pas seulement de meilleures performances, mais l’émergence de capacités inédites.
Robotique, sciences pilotées par l’IA, interfaces homme-machine innovantes — ce sont ces trois domaines où cet effet de levier est le plus fort. Chacun assemble ces primitives de façon unique, chacun est encore limité par les contraintes que ces primitives cherchent à dépasser, et chacun génère en retour des données structurées du monde physique — qui alimentent à leur tour ces primitives, créant un cycle de rétroaction accélérant tout le système. Ce ne sont pas les seuls domaines de l’IA physique, mais ce sont ceux où la capacité d’interaction avec la réalité est la plus dense, où la distance avec le paradigme langue/code est la plus grande, et où le potentiel d’émergence de nouvelles capacités est maximal — tout en étant hautement complémentaires, profitant des retombées de ce paradigme.