D’après le suivi de 1M AI News, la société d’infrastructure de raisonnement Fireworks AI a publié une version bêta de Fireworks Training, passant d’une plateforme de raisonnement pur à une plateforme intégrée pour l’entraînement et le déploiement. Fireworks AI a été fondée par Qiao Lin (Lin Qiao), ancienne ingénieure chez Meta ayant participé à la construction de PyTorch. Sa valorisation s’élève à 4 milliards de dollars, et le volume de tokens traité par jour atteint 1 500 milliards.
La plateforme propose trois niveaux :
L’échelle de l’entraînement en paramètres complets va d’un Qwen3 8B sur un nœud unique jusqu’à Kimi K2.5 (paramètres en billions) sur 64 cartes NVIDIA B200.
Les clients de raisonnement en production de Fireworks AI, notamment l’outil de programmation IA Cursor, Vercel et Genspark, ont déjà achevé des entraînements d’apprentissage par renforcement de pointe sur cette plateforme. Vercel a entraîné un modèle de correction automatique pour son produit de génération de code v0 ; le taux de génération de code sans erreur atteint 93 %. Son CTO, Malte Ubl, indique qu’en comparaison, Sonnet 3.5 n’est qu’à 62 %, et que la latence de bout en bout s’améliore de 40 fois par rapport aux modèles propriétaires utilisés auparavant. Genspark réalise un ajustement par apprentissage par renforcement du modèle open source Kimi K2 de plusieurs billions de paramètres afin de construire un agent de recherche approfondie ; le volume d’appels d’outils augmente de 33 % et les coûts diminuent de 50 %. Cursor a terminé un entraînement par renforcement de Composer 2 de manière distribuée sur 3 à 4 clusters à l’échelle mondiale (actuellement classé n° 1 dans CursorBench) ; l’entraînement et le raisonnement en production partagent le même pool de GPU.
La différenciation technique centrale mise en avant par Fireworks AI est la cohérence numérique entre l’entraînement et l’inférence. Les modèles MoE (mélange d’experts) sont plus fragiles numériquement que les modèles denses ; de minuscules variations des états cachés peuvent inverser le routage des experts et amplifier ensuite en cascade. Fireworks publie pour tous les modèles pris en charge la valeur de la divergence KL entre l’entraînement et l’inférence, qui est toujours inférieure à 0.01.