2026-04-07 06:00:28

Según el monitoreo 1M AI News, la empresa Fireworks AI, dedicada a la infraestructura de salida de IA, lanzó una vista previa de Fireworks Training, expandiéndose de una plataforma de salida pura a una plataforma integrada para entrenamiento y despliegue. Fireworks AI fue fundada por Lin Qiao, exingeniero de Meta que participó en la creación de PyTorch, y actualmente está valorada en 4 mil millones de dólares, procesando 15 billones de tokens diariamente. La plataforma ofrece tres niveles: 1. Agente de entrenamiento: diseñado para equipos de producto sin infraestructura de aprendizaje automático, permitiéndoles describir tareas y cargar datos para completar todo el proceso desde entrenamiento hasta despliegue, actualmente soporta solo LoRA; 2. Entrenamiento gestionado: dirigido a ingenieros de aprendizaje automático, soporta SFT, DPO y ajuste fino con refuerzo, incluyendo entrenamiento completo de parámetros; 3. API de entrenamiento: orientada a equipos de investigación, permite personalizar funciones de pérdida y ciclos de entrenamiento, soporta algoritmos como GRPO y DAPO, con escalas completas de entrenamiento de parámetros desde Qwen3 8B de un solo nodo hasta Kimi K2.5 (billones de parámetros) en 64 NVIDIA B200. Los clientes de Fireworks AI en producción, herramientas de programación de IA Cursor, Vercel y Genspark completaron entrenamiento avanzado con refuerzo en esta plataforma. Vercel entrenó un modelo de corrección automática de errores para su producto de generación de código v0, alcanzando un 93% de generación de código sin errores, en comparación con solo un 62% de Sonnet 3.5, y mejoró la latencia de extremo a extremo en 40 veces en comparación con el modelo cerrado previamente utilizado. Genspark realizó ajuste fino de un modelo abierto de un billón de parámetros Kimi K2 mediante aprendizaje por refuerzo para crear un agente de investigación profundo, aumentando el uso de la herramienta en un 33% y reduciendo costos en un 50%. Cursor completó entrenamiento distribuido con refuerzo para Composer 2 en 3-4 clústeres en todo el mundo (actualmente ocupa el primer lugar en CursorBench), compartiendo el mismo grupo de GPU para entrenamiento y salida de producción. Fireworks AI destaca su diferencia tecnológica clave en la coherencia numérica entre entrenamiento y salida. Los modelos MoE (Grupo mixto de expertos) son numéricamente más frágiles que los modelos densos, donde cambios menores en los estados ocultos pueden alterar la ruta de los expertos y potenciar efectos en cascada. Fireworks publicó valores de divergencia KL entre entrenamiento y salida para todos los modelos soportados, todos por debajo de 0.01.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta