Descubrí una empresa llamada Taalas, una compañía de chips de IA, con un equipo de solo más de veinte personas, que ya ha recaudado más de 200 millones de dólares.


Su primer producto, HC1, tomó una ruta extrema: utiliza tecnología Mask ROM para固化 los pesos de Llama3.18B directamente en la capa metálica del chip, con la unidad de cálculo y los parámetros del modelo en la misma pieza de silicio, prácticamente abandonando la programabilidad, en favor de una optimización extrema en rendimiento, latencia y eficiencia energética.
Ahora, lo que han固化 es Llama3.18B. Lo probé, y la respuesta a preguntas no es confiable, muy inestable.
Pero el problema es que es increíblemente rápido, una experiencia muy contraintuitiva, capaz de aplastar a Groq, con una capacidad de salida de 17,000 tokens/segundo en un solo chip, produciendo decenas de miles de palabras en un abrir y cerrar de ojos, esto es incluso más impresionante que la capacidad de consulta de una base de datos.
Si en el futuro los grandes modelos realmente solo quedan unos pocos líderes en iteración, con estructuras de modelos que se estabilizan gradualmente y una menor frecuencia de actualización de pesos, entonces hacer un chip dedicado para un modelo específico no sería nada loco.
Ahora asumimos que los modelos seguirán cambiando drásticamente, por lo que la potencia de cálculo debe ser general.
Pero, ¿qué pasa si los modelos empiezan a estandarizarse?
Grabar los pesos en el silicio y usar arquitecturas extremadamente especializadas para maximizar el rendimiento, reduciendo costos directamente.
Vemos que la estructura de los modelos comienza a concentrarse; si la estabilidad de los cambios en los modelos principales se consolida, realmente vale la pena tener una línea de chips dedicados diseñados en torno a esa estructura.
El potencial de explosión de esta ruta podría ser muy impresionante.
Si es así, surge una duda que va en contra del consenso: ¿realmente la forma de GPU será el fin definitivo para siempre?
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)