Variant 投资合伙人：La encrucijada y la superación de la inteligencia artificial de Código abierto, ¿por qué la tecnología de encriptación es la última pieza del rompecabezas?

Question

Autor: Daniel Barabander Compilador: Deep Tide TechFlow Breve resumen En la actualidad, el desarrollo de la IA básica está dominado por unas pocas empresas tecnológicas, lo que se caracteriza por ser cerrado y no tener competencia. Si bien el desarrollo de software de Código abierto es una solución potencial, la IA fundacional no funciona como los proyectos tradicionales de Código abierto (por ejemplo, Linux) porque se enfrenta a un "problema de recursos": los colaboradores de Código abierto no solo tienen que pagar tiempo, sino que también tienen que asumir costos computacionales y de datos más allá de sus capacidades personales. Se espera que la tecnología de encriptación resuelva este problema de recursos al incentivar a los proveedores de recursos a participar en el proyecto subyacente de IA Código abierto. La combinación de la IA de Código abierto con la tecnología de encriptación puede respaldar el desarrollo de modelos a mayor escala e impulsar una mayor innovación para crear sistemas de IA más avanzados. INTRODUCCIÓN Según una encuesta realizada por el Pew Research Center (Pew Research Center) en 2024, el 64% de los estadounidenses cree que el impacto de las redes sociales en la nación hace más daño que bien; El 78% dice que las empresas de redes sociales tienen demasiado poder e influencia en la política; El 83% cree que es probable que estas plataformas censuren deliberadamente las opiniones políticas con las que no están de acuerdo. La insatisfacción con las redes sociales se ha convertido en uno de los pocos consensos en la sociedad estadounidense. Mirando hacia atrás en la evolución de las redes sociales en los últimos 20 años, esta situación parece predestinada. La historia no es complicada: un puñado de grandes empresas tecnológicas han captado la atención de los usuarios y, lo que es más importante, los datos de los usuarios. A pesar de las esperanzas iniciales de datos abiertos, las empresas cambiaron rápidamente su estrategia, utilizando los datos para crear efectos de red irrompibles y cerrar el acceso externo. El resultado es la situación actual: menos de 10 grandes empresas tecnológicas dominan la industria de las redes sociales, creando un panorama de "monopolio de oligopolio". Dado que el statu quo es extremadamente favorable para ellas, estas empresas tienen pocos incentivos para cambiar. Este modelo es cerrado y carece de competencia. Hoy en día, la trayectoria de la tecnología de IA parece repetirse, pero esta vez el impacto es aún más amplio. Un puñado de empresas tecnológicas han creado modelos fundamentales de IA tomando el control de las GPU y los recursos de datos, y han desactivado el acceso a esos modelos. Para los nuevos participantes que no tienen miles de millones de dólares en financiación, es casi imposible desarrollar un modelo competitivo. Debido a que el costo computacional de entrenar un solo modelo básico es de miles de millones de dólares, las empresas de redes sociales que se han beneficiado de la última ola de tecnología están utilizando su control sobre los datos de los usuarios para desarrollar modelos que son difíciles de igualar para los competidores. Estamos repitiendo los errores de las redes sociales y avanzando hacia un mundo de IA cerrado y poco competitivo. Si esta tendencia continúa, un puñado de empresas tecnológicas tendrán un control ilimitado sobre el acceso a la información y las oportunidades. La IA y el "problema de los recursos" Si no queremos ver un mundo cerrado de IA, ¿cuáles son nuestras opciones? La respuesta obvia fue desarrollar el modelo base como un proyecto de software de Código abierto. Históricamente, hemos tenido innumerables proyectos de Código abierto que han construido con éxito el software subyacente en el que confiamos todos los días. El éxito de Linux, por ejemplo, demuestra que incluso un software tan básico como un sistema operativo puede desarrollarse de forma abierta. Entonces, ¿por qué no pueden hacerlo los LLM (grandes modelos de lenguaje)? Sin embargo, las limitaciones especiales a las que se enfrentan los modelos de IA subyacentes los hacen diferentes del software tradicional, lo que también debilita en gran medida su viabilidad como proyecto tradicional de Código abierto. Específicamente, los modelos fundamentales de IA requieren enormes recursos informáticos y de datos que están mucho más allá de las capacidades de un individuo. A diferencia de los proyectos tradicionales de Código abierto, que dependen únicamente de que las personas donen su tiempo, la IA de Código abierto también pide a las personas que donen potencia informática y recursos de datos, lo que se conoce como el "problema de los recursos". Usando el modelo LLaMa de Meta como ejemplo, podemos comprender mejor este problema de recursos. A diferencia de competidores como OpenAI y Google, Meta no esconde sus modelos detrás de API pagas, sino que ofrece abiertamente pesos LLaMa para que cualquiera los use de forma gratuita (con ciertas restricciones). Estas ponderaciones contienen lo que el modelo aprende durante el entrenamiento de Meta y son necesarias para ejecutar el modelo. Con estos pesos, el usuario puede ajustar el modelo o utilizar la salida del modelo como entrada para un nuevo modelo. Si bien el lanzamiento de LLaMa por parte de Meta es digno de reconocimiento, no cuenta como un verdadero proyecto de software de Código abierto. En segundo plano, Meta controla el proceso de entrenamiento, confiando en sus propios recursos informáticos, datos y decisiones, y decidiendo unilateralmente cuándo poner el modelo a disposición del público. Meta no invita a investigadores o desarrolladores independientes a participar en colaboraciones comunitarias, ya que los recursos necesarios para entrenar o volver a entrenar modelos están mucho más allá de las capacidades del individuo promedio. Estos recursos incluyen decenas de miles de GPU de alto rendimiento, centros de datos para almacenar esas GPU, sofisticadas instalaciones de refrigeración y billones de tokens (unidades de datos de texto necesarias para el entrenamiento del modelo) para el entrenamiento. Como se señala en el informe del Índice de IA 2024 de la Universidad de Stanford, "el drástico coste de la formación excluye efectivamente a las universidades, que tradicionalmente han sido potencias de la investigación en IA, del desarrollo de modelos fundamentales superiores". Por ejemplo, Sam Altman mencionó que cuesta hasta 100 millones de dólares entrenar GPT-4, y eso ni siquiera incluye los gastos de capital en hardware. Además, los gastos de capital de Meta aumentaron en 2.100 millones de dólares en el segundo trimestre de 2024 en comparación con el mismo periodo de 2023, principalmente para servidores, centros de datos e infraestructura de red relacionada con el entrenamiento de modelos de IA. Como resultado, mientras que los colaboradores de la comunidad de LLaMa pueden tener la capacidad técnica para mejorar la arquitectura del modelo, carecen de los recursos para implementar esas mejoras. En resumen, a diferencia de los proyectos tradicionales de software de Código abierto, los proyectos de IA de Código abierto requieren que los colaboradores no solo inviertan tiempo, sino que también incurran en altos costos computacionales y de datos. No es realista confiar únicamente en la buena voluntad y el voluntariado para motivar a suficientes proveedores de recursos. Necesitan más incentivos. El gran modelo lingüístico de Código abierto, BLOOM, por ejemplo, es un modelo de 176.000 millones de parámetros que reúne los esfuerzos de 1.000 investigadores voluntarios de más de 250 instituciones en más de 70 países. Si bien el éxito de BLOOM fue admirable (y lo apoyo plenamente), se tardó un año en coordinar una sesión de formación y se contó con 3 millones de euros de financiación de un instituto de investigación francés (sin contar el gasto de capital de Supercomputadora, que se utilizó para entrenar el modelo). El proceso de depender de una nueva ronda de financiación para coordinar e iterar en BLOOM es demasiado engorroso para igualar la velocidad de desarrollo en los grandes laboratorios tecnológicos. HAN PASADO MÁS DE DOS AÑOS DESDE QUE SE LANZÓ BLOOM, Y EL EQUIPO AÚN NO HA OÍDO HABLAR DE NINGÚN MODELO DE SEGUIMIENTO. Para que la IA de Código abierto sea posible, debemos encontrar una manera de incentivar a los proveedores de recursos para que contribuyan con su poder de cómputo y sus recursos de datos, en lugar de dejar que los contribuyentes de Código abierto asuman estos costos por sí mismos. Por qué la tecnología de encriptación puede resolver el "problema de los recursos" de la IA subyacente de Código abierto El avance central de la tecnología de encriptación es hacer posible proyectos de software de Código abierto con altos costos de recursos a través del mecanismo de "propiedad". Resuelve el problema de los recursos de la IA de Código abierto al incentivar a los posibles proveedores de recursos a participar en la red, en lugar de que los contribuyentes de Código abierto asuman el costo de estos recursos por adelantado. BTC es un buen ejemplo de esto. Como uno de los primeros proyectos de encriptación, BTC es un proyecto de software totalmente Código abierto cuyo código fue público desde el principio. Sin embargo, el código en sí no es la clave de BTC. No tiene sentido simplemente descargar y ejecutar el software BTC Nodo y crear una cadena Bloquear localmente. El verdadero valor de Minería Bloquear solo puede realizarse si la cantidad de cómputo es suficiente para exceder el poder de cómputo de cualquier contribuyente individual: mantener un libro mayor descentralizado e incontrolado. Al igual que la IA subyacente de Código abierto, BTC también es un proyecto de Código abierto que requiere recursos más allá del alcance de las capacidades de un individuo. Si bien los dos requieren recursos computacionales por diferentes razones (BTC necesita recursos computacionales para garantizar que la red no pueda ser manipulada, mientras que la IA subyacente requiere recursos computacionales para optimizar e iterar los modelos), lo que todos tienen en común es que ambos dependen de recursos que están más allá de las capacidades de los individuos. El "secreto" de BTC, así como de cualquier otra red de encriptación, para poder incentivar a los participantes a aportar recursos al proyecto de software Código abierto es proporcionar la propiedad de la red a través de tokens. Como se indica en la filosofía fundacional de Jesse escrita para Variant en 2020, la propiedad proporciona un fuerte incentivo para que los proveedores de recursos estén dispuestos a contribuir con recursos a cambio de posibles ganancias en la red. Este mecanismo es similar a la forma en que las startups abordan la escasez de financiación en las primeras etapas a través de la "equidad de sudor" (Sweat Equity): al pagar a los empleados en las primeras etapas (por ejemplo, los fundadores) principalmente en forma de propiedad de la empresa, las nuevas empresas pueden atraer mano de obra que de otro modo no podrían pagar. La tecnología de encriptación amplía el concepto de "equidad de sudor" de centrarse en los contribuyentes de tiempo a los proveedores de recursos. Como resultado, Variant se centra en invertir en proyectos que aprovechan los mecanismos de propiedad para crear efectos de red, como Uniswap, Morpho y World. Si queremos que la IA sea una realidad, entonces el mecanismo de propiedad implementado a través de la tecnología de encriptación es la solución clave al problema de los recursos. Este mecanismo daría a los investigadores la libertad de contribuir con sus ideas de diseño de modelos al proyecto Código abierto, ya que los recursos computacionales y de datos necesarios para hacer realidad esas ideas serían asumidos por el proveedor de recursos, que se vería recompensado con la obtención de la propiedad fraccionaria del proyecto, en lugar de tener que incurrir en los altos costos iniciales del propio investigador. En la IA de Código abierto, la propiedad puede tomar muchas formas, pero una de las más esperadas es la propiedad del modelo en sí, que también es la solución propuesta por Pluralis. El enfoque propuesto por Pluralis se conoce como Modelos de Protocolo. En este modelo, el proveedor de recursos informáticos puede entrenar un modelo específico de Código abierto aportando potencia de cómputo y, por lo tanto, recibir una propiedad fraccionaria para los ingresos futuros de inferencia del modelo. Dado que esta propiedad está vinculada a un modelo específico y su valor se basa en los ingresos de inferencia del modelo, se incentiva a los proveedores de recursos computacionales a elegir el mejor modelo para entrenar sin falsificar los datos de entrenamiento (ya que proporcionar un entrenamiento inútil da como resultado directamente el valor esperado de los ingresos de inferencia futuros de Soltar). Sin embargo, una pregunta clave es: ¿cómo garantiza Pluralis la seguridad de la propiedad si el proceso de entrenamiento requiere que las ponderaciones del modelo se envíen al proveedor de proceso? La respuesta está en el uso de técnicas de "paralelización de modelos" (Model Parallelism) para distribuir la fragmentación de modelos a diferentes trabajadores. Una característica importante de las redes neuronales es que, incluso si solo se conoce una pequeña fracción de los pesos del modelo, el computador aún puede participar en el entrenamiento, lo que garantiza que no se pueda extraer el conjunto completo de pesos. Además, debido a que muchos modelos diferentes se entrenan al mismo tiempo en la plataforma Pluralis, el entrenador se enfrentará a una gran cantidad de juegos de pesas diferentes, lo que hace que sea extremadamente difícil reconstruir el modelo completo. La idea central de los modelos de protocolo es que estos modelos se pueden entrenar y usar, pero no se pueden extraer en su totalidad del protocolo (a menos que la potencia de cálculo utilizada exceda los recursos necesarios para entrenar el modelo desde cero). Este mecanismo resuelve el problema que a menudo plantean los críticos de la IA de Código abierto de que los competidores de IA cerrada podrían apropiarse indebidamente de los frutos del trabajo de Código abierto. Por qué encriptación technology + Código abierto = better AI Al principio del artículo, ilustré los aspectos éticos y normativos de la IA cerrada analizando el control de la IA por parte de las Big Tech. Pero en una época de impotencia, me temo que tal argumento puede no resonar con la mayoría de los lectores. Por lo tanto, me gustaría ofrecer dos razones por las que la IA de Código abierto, impulsada por la tecnología de encriptación, realmente puede conducir a una mejor IA. En primer lugar, la combinación de la tecnología de encriptación y la IA de Código abierto permitirá la coordinación de más recursos para impulsar el desarrollo de la próxima generación de modelos fundacionales, (Foundation Models). Los estudios han demostrado que tanto el aumento de la potencia de cálculo como los recursos de datos pueden ayudar a mejorar el rendimiento del modelo, por lo que el tamaño del modelo base se ha ido ampliando. BTC nos muestra el potencial del software de Código abierto combinado con la tecnología de encriptación en términos de potencia de cómputo. Se ha convertido en la red informática más grande y potente del mundo, mucho más grande que los recursos de computación en la nube propiedad de las grandes tecnológicas. La tecnología de encriptación es única en su capacidad para transformar la competencia aislada en una colaborativa. Al incentivar a los proveedores de recursos a contribuir con recursos para resolver problemas comunes, en lugar de trabajar en silos y duplicar esfuerzos, la red de encriptación permite un uso eficiente de los recursos. La IA de código abierto, impulsada por la tecnología de encriptación, podrá aprovechar los recursos informáticos y de datos del mundo para construir modelos a una escala mucho más allá de la IA cerrada. Por ejemplo, la empresa Hyperbolic ha demostrado el potencial de este modelo. Aprovechan al máximo los recursos informáticos distribuidos al hacer posible que cualquiera pueda alquilar GPU a un costo menor a través de un mercado abierto. En segundo lugar, la combinación de la tecnología de encriptación y la IA de Código abierto impulsará la aceleración de la innovación. Esto se debe a que una vez que se resuelve el problema de los recursos, la investigación de aprendizaje automático puede volver a su naturaleza altamente iterativa e innovadora. Antes de la llegada de los grandes modelos de lenguaje fundacionales (LLM), los investigadores en el campo del aprendizaje automático a menudo publicaban sus modelos y sus planos de diseño reproducibles. Estos modelos suelen utilizar el conjunto de datos Código abierto y tienen requisitos computacionales relativamente bajos, lo que permite a los investigadores optimizar e innovar continuamente sobre estos. Es este proceso abierto e iterativo el que ha dado lugar a muchos avances en el campo del modelado secuencial, como las redes neuronales recurrentes (RNN), las redes de memoria a corto plazo (LSTM) y los mecanismos de atención (Attention Mechanisms), en última instancia, esto hace posible la arquitectura del modelo Transformer. Sin embargo, este enfoque abierto de la investigación ha cambiado desde el lanzamiento de GPT-3. A través del éxito de GPT-3 y ChatGPT, OpenAI ha demostrado que con suficientes recursos informáticos y datos, es posible entrenar grandes modelos de lenguaje con capacidades de comprensión del lenguaje. Esta tendencia ha llevado a una fuerte reducción de los umbrales de recursos, lo que ha llevado a la exclusión gradual de la academia y al hecho de que las grandes empresas tecnológicas ya no revelan sus arquitecturas modelo para mantener una ventaja competitiva. Esta situación limita nuestra capacidad para impulsar la vanguardia de la IA. La IA de código abierto, habilitada por la tecnología de encriptación, podría cambiar eso. Permite a los investigadores iterar en modelos de vanguardia nuevamente para descubrir el "próximo Transformer". Esta combinación no solo resuelve el problema de los recursos, sino que también revitaliza la innovación en el campo del aprendizaje automático, abriendo un camino más amplio para el futuro de la IA.