Título original: "AI as the engine, humans as the steering wheel"
Artículo escrito por Vitalik, el fundador de Ethereum
Compilado por Baishui, Golden Finance
Cuando se le pregunta a la gente qué aspectos les gustan de la estructura democrática, ya sea en el gobierno, en el lugar de trabajo o en DAO basados en blockchain, a menudo se escuchan los mismos argumentos: evitan la concentración de poder, brindan fuertes garantías a los usuarios, ya que nadie puede cambiar completamente la dirección del sistema a su antojo, y pueden tomar decisiones de mayor calidad al recopilar opiniones y sabiduría de muchas personas.
Si le preguntas a la gente qué aspectos de la estructura democrática no les gustan, a menudo darán las mismas quejas: los votantes comunes no son lo suficientemente sofisticados, ya que cada votante tiene muy pocas oportunidades de influir en los resultados, pocos votantes dedican un pensamiento de alta calidad a la toma de decisiones, y a menudo se obtiene baja participación (lo que hace que el sistema sea vulnerable) o una centralización de facto, ya que todos confían y replican por defecto las opiniones de algunas personas influyentes.
El objetivo de este artículo es explorar un paradigma que quizás pueda permitirnos beneficiarnos de las estructuras democráticas utilizando la inteligencia artificial sin efectos adversos. 'La IA es el motor, los humanos son el volante'. Los humanos proporcionan al sistema solo una pequeña cantidad de información, tal vez solo unas pocas cientos, pero todas ellas son cuidadosamente consideradas y de alta calidad. La IA considera estos datos como 'funciones objetivo' y toma decisiones incansablemente para lograr estos objetivos. En particular, este artículo abordará una pregunta interesante: ¿podemos lograr esto sin centrar a una sola IA, sino a través de un mercado abierto y competitivo en el que cualquier IA (o híbrido humano-máquina) pueda participar libremente?
Directorio
¿Por qué no dejar que un AI tome el control directamente?
Futarquía
Destilando el juicio humano
深度融资(Deep funding)
Aumento de la privacidad
Beneficios del motor + diseño del volante
¿Por qué no hacer que un AI se haga cargo directamente?
La forma más sencilla de incorporar las preferencias humanas en un mecanismo basado en IA es crear un modelo de IA y permitir que los humanos introduzcan sus preferencias de alguna manera. Hay formas sencillas de hacer esto: simplemente coloque un archivo de texto que contenga una lista de instrucciones de personal en el cuadro de diálogo del sistema. Luego, puede darle a la IA acceso a Internet utilizando uno de los muchos 'marcos de IA de agente', entregarle las claves de sus activos y perfiles de redes sociales organizativos, ¡y listo!
Después de varias iteraciones, esto podría ser suficiente para satisfacer las necesidades de muchos casos de uso, y espero completamente que en un futuro cercano veamos muchas estructuras que involucren instrucciones dadas por grupos de lectura de IA (incluso lectura en tiempo real de chats grupales) y tomen medidas.
Esta estructura no es ideal como mecanismo de gobernanza como institución a largo plazo. Un atributo valioso que debe poseer una institución a largo plazo es la credibilidad y la neutralidad. En mi post introduciendo este concepto, enumeré cuatro atributos valiosos de la neutralidad creíble:
No escribas una persona específica o un resultado específico en el mecanismo
Ejecución abierta y verificable públicamente
Manténlo simple
No cambies con frecuencia
LLM (o agente de IA) satisface 0/4. El modelo inevitablemente codifica una gran cantidad de preferencias específicas de personas y resultados durante su proceso de entrenamiento. A veces, esto puede llevar a direcciones de preferencia sorprendentes por parte de la IA, por ejemplo, un estudio reciente señala que los principales LLM valoran más la vida en Pakistán que en Estados Unidos (¡¡!!). Puede ser de peso abierto, pero está lejos de ser de código abierto; realmente no sabemos qué demonios se esconden en lo profundo del modelo. Es todo menos simple: la complejidad de Kolmogorov de LLM es de varios miles de millones de bits, aproximadamente equivalente a la suma de todas las leyes de Estados Unidos (federales + estatales + locales). Y debido al rápido desarrollo de la IA, debes cambiarlo cada tres meses.
Por esta razón, otro enfoque que preferiría explorar en muchos casos de uso es tener una mecánica simple que sean las reglas del juego y que la IA sea el jugador. Es esta visión la que hace que el mercado sea tan efectivo: las reglas son un sistema de derechos de propiedad relativamente estúpido, los casos marginales son decididos por un sistema judicial que lentamente acumula y ajusta los precedentes, y toda la inteligencia proviene de empresarios que operan "al margen".
Un solo "jugador de juegos" puede ser un grupo LLM, interactuar entre sí e invocar varios servicios de Internet, varias combinaciones de IA + humanos y muchos otros constructos; como diseñador de mecanismos, no necesitas saber. El objetivo ideal es tener un mecanismo que pueda ejecutarse automáticamente, y si el objetivo de ese mecanismo es elegir qué financiar, debería ser tan similar como sea posible a las recompensas en bloque de Bitcoin o Ethereum.
La ventaja de este método es:
Evita la incorporación de un único modelo en el mecanismo; En su lugar, se obtiene un mercado abierto compuesto por muchos actores y arquitecturas diferentes, todos los cuales tienen sus propios sesgos diferentes. Los modelos abiertos, los modelos cerrados, los grupos de agentes, los híbridos humano+IA, los robots, los monos infinitos, etc. son juegos limpios; El mecanismo no discrimina a nadie.
El mecanismo es de código abierto. Si bien el jugador no lo es, el juego es de código abierto, y es un modelo que se ha entendido bastante bien (por ejemplo, los partidos políticos y los mercados operan de esta manera)
El mecanismo es bastante simple, por lo que los diseñadores del mecanismo tienen relativamente pocas formas de codificar sus propios sesgos en el diseño.
El mecanismo no cambiará, incluso desde ahora hasta el punto extraño, la arquitectura de los participantes subyacentes debe rediseñarse cada tres meses.
El objetivo del mecanismo de tutoría es reflejar fielmente los objetivos fundamentales de los participantes. Solo necesita proporcionar una pequeña cantidad de información, pero debe ser información de alta calidad.
Se puede ver que este mecanismo aprovecha la asimetría entre proponer una respuesta y verificarla. Es similar a un sudoku, que es difícil de resolver pero fácil de verificar si la solución es correcta. Puedes crear un mercado abierto donde los jugadores actúen como 'solucionadores', y luego mantener un mecanismo operado por humanos que realice tareas mucho más simples de verificar las soluciones propuestas.
Futocracia
Futarchy fue propuesto inicialmente por Robin Hanson, lo que significa 'apostar por valores, pero apostar por creencias'. El mecanismo de votación elige un conjunto de objetivos (que pueden ser cualquier objetivo, pero deben ser medibles) y luego los combina en una medida M. Cuando necesita tomar una decisión (por simplicidad, supongamos que es SÍ/NO), establecerá un mercado condicional: solicitará a las personas que apuesten si elegirán SÍ o NO, si eligen SÍ, el valor de M, de lo contrario cero, si eligen NO, el valor de M, de lo contrario cero. Con estas tres variables, puede determinar si el mercado considera que SÍ o NO es más favorable para el valor de M.
'El precio de las acciones de la empresa' (o para criptomonedas, el precio del token) es el indicador más comúnmente citado, ya que es fácil de entender y medir, pero este mecanismo puede respaldar múltiples indicadores: usuarios activos mensuales, mediana de la autopercepción de felicidad de ciertos grupos, algunos indicadores de descentralización cuantificables, etc.
La futarquía se inventó originalmente antes de la era de la inteligencia artificial. Sin embargo, Futarchy encaja perfectamente en el paradigma de "solucionadores complejos, validadores simples" descrito en la sección anterior, y los traders en Futarchy también pueden ser inteligencia artificial (o una combinación de humano + inteligencia artificial). El papel del "solucionador" (trader predictivo del mercado) es determinar cómo afectará cada plan propuesto al valor del indicador futuro. Es difícil. Si el solucionador es correcto, ganan dinero, y si el solucionador está equivocado, pierden dinero. Los validadores (personas que votan por un indicador, si notan que la métrica está "amañada" o desactualizada, ajustan la métrica y determinan el valor real de la métrica en algún momento en el futuro) solo necesitan responder a la pregunta más simple "¿Cuál es el valor de la métrica ahora?"
Destilación del juicio humano
El juicio humano es un mecanismo que funciona de la siguiente manera. Hay una gran cantidad (piensa en: 100 millones) de preguntas que responder. Ejemplos naturales incluyen:
¿Cuánto crédito debe recibir cada persona en esta lista por su contribución a un proyecto o tarea?
¿Cuáles de estos comentarios violan las reglas de la plataforma de redes sociales (o subcomunidad)?
¿Cuáles de estas direcciones de Ethereum dadas representan a personas reales y únicas?
¿Qué objetos físicos contribuyen positiva o negativamente a su entorno estético?
Tienes un equipo que puede responder a estas preguntas, pero el costo es dedicar mucha energía a cada respuesta. Solo solicitas que el equipo responda a unas pocas preguntas (por ejemplo, si hay un millón de elementos en la lista, es posible que el equipo solo responda a 100 de ellos). Incluso puedes plantear preguntas indirectas al equipo: en lugar de preguntar '¿Qué porcentaje del crédito total debería recibir Alice?', pregunta '¿Debería Alice o Bob recibir más crédito y en qué proporción?'. Al diseñar el mecanismo del jurado, puedes reutilizar mecanismos probados en el mundo real, como comités de asignación, tribunales (para determinar el valor de la sentencia), evaluaciones, etc. Por supuesto, los participantes del jurado también pueden usar herramientas de investigación de IA innovadoras para ayudarles a encontrar respuestas.
A continuación, permite que cualquier persona envíe una lista de respuestas numéricas a todo el conjunto de preguntas (por ejemplo, proporcione una estimación de cuánto crédito debe recibir cada participante por toda la lista). Se anima a los participantes a utilizar la inteligencia artificial para llevar a cabo esta tarea, pero pueden utilizar cualquier tecnología: inteligencia artificial, híbrido hombre-máquina, inteligencia artificial que tenga acceso a búsquedas en Internet y sea capaz de contratar de forma autónoma a otros humanos o trabajadores de inteligencia artificial, monos mejorados cibernéticamente, etc.
Una vez que todos los proveedores de listas completas y los jurados hayan presentado sus respuestas, se realizará una inspección de la lista completa según las respuestas del jurado, y se seleccionará alguna combinación de la lista completa más compatible con las respuestas del jurado como respuesta final.
El mecanismo de juicio humano de la destilación difiere del de la futarquía, pero hay algunas similitudes importantes:
En futarquía, los 'resolver' hacen predicciones, y los 'datos reales' en los que se basan (utilizados para recompensar o castigar a los 'resolver') son valores de indicadores de salida de oráculos ejecutados por un jurado.
En el juicio de destilación humana, los "solucionadores" proporcionarán respuestas a una gran cantidad de preguntas, y las predicciones en las que se basan en los "datos reales" son solo una pequeña parte de las respuestas de alta calidad proporcionadas por el jurado.
Ejemplo de juguete para destilar juicios humanos para la asignación de crédito, consulte el código de Python aquí. El script te pide que actúes como un jurado e incluye una lista completa de respuestas generadas por IA (y humanos) que están predefinidas en el código. El mecanismo identifica la combinación lineal de la lista completa que mejor se adapta a las respuestas del jurado. En este caso, la combinación ganadora es 0.199 * la respuesta de Claude + 0.801 * la respuesta de Deepseek; esta combinación es más adecuada para las respuestas del jurado que cualquier modelo individual. Estos coeficientes también serán la recompensa para el remitente.
En este ejemplo de 'derrotar a Sauron', el aspecto de 'los humanos como volante' se manifiesta en dos aspectos. En primer lugar, cada problema se aborda con un juicio humano de alta calidad, aunque aún se utiliza un jurado como evaluador de rendimiento 'tecnoburocrático'. En segundo lugar, hay un mecanismo de votación implícito que decide si 'derrotar a Sauron' es el objetivo correcto (en lugar de, por ejemplo, intentar aliarse con Sauron, o ceder todo el territorio al este de un río crucial como concesión de paz). También hay otros casos de uso de juicio humano destilado, donde la tarea del jurado tiene un valor más directo: por ejemplo, imagina una plataforma de redes sociales dispersa (o una subcomunidad), donde la labor del jurado es etiquetar publicaciones de foros seleccionadas al azar como cumplimiento o incumplimiento de las reglas de la comunidad.
En el paradigma de juicio humano destilado, hay algunas variables abiertas:
¿Cómo se realiza el muestreo? La función del remitente de la lista completa es proporcionar un gran número de respuestas; El papel de un miembro del jurado es proporcionar respuestas de alta calidad. Necesitamos seleccionar a los miembros del jurado de tal manera que la capacidad del modelo para hacer coincidir las respuestas de los miembros del jurado sea la mayor indicación de su desempeño general. Algunas consideraciones incluyen:
El equilibrio entre el conocimiento profesional y los prejuicios: los jurados competentes suelen dedicarse específicamente a su campo profesional, por lo que al permitirles seleccionar el contenido a calificar, obtendrá una entrada de mayor calidad. Por otro lado, una selección excesiva puede conducir a prejuicios (los jurados favorecen el contenido relacionado con ellos) o a debilidades en el muestreo (cierto contenido no se califica sistemáticamente).
Francois Chollet: habrá intentos de contenido de 'jugar' con mecanismos de inteligencia artificial, por ejemplo, contribuyentes que generen grandes cantidades de código impresionante pero inútil. Esto significa que los jurados pueden detectarlo, pero los modelos estáticos de inteligencia artificial no lo harán a menos que hagan un esfuerzo consciente para hacerlo. Una posible forma de capturar este comportamiento es agregar un desafío, a través del cual las personas pueden marcar tales intentos, asegurando que los jurados los evalúen (lo que motiva a los desarrolladores de IA a garantizar que los capturen correctamente). Si el jurado está de acuerdo, el denunciante recibirá una recompensa, si no, deberá pagar una multa.
¿Qué función de puntuación estás usando? Una idea utilizada en la actual prueba piloto de financiación profunda es preguntar a los jurados '¿Debería A o B recibir más crédito, y cuánto más?' La función de puntuación es score(x) = sum()log(x)( - log)x() - log(juror_ratio)( ** 2 para (A, B, juror_ratio( en jury_answers[B]: es decir, para cada respuesta del jurado, pregunta qué tan lejos está la proporción proporcionada por el jurado de la proporción en la lista completa, y agrega una penalización proporcional al cuadrado de la distancia (en espacio logarítmico). Esto es para mostrar que el espacio de diseño de la función de puntuación es amplio y la elección de la función de puntuación está relacionada con la elección de las preguntas que le haces al jurado.
¿Cómo recompensa a los presentadores de listas completas? Idealmente, desea recompensar a múltiples participantes con una recompensa no nula con frecuencia para evitar un mecanismo de monopolio, pero también desea cumplir con las siguientes propiedades: los participantes no pueden aumentar la recompensa al presentar múltiples veces conjuntos de respuestas idénticos (o ligeramente modificados). Un enfoque prometedor es calcular directamente la combinación lineal (con coeficientes no negativos y que sumen 1) de las listas completas que mejor se ajusten a las respuestas del jurado, y usar estos mismos coeficientes para dividir la recompensa. También puede haber otros métodos.
En general, el objetivo es tomar mecanismos de juicio humano que se sabe que funcionan, están minimizados por el sesgo y han resistido la prueba del tiempo (por ejemplo, imagine cómo la estructura adversarial de un sistema judicial incluye dos partes en una disputa que tienen mucha información pero están sesgadas, y un juez que tiene una pequeña cantidad de información pero puede no serlo), y utilizar un mercado abierto de IA como un predictor razonablemente confiable y de muy bajo costo de estos mecanismos (similar a cómo funciona la "destilación" del modelo de la gran profecía).
financiamiento profundo (deep funding)
La financiación profunda es aplicar el juicio destilado de los humanos al problema de ponderar "¿Qué porcentaje del crédito de X pertenece a Y?" en el gráfico.
La forma más sencilla de hacerlo es simplemente con un ejemplo:
Resultado del ejemplo de financiación profunda de dos niveles: Los orígenes de las ideas de Ethereum. Echa un vistazo al código de Python aquí.
El objetivo aquí es otorgar reconocimiento a las contribuciones filosóficas a Ethereum. Veamos un ejemplo:
El 20.5% de los méritos de esta ronda simulada de financiamiento profundo se atribuye al movimiento cypherpunk, y el 9.2% se atribuye al progreso tecnológico.
En cada nodo, se hace la pregunta: ¿hasta qué punto es una contribución original (y por lo tanto merece crédito por sí misma), y hasta qué punto es una recombinación de otras influencias aguas arriba? Para el movimiento cypherpunk, es un 40% nuevo y un 60% dependiente.
A continuación, se puede observar el impacto de estos nodos: el pequeño gobierno liberal y el anarquismo obtuvieron el 17,3% del crédito para el movimiento cypherpunk, pero solo el 5% para la democracia directa en Suiza.
Sin embargo, hay que tener en cuenta que el pequeño gobierno liberal y el anarquismo también inspiraron la filosofía monetaria de Bitcoin, por lo que influyó en la filosofía de Ethereum de dos maneras.
Para calcular la cuota total de contribución del pequeño gobierno liberal y el anarquismo a Ethereum, es necesario multiplicar las aristas de cada ruta y luego sumar las rutas: 0,205 * 0,6 * 0,173 + 0,195 * 0,648 * 0,201 ~= 0,0466. Por lo tanto, si tuvieras que donar 100 dólares para recompensar a todos aquellos que contribuyeron a la filosofía de Ethereum, los pequeños gobernantes liberales y los anarquistas recibirían 4,66 dólares según esta ronda de financiación profunda simulada.
Este método está diseñado para ser aplicable en áreas donde se trabaja sobre la base de trabajos anteriores y la estructura es altamente clara. La academia (piensa en: citas de gráficos) y el software de código abierto (piensa en: dependencias de bibliotecas y bifurcaciones) son dos ejemplos naturales.
El objetivo de un sistema de financiación de profundidad bien funcionamiento es crear y mantener un gráfico global, donde cualquier persona interesada en apoyar un proyecto específico pueda enviar fondos a la dirección que representa ese nodo, y los fondos se propagarán automáticamente a sus dependencias según el peso de los bordes del gráfico (y recursivamente a sus dependencias, etc.).
Puedes imaginar un protocolo descentralizado que utiliza un mecanismo de financiación profunda incorporado para emitir sus tokens: la gobernanza descentralizada dentro del protocolo elegirá un jurado, que operará el mecanismo de financiación profunda, ya que el protocolo emitirá automáticamente tokens y los depositará en un nodo correspondiente a sí mismo. De esta manera, el protocolo recompensa programáticamente a todos sus contribuyentes directos e indirectos, recordando cómo Bitcoin o Ethereum recompensan a un tipo específico de contribuyente (mineros) a través del premio de bloque. Al influir en el peso de los bordes, el jurado puede definir continuamente el tipo de contribución que valora. Este mecanismo puede ser una alternativa descentralizada y sostenible a largo plazo para la minería, las ventas o las distribuciones aéreas únicas.
Aumentar la privacidad
En general, para hacer el juicio correcto sobre las preguntas de los ejemplos anteriores, debe tener acceso a información privada: los registros de chat internos de su organización, los mensajes enviados en secreto por los miembros de la comunidad, etc. Una de las ventajas de utilizar una sola IA, especialmente en entornos más pequeños, es que es más aceptable que una IA acceda a la información que exponerla a todo el mundo.
Para que el juicio humano o la financiación profunda de la destilación funcionen en estos casos, podemos intentar utilizar la criptografía para dar a la IA acceso seguro a la información privada. La idea es utilizar )MPC( de cómputo multipartito, [A]FHE) de cifrado totalmente homomórfico, un entorno de ejecución de confianza (TEE) o mecanismos similares para proporcionar información privada, pero solo si su única salida es una "confirmación de lista completa" que va directamente a la mecánica.
Si lo haces, tendrás que limitar el conjunto de mecanismos a los modelos de IA (no a los humanos o a las combinaciones de IA + humanos, porque no puedes hacer que los humanos vean los datos) y específicos a los modelos que se ejecutan en algún sustrato específico (por ejemplo, MPC, FHE, hardware de confianza). Una de las principales direcciones de investigación es encontrar versiones prácticas que sean lo suficientemente efectivas y significativas en un futuro próximo.
Ventajas del diseño del motor + volante
Hay muchos beneficios prometedores en un diseño de este tipo. Con mucho, el beneficio más importante es que permiten construir DAO, dando a los votantes humanos el control de la dirección, pero no se empantanarán con demasiadas decisiones. Llegan a un compromiso en el que no todos tienen que tomar N decisiones, pero tienen el poder de ir más allá de simplemente tomar una decisión (como suelen trabajar los delegados) y más provocan preferencias ricas que son difíciles de expresar directamente.
Además, este mecanismo parece tener una característica de suavizado de incentivos. Lo que quiero decir con "suavizado de incentivos" aquí es una combinación de dos factores:
Difusión: ninguna acción individual tomada por el mecanismo de votación tendrá un impacto desproporcionado en los intereses de ningún participante individual.
Confusión: La conexión entre las decisiones de voto y la forma en que afectan los intereses de los participantes es más compleja y difícil de calcular.
Los términos ofuscación y difusión aquí se toman de la criptografía, que son propiedades clave de la seguridad criptográfica y de la función hash.
Un buen ejemplo de incentivos suaves en el mundo real actual es el estado de derecho: en lugar de que los altos funcionarios del gobierno tomen acciones como "darle a la empresa de Alice 200 millones de dólares" o "multar a la empresa de Bob con 100 millones de dólares", se aplican reglas destinadas a ser uniformemente aplicadas a un gran número de participantes, y luego son interpretadas por otro tipo de participante. Cuando este enfoque funciona, su ventaja es que reduce en gran medida los beneficios de la corrupción y otras formas de soborno. Cuando se viola (lo que ocurre con frecuencia en la práctica), estos problemas se amplifican rápidamente.
La IA obviamente se convertirá en una parte importante del futuro, inevitablemente se convertirá en una parte importante del futuro gobierno. Sin embargo, si permites que la IA participe en la gobernabilidad, existe un riesgo evidente: la IA tiene prejuicios, puede ser saboteada intencionalmente durante el proceso de entrenamiento, y el desarrollo tecnológico de la IA es tan rápido que 'permitir que la IA gobierne' podría significar en realidad 'permitir que quienes sean responsables de actualizar la IA gobiernen'. La destilación del juicio humano proporciona una alternativa para avanzar, permitiéndonos aprovechar el poder de la IA de manera abierta y libre en el mercado, al tiempo que mantenemos el control democrático humano.
Agradezco especialmente los comentarios y revisiones de Devansh Mehta, Davide Crapis y Julian Zawistowski, así como las discusiones de Tina Zhen, Shaw Walters y otros.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Nuevo artículo de Vitalik: El futuro gobierno de un nuevo paradigma "Motor de IA + Volante humano"
Título original: "AI as the engine, humans as the steering wheel"
Artículo escrito por Vitalik, el fundador de Ethereum
Compilado por Baishui, Golden Finance
Cuando se le pregunta a la gente qué aspectos les gustan de la estructura democrática, ya sea en el gobierno, en el lugar de trabajo o en DAO basados en blockchain, a menudo se escuchan los mismos argumentos: evitan la concentración de poder, brindan fuertes garantías a los usuarios, ya que nadie puede cambiar completamente la dirección del sistema a su antojo, y pueden tomar decisiones de mayor calidad al recopilar opiniones y sabiduría de muchas personas.
Si le preguntas a la gente qué aspectos de la estructura democrática no les gustan, a menudo darán las mismas quejas: los votantes comunes no son lo suficientemente sofisticados, ya que cada votante tiene muy pocas oportunidades de influir en los resultados, pocos votantes dedican un pensamiento de alta calidad a la toma de decisiones, y a menudo se obtiene baja participación (lo que hace que el sistema sea vulnerable) o una centralización de facto, ya que todos confían y replican por defecto las opiniones de algunas personas influyentes.
El objetivo de este artículo es explorar un paradigma que quizás pueda permitirnos beneficiarnos de las estructuras democráticas utilizando la inteligencia artificial sin efectos adversos. 'La IA es el motor, los humanos son el volante'. Los humanos proporcionan al sistema solo una pequeña cantidad de información, tal vez solo unas pocas cientos, pero todas ellas son cuidadosamente consideradas y de alta calidad. La IA considera estos datos como 'funciones objetivo' y toma decisiones incansablemente para lograr estos objetivos. En particular, este artículo abordará una pregunta interesante: ¿podemos lograr esto sin centrar a una sola IA, sino a través de un mercado abierto y competitivo en el que cualquier IA (o híbrido humano-máquina) pueda participar libremente?
Directorio
¿Por qué no dejar que un AI tome el control directamente?
Futarquía
Destilando el juicio humano
深度融资(Deep funding)
Aumento de la privacidad
Beneficios del motor + diseño del volante
¿Por qué no hacer que un AI se haga cargo directamente?
La forma más sencilla de incorporar las preferencias humanas en un mecanismo basado en IA es crear un modelo de IA y permitir que los humanos introduzcan sus preferencias de alguna manera. Hay formas sencillas de hacer esto: simplemente coloque un archivo de texto que contenga una lista de instrucciones de personal en el cuadro de diálogo del sistema. Luego, puede darle a la IA acceso a Internet utilizando uno de los muchos 'marcos de IA de agente', entregarle las claves de sus activos y perfiles de redes sociales organizativos, ¡y listo!
Después de varias iteraciones, esto podría ser suficiente para satisfacer las necesidades de muchos casos de uso, y espero completamente que en un futuro cercano veamos muchas estructuras que involucren instrucciones dadas por grupos de lectura de IA (incluso lectura en tiempo real de chats grupales) y tomen medidas.
Esta estructura no es ideal como mecanismo de gobernanza como institución a largo plazo. Un atributo valioso que debe poseer una institución a largo plazo es la credibilidad y la neutralidad. En mi post introduciendo este concepto, enumeré cuatro atributos valiosos de la neutralidad creíble:
No escribas una persona específica o un resultado específico en el mecanismo
Ejecución abierta y verificable públicamente
Manténlo simple
No cambies con frecuencia
LLM (o agente de IA) satisface 0/4. El modelo inevitablemente codifica una gran cantidad de preferencias específicas de personas y resultados durante su proceso de entrenamiento. A veces, esto puede llevar a direcciones de preferencia sorprendentes por parte de la IA, por ejemplo, un estudio reciente señala que los principales LLM valoran más la vida en Pakistán que en Estados Unidos (¡¡!!). Puede ser de peso abierto, pero está lejos de ser de código abierto; realmente no sabemos qué demonios se esconden en lo profundo del modelo. Es todo menos simple: la complejidad de Kolmogorov de LLM es de varios miles de millones de bits, aproximadamente equivalente a la suma de todas las leyes de Estados Unidos (federales + estatales + locales). Y debido al rápido desarrollo de la IA, debes cambiarlo cada tres meses.
Por esta razón, otro enfoque que preferiría explorar en muchos casos de uso es tener una mecánica simple que sean las reglas del juego y que la IA sea el jugador. Es esta visión la que hace que el mercado sea tan efectivo: las reglas son un sistema de derechos de propiedad relativamente estúpido, los casos marginales son decididos por un sistema judicial que lentamente acumula y ajusta los precedentes, y toda la inteligencia proviene de empresarios que operan "al margen".
Un solo "jugador de juegos" puede ser un grupo LLM, interactuar entre sí e invocar varios servicios de Internet, varias combinaciones de IA + humanos y muchos otros constructos; como diseñador de mecanismos, no necesitas saber. El objetivo ideal es tener un mecanismo que pueda ejecutarse automáticamente, y si el objetivo de ese mecanismo es elegir qué financiar, debería ser tan similar como sea posible a las recompensas en bloque de Bitcoin o Ethereum.
La ventaja de este método es:
Evita la incorporación de un único modelo en el mecanismo; En su lugar, se obtiene un mercado abierto compuesto por muchos actores y arquitecturas diferentes, todos los cuales tienen sus propios sesgos diferentes. Los modelos abiertos, los modelos cerrados, los grupos de agentes, los híbridos humano+IA, los robots, los monos infinitos, etc. son juegos limpios; El mecanismo no discrimina a nadie.
El mecanismo es de código abierto. Si bien el jugador no lo es, el juego es de código abierto, y es un modelo que se ha entendido bastante bien (por ejemplo, los partidos políticos y los mercados operan de esta manera)
El mecanismo es bastante simple, por lo que los diseñadores del mecanismo tienen relativamente pocas formas de codificar sus propios sesgos en el diseño.
El mecanismo no cambiará, incluso desde ahora hasta el punto extraño, la arquitectura de los participantes subyacentes debe rediseñarse cada tres meses.
El objetivo del mecanismo de tutoría es reflejar fielmente los objetivos fundamentales de los participantes. Solo necesita proporcionar una pequeña cantidad de información, pero debe ser información de alta calidad.
Se puede ver que este mecanismo aprovecha la asimetría entre proponer una respuesta y verificarla. Es similar a un sudoku, que es difícil de resolver pero fácil de verificar si la solución es correcta. Puedes crear un mercado abierto donde los jugadores actúen como 'solucionadores', y luego mantener un mecanismo operado por humanos que realice tareas mucho más simples de verificar las soluciones propuestas.
Futocracia
Futarchy fue propuesto inicialmente por Robin Hanson, lo que significa 'apostar por valores, pero apostar por creencias'. El mecanismo de votación elige un conjunto de objetivos (que pueden ser cualquier objetivo, pero deben ser medibles) y luego los combina en una medida M. Cuando necesita tomar una decisión (por simplicidad, supongamos que es SÍ/NO), establecerá un mercado condicional: solicitará a las personas que apuesten si elegirán SÍ o NO, si eligen SÍ, el valor de M, de lo contrario cero, si eligen NO, el valor de M, de lo contrario cero. Con estas tres variables, puede determinar si el mercado considera que SÍ o NO es más favorable para el valor de M.
'El precio de las acciones de la empresa' (o para criptomonedas, el precio del token) es el indicador más comúnmente citado, ya que es fácil de entender y medir, pero este mecanismo puede respaldar múltiples indicadores: usuarios activos mensuales, mediana de la autopercepción de felicidad de ciertos grupos, algunos indicadores de descentralización cuantificables, etc.
La futarquía se inventó originalmente antes de la era de la inteligencia artificial. Sin embargo, Futarchy encaja perfectamente en el paradigma de "solucionadores complejos, validadores simples" descrito en la sección anterior, y los traders en Futarchy también pueden ser inteligencia artificial (o una combinación de humano + inteligencia artificial). El papel del "solucionador" (trader predictivo del mercado) es determinar cómo afectará cada plan propuesto al valor del indicador futuro. Es difícil. Si el solucionador es correcto, ganan dinero, y si el solucionador está equivocado, pierden dinero. Los validadores (personas que votan por un indicador, si notan que la métrica está "amañada" o desactualizada, ajustan la métrica y determinan el valor real de la métrica en algún momento en el futuro) solo necesitan responder a la pregunta más simple "¿Cuál es el valor de la métrica ahora?"
Destilación del juicio humano
El juicio humano es un mecanismo que funciona de la siguiente manera. Hay una gran cantidad (piensa en: 100 millones) de preguntas que responder. Ejemplos naturales incluyen:
¿Cuánto crédito debe recibir cada persona en esta lista por su contribución a un proyecto o tarea?
¿Cuáles de estos comentarios violan las reglas de la plataforma de redes sociales (o subcomunidad)?
¿Cuáles de estas direcciones de Ethereum dadas representan a personas reales y únicas?
¿Qué objetos físicos contribuyen positiva o negativamente a su entorno estético?
Tienes un equipo que puede responder a estas preguntas, pero el costo es dedicar mucha energía a cada respuesta. Solo solicitas que el equipo responda a unas pocas preguntas (por ejemplo, si hay un millón de elementos en la lista, es posible que el equipo solo responda a 100 de ellos). Incluso puedes plantear preguntas indirectas al equipo: en lugar de preguntar '¿Qué porcentaje del crédito total debería recibir Alice?', pregunta '¿Debería Alice o Bob recibir más crédito y en qué proporción?'. Al diseñar el mecanismo del jurado, puedes reutilizar mecanismos probados en el mundo real, como comités de asignación, tribunales (para determinar el valor de la sentencia), evaluaciones, etc. Por supuesto, los participantes del jurado también pueden usar herramientas de investigación de IA innovadoras para ayudarles a encontrar respuestas.
A continuación, permite que cualquier persona envíe una lista de respuestas numéricas a todo el conjunto de preguntas (por ejemplo, proporcione una estimación de cuánto crédito debe recibir cada participante por toda la lista). Se anima a los participantes a utilizar la inteligencia artificial para llevar a cabo esta tarea, pero pueden utilizar cualquier tecnología: inteligencia artificial, híbrido hombre-máquina, inteligencia artificial que tenga acceso a búsquedas en Internet y sea capaz de contratar de forma autónoma a otros humanos o trabajadores de inteligencia artificial, monos mejorados cibernéticamente, etc.
Una vez que todos los proveedores de listas completas y los jurados hayan presentado sus respuestas, se realizará una inspección de la lista completa según las respuestas del jurado, y se seleccionará alguna combinación de la lista completa más compatible con las respuestas del jurado como respuesta final.
El mecanismo de juicio humano de la destilación difiere del de la futarquía, pero hay algunas similitudes importantes:
En futarquía, los 'resolver' hacen predicciones, y los 'datos reales' en los que se basan (utilizados para recompensar o castigar a los 'resolver') son valores de indicadores de salida de oráculos ejecutados por un jurado.
En el juicio de destilación humana, los "solucionadores" proporcionarán respuestas a una gran cantidad de preguntas, y las predicciones en las que se basan en los "datos reales" son solo una pequeña parte de las respuestas de alta calidad proporcionadas por el jurado.
Ejemplo de juguete para destilar juicios humanos para la asignación de crédito, consulte el código de Python aquí. El script te pide que actúes como un jurado e incluye una lista completa de respuestas generadas por IA (y humanos) que están predefinidas en el código. El mecanismo identifica la combinación lineal de la lista completa que mejor se adapta a las respuestas del jurado. En este caso, la combinación ganadora es 0.199 * la respuesta de Claude + 0.801 * la respuesta de Deepseek; esta combinación es más adecuada para las respuestas del jurado que cualquier modelo individual. Estos coeficientes también serán la recompensa para el remitente.
En este ejemplo de 'derrotar a Sauron', el aspecto de 'los humanos como volante' se manifiesta en dos aspectos. En primer lugar, cada problema se aborda con un juicio humano de alta calidad, aunque aún se utiliza un jurado como evaluador de rendimiento 'tecnoburocrático'. En segundo lugar, hay un mecanismo de votación implícito que decide si 'derrotar a Sauron' es el objetivo correcto (en lugar de, por ejemplo, intentar aliarse con Sauron, o ceder todo el territorio al este de un río crucial como concesión de paz). También hay otros casos de uso de juicio humano destilado, donde la tarea del jurado tiene un valor más directo: por ejemplo, imagina una plataforma de redes sociales dispersa (o una subcomunidad), donde la labor del jurado es etiquetar publicaciones de foros seleccionadas al azar como cumplimiento o incumplimiento de las reglas de la comunidad.
En el paradigma de juicio humano destilado, hay algunas variables abiertas:
¿Cómo se realiza el muestreo? La función del remitente de la lista completa es proporcionar un gran número de respuestas; El papel de un miembro del jurado es proporcionar respuestas de alta calidad. Necesitamos seleccionar a los miembros del jurado de tal manera que la capacidad del modelo para hacer coincidir las respuestas de los miembros del jurado sea la mayor indicación de su desempeño general. Algunas consideraciones incluyen:
El equilibrio entre el conocimiento profesional y los prejuicios: los jurados competentes suelen dedicarse específicamente a su campo profesional, por lo que al permitirles seleccionar el contenido a calificar, obtendrá una entrada de mayor calidad. Por otro lado, una selección excesiva puede conducir a prejuicios (los jurados favorecen el contenido relacionado con ellos) o a debilidades en el muestreo (cierto contenido no se califica sistemáticamente).
Francois Chollet: habrá intentos de contenido de 'jugar' con mecanismos de inteligencia artificial, por ejemplo, contribuyentes que generen grandes cantidades de código impresionante pero inútil. Esto significa que los jurados pueden detectarlo, pero los modelos estáticos de inteligencia artificial no lo harán a menos que hagan un esfuerzo consciente para hacerlo. Una posible forma de capturar este comportamiento es agregar un desafío, a través del cual las personas pueden marcar tales intentos, asegurando que los jurados los evalúen (lo que motiva a los desarrolladores de IA a garantizar que los capturen correctamente). Si el jurado está de acuerdo, el denunciante recibirá una recompensa, si no, deberá pagar una multa.
¿Qué función de puntuación estás usando? Una idea utilizada en la actual prueba piloto de financiación profunda es preguntar a los jurados '¿Debería A o B recibir más crédito, y cuánto más?' La función de puntuación es score(x) = sum()log(x)( - log)x() - log(juror_ratio)( ** 2 para (A, B, juror_ratio( en jury_answers[B]: es decir, para cada respuesta del jurado, pregunta qué tan lejos está la proporción proporcionada por el jurado de la proporción en la lista completa, y agrega una penalización proporcional al cuadrado de la distancia (en espacio logarítmico). Esto es para mostrar que el espacio de diseño de la función de puntuación es amplio y la elección de la función de puntuación está relacionada con la elección de las preguntas que le haces al jurado.
¿Cómo recompensa a los presentadores de listas completas? Idealmente, desea recompensar a múltiples participantes con una recompensa no nula con frecuencia para evitar un mecanismo de monopolio, pero también desea cumplir con las siguientes propiedades: los participantes no pueden aumentar la recompensa al presentar múltiples veces conjuntos de respuestas idénticos (o ligeramente modificados). Un enfoque prometedor es calcular directamente la combinación lineal (con coeficientes no negativos y que sumen 1) de las listas completas que mejor se ajusten a las respuestas del jurado, y usar estos mismos coeficientes para dividir la recompensa. También puede haber otros métodos.
En general, el objetivo es tomar mecanismos de juicio humano que se sabe que funcionan, están minimizados por el sesgo y han resistido la prueba del tiempo (por ejemplo, imagine cómo la estructura adversarial de un sistema judicial incluye dos partes en una disputa que tienen mucha información pero están sesgadas, y un juez que tiene una pequeña cantidad de información pero puede no serlo), y utilizar un mercado abierto de IA como un predictor razonablemente confiable y de muy bajo costo de estos mecanismos (similar a cómo funciona la "destilación" del modelo de la gran profecía).
financiamiento profundo (deep funding)
La financiación profunda es aplicar el juicio destilado de los humanos al problema de ponderar "¿Qué porcentaje del crédito de X pertenece a Y?" en el gráfico.
La forma más sencilla de hacerlo es simplemente con un ejemplo:
Resultado del ejemplo de financiación profunda de dos niveles: Los orígenes de las ideas de Ethereum. Echa un vistazo al código de Python aquí.
El objetivo aquí es otorgar reconocimiento a las contribuciones filosóficas a Ethereum. Veamos un ejemplo:
El 20.5% de los méritos de esta ronda simulada de financiamiento profundo se atribuye al movimiento cypherpunk, y el 9.2% se atribuye al progreso tecnológico.
En cada nodo, se hace la pregunta: ¿hasta qué punto es una contribución original (y por lo tanto merece crédito por sí misma), y hasta qué punto es una recombinación de otras influencias aguas arriba? Para el movimiento cypherpunk, es un 40% nuevo y un 60% dependiente.
A continuación, se puede observar el impacto de estos nodos: el pequeño gobierno liberal y el anarquismo obtuvieron el 17,3% del crédito para el movimiento cypherpunk, pero solo el 5% para la democracia directa en Suiza.
Sin embargo, hay que tener en cuenta que el pequeño gobierno liberal y el anarquismo también inspiraron la filosofía monetaria de Bitcoin, por lo que influyó en la filosofía de Ethereum de dos maneras.
Para calcular la cuota total de contribución del pequeño gobierno liberal y el anarquismo a Ethereum, es necesario multiplicar las aristas de cada ruta y luego sumar las rutas: 0,205 * 0,6 * 0,173 + 0,195 * 0,648 * 0,201 ~= 0,0466. Por lo tanto, si tuvieras que donar 100 dólares para recompensar a todos aquellos que contribuyeron a la filosofía de Ethereum, los pequeños gobernantes liberales y los anarquistas recibirían 4,66 dólares según esta ronda de financiación profunda simulada.
Este método está diseñado para ser aplicable en áreas donde se trabaja sobre la base de trabajos anteriores y la estructura es altamente clara. La academia (piensa en: citas de gráficos) y el software de código abierto (piensa en: dependencias de bibliotecas y bifurcaciones) son dos ejemplos naturales.
El objetivo de un sistema de financiación de profundidad bien funcionamiento es crear y mantener un gráfico global, donde cualquier persona interesada en apoyar un proyecto específico pueda enviar fondos a la dirección que representa ese nodo, y los fondos se propagarán automáticamente a sus dependencias según el peso de los bordes del gráfico (y recursivamente a sus dependencias, etc.).
Puedes imaginar un protocolo descentralizado que utiliza un mecanismo de financiación profunda incorporado para emitir sus tokens: la gobernanza descentralizada dentro del protocolo elegirá un jurado, que operará el mecanismo de financiación profunda, ya que el protocolo emitirá automáticamente tokens y los depositará en un nodo correspondiente a sí mismo. De esta manera, el protocolo recompensa programáticamente a todos sus contribuyentes directos e indirectos, recordando cómo Bitcoin o Ethereum recompensan a un tipo específico de contribuyente (mineros) a través del premio de bloque. Al influir en el peso de los bordes, el jurado puede definir continuamente el tipo de contribución que valora. Este mecanismo puede ser una alternativa descentralizada y sostenible a largo plazo para la minería, las ventas o las distribuciones aéreas únicas.
Aumentar la privacidad
En general, para hacer el juicio correcto sobre las preguntas de los ejemplos anteriores, debe tener acceso a información privada: los registros de chat internos de su organización, los mensajes enviados en secreto por los miembros de la comunidad, etc. Una de las ventajas de utilizar una sola IA, especialmente en entornos más pequeños, es que es más aceptable que una IA acceda a la información que exponerla a todo el mundo.
Para que el juicio humano o la financiación profunda de la destilación funcionen en estos casos, podemos intentar utilizar la criptografía para dar a la IA acceso seguro a la información privada. La idea es utilizar )MPC( de cómputo multipartito, [A]FHE) de cifrado totalmente homomórfico, un entorno de ejecución de confianza (TEE) o mecanismos similares para proporcionar información privada, pero solo si su única salida es una "confirmación de lista completa" que va directamente a la mecánica.
Si lo haces, tendrás que limitar el conjunto de mecanismos a los modelos de IA (no a los humanos o a las combinaciones de IA + humanos, porque no puedes hacer que los humanos vean los datos) y específicos a los modelos que se ejecutan en algún sustrato específico (por ejemplo, MPC, FHE, hardware de confianza). Una de las principales direcciones de investigación es encontrar versiones prácticas que sean lo suficientemente efectivas y significativas en un futuro próximo.
Ventajas del diseño del motor + volante
Hay muchos beneficios prometedores en un diseño de este tipo. Con mucho, el beneficio más importante es que permiten construir DAO, dando a los votantes humanos el control de la dirección, pero no se empantanarán con demasiadas decisiones. Llegan a un compromiso en el que no todos tienen que tomar N decisiones, pero tienen el poder de ir más allá de simplemente tomar una decisión (como suelen trabajar los delegados) y más provocan preferencias ricas que son difíciles de expresar directamente.
Además, este mecanismo parece tener una característica de suavizado de incentivos. Lo que quiero decir con "suavizado de incentivos" aquí es una combinación de dos factores:
Difusión: ninguna acción individual tomada por el mecanismo de votación tendrá un impacto desproporcionado en los intereses de ningún participante individual.
Confusión: La conexión entre las decisiones de voto y la forma en que afectan los intereses de los participantes es más compleja y difícil de calcular.
Los términos ofuscación y difusión aquí se toman de la criptografía, que son propiedades clave de la seguridad criptográfica y de la función hash.
Un buen ejemplo de incentivos suaves en el mundo real actual es el estado de derecho: en lugar de que los altos funcionarios del gobierno tomen acciones como "darle a la empresa de Alice 200 millones de dólares" o "multar a la empresa de Bob con 100 millones de dólares", se aplican reglas destinadas a ser uniformemente aplicadas a un gran número de participantes, y luego son interpretadas por otro tipo de participante. Cuando este enfoque funciona, su ventaja es que reduce en gran medida los beneficios de la corrupción y otras formas de soborno. Cuando se viola (lo que ocurre con frecuencia en la práctica), estos problemas se amplifican rápidamente.
La IA obviamente se convertirá en una parte importante del futuro, inevitablemente se convertirá en una parte importante del futuro gobierno. Sin embargo, si permites que la IA participe en la gobernabilidad, existe un riesgo evidente: la IA tiene prejuicios, puede ser saboteada intencionalmente durante el proceso de entrenamiento, y el desarrollo tecnológico de la IA es tan rápido que 'permitir que la IA gobierne' podría significar en realidad 'permitir que quienes sean responsables de actualizar la IA gobiernen'. La destilación del juicio humano proporciona una alternativa para avanzar, permitiéndonos aprovechar el poder de la IA de manera abierta y libre en el mercado, al tiempo que mantenemos el control democrático humano.
Agradezco especialmente los comentarios y revisiones de Devansh Mehta, Davide Crapis y Julian Zawistowski, así como las discusiones de Tina Zhen, Shaw Walters y otros.