Otro enfoque explorado por > en muchos casos de uso es tener una mecánica simple que sean las reglas del juego y que la IA sea el jugador.
Título original: "AI como el motor, humanos como el volante"
Escrito por: Vitalik, fundador de Ethereum
Compilador: Whitewater, Golden Finance
Si le preguntas a la gente qué aspectos les gustan de la estructura democrática, ya sea en el gobierno, en el lugar de trabajo o en un DAO basado en blockchain, a menudo escucharás los mismos argumentos: evitan la concentración de poder, brindan garantías sólidas a los usuarios, ya que nadie puede cambiar completamente la dirección del sistema a su antojo, y pueden tomar decisiones de mayor calidad al recopilar las opiniones y la sabiduría de muchas personas.
Cuando se les pregunta a las personas qué aspectos de la estructura democrática no les gustan, a menudo expresan las mismas quejas: los votantes comunes no son lo suficientemente sofisticados, ya que cada votante tiene muy pocas oportunidades de influir en los resultados, pocos votantes dedican una reflexión de alta calidad a la toma de decisiones, y a menudo se produce una baja participación (lo que hace que el sistema sea vulnerable) o una centralización de facto, ya que cada persona tiende a confiar y replicar las opiniones de algunas personas influyentes.
El objetivo de este artículo es explorar un paradigma que quizás pueda permitirnos beneficiarnos de las estructuras democráticas sin efectos negativos mediante el uso de la IA. "La IA es el motor, el ser humano es el volante". Los humanos proporcionan al sistema solo una pequeña cantidad de información, quizás solo unos cientos, pero de alta calidad y cuidadosamente considerada. La IA considera estos datos como una "función objetivo" y toma innumerables decisiones incansablemente para lograr estos objetivos. En particular, este artículo abordará una pregunta interesante: ¿podemos lograr esto sin colocar a una sola IA en el centro, sino confiando en un mercado abierto competitivo en el que cualquier IA (o híbrido humano-máquina) pueda participar libremente?
!
Índice
¿Por qué no dejar que una IA se haga cargo?
Futarchy
La destilación del juicio humano
Financiación profunda (Deep funding)
Aumentar la privacidad
Beneficios del diseño del motor + volante
¿Por qué no dejar que un AI se encargue directamente?
La forma más sencilla de insertar las preferencias humanas en un mecanismo basado en IA es crear un modelo de IA y permitir que los humanos introduzcan sus preferencias de alguna manera. Hay una forma sencilla de hacerlo: simplemente coloque un archivo de texto que contenga la lista de instrucciones del personal en el indicador del sistema. Luego, puede capacitar a la IA con uno de los muchos "marcos de IA delegada" para acceder a Internet, entregarle las claves de los activos de su organización y perfiles en redes sociales, y habrá terminado.
Después de varias iteraciones, esto puede ser suficiente para satisfacer las necesidades de muchos casos de uso. Espero completamente que en un futuro cercano veamos muchas estructuras que involucren instrucciones dadas por grupos de lectura de IA (incluso lectura en tiempo real de chats grupales) y tomen medidas.
Esta estructura no es ideal como mecanismo de gobernanza como institución a largo plazo. Un atributo valioso que debe poseer una institución a largo plazo es la credibilidad y la neutralidad. En mi post introduciendo este concepto, enumeré cuatro atributos valiosos de la neutralidad creíble:
No escribas una persona específica o un resultado específico en el mecanismo
Ejecución de código abierto y verificable públicamente
Manténlo simple
No cambies a menudo
El LLM (o agente de IA) satisface 0/4. El modelo inevitablemente codifica un gran número de personas específicas y preferencias de resultados durante su entrenamiento. A veces, esto lleva a direcciones sorprendentes de preferencia de IA, por ejemplo, mirando un estudio reciente que muestra que los principales LLM valoran la vida en Pakistán más que la vida en los Estados Unidos (!!). )。 Puede ser de peso abierto, pero eso está lejos de ser de código abierto; Realmente no sabemos qué diablo se esconde en las profundidades del modelo. Es lo opuesto a simple: la complejidad de Kolmogorov de un LLM es de decenas de miles de millones de bits, aproximadamente equivalente a todas las leyes de EE. UU. (federales + estatales + locales) combinadas. Y debido a que la IA está evolucionando tan rápido, hay que cambiarla cada tres meses.
Por esta razón, estoy a favor de explorar otra forma en muchos casos de uso, que consiste en hacer que un mecanismo simple se convierta en una regla del juego, permitiendo que la IA sea el jugador. Es precisamente esta perspicacia la que hace que el mercado sea tan eficiente: las reglas son un sistema de propiedad relativamente tonto, los casos marginales son resueltos por el sistema judicial, que acumula y ajusta lentamente los precedentes, y toda la información proviene de los empresarios que operan 'en el margen'.
Un solo 'jugador de juegos' puede ser LLM, grupos LLM que interactúan entre sí e invocan varios servicios de Internet, varias combinaciones de IA + humanos y muchos otros constructos; como diseñador de mecanismos, no necesitas saberlo. El objetivo ideal es tener un mecanismo que pueda funcionar automáticamente, y si el objetivo de ese mecanismo es elegir qué financiar, debería ser lo más parecido posible a las recompensas en bloques de Bitcoin o Ethereum.
Los beneficios de este enfoque son:
Evita la inclusión de cualquier modelo único en el mecanismo; en su lugar, obtendrás un mercado abierto compuesto por muchos participantes y estructuras diferentes, cada uno con sus propios prejuicios. Modelos abiertos, modelos cerrados, grupos de agentes, híbridos humanos + IA, robots, monos infinitos, etc., son juegos justos; el mecanismo no discriminará a nadie.
Este mecanismo es de código abierto. Aunque los jugadores no lo son, el juego sí lo es, y este es un modelo que ya se entiende bastante bien (por ejemplo, los partidos políticos y los mercados funcionan de esta manera).
Este mecanismo es muy simple, por lo que el diseñador del mecanismo tiene relativamente pocas formas de codificar sus propios sesgos en el diseño.
El mecanismo permanecerá sin cambios, incluso desde ahora hasta el punto singular, la arquitectura de los participantes fundamentales necesita ser rediseñada cada tres meses.
El objetivo del mecanismo de tutoría es reflejar fielmente los objetivos fundamentales de los participantes. Solo necesita proporcionar una pequeña cantidad de información, pero debe ser información de alta calidad.
Se puede considerar que este mecanismo aprovecha la asimetría entre la presentación y la verificación de respuestas. Es similar a la dificultad de resolver un sudoku, pero es fácil verificar si la solución es correcta. Creas un mercado abierto donde los jugadores actúan como 'solucionadores', y luego mantienes un mecanismo operado por humanos para llevar a cabo tareas de verificación de las soluciones presentadas, mucho más sencillas.
( Futarchy
La futarquía fue propuesta originalmente por Robin Hanson y significa "votar por el valor, pero apostar por la fe". El mecanismo de votación selecciona un conjunto de objetivos (que pueden ser cualquiera, pero solo si deben ser medibles) y luego los combina en una métrica M. Cuando tienes que tomar una decisión (supongamos SÍ/NO para simplificar), estableces el mercado condicional: le pides a la gente que apueste sobre si )i( elegirá SÍ o NO, )ii### si eliges SÍ, el valor de M, de lo contrario cero, (iii) El valor de M si se selecciona NO, de lo contrario es cero. Con estas tres variables, puedes determinar si el mercado piensa que SÍ o NO es más favorable para el valor de M.
"El precio de las acciones de la empresa" (o para criptomonedas, el precio del token) es el indicador más comúnmente citado, ya que es fácil de entender y medir, pero este mecanismo puede respaldar varios indicadores: usuarios activos mensuales, la mediana de la autoinformación de la felicidad de ciertos grupos, algunos indicadores cuantificables de descentralización, etc.
La futarquía se inventó originalmente antes de la era de la inteligencia artificial. Sin embargo, Futarchy encaja perfectamente en el paradigma de "solucionadores complejos, validadores simples" descrito en la sección anterior, y los traders en Futarchy también pueden ser inteligencia artificial (o una combinación de humano + inteligencia artificial). El papel del "solucionador" (trader predictivo del mercado) es determinar cómo afectará cada plan propuesto al valor del indicador futuro. Es difícil. Si el solucionador es correcto, ganan dinero, y si el solucionador está equivocado, pierden dinero. Los validadores (personas que votan por un indicador, si notan que la métrica está "amañada" o desactualizada, ajustan la métrica y determinan el valor real de la métrica en algún momento en el futuro) solo necesitan responder a la pregunta más simple "¿Cuál es el valor de la métrica ahora?"
( Destilando el juicio humano
La destilación de juicios humanos es un tipo de mecanismo cuyo principio de funcionamiento es el siguiente. Hay una gran cantidad (piensa en: 100 万个) de preguntas que necesitan respuesta. Ejemplos naturales incluyen:
¿Cuánto reconocimiento debería recibir cada persona en esta lista por su contribución a un proyecto o tarea?
¿Cuáles de estos comentarios violan las reglas de la plataforma de redes sociales (o subcomunidad)?
¿Cuáles de estas direcciones de Ethereum dadas representan a personas reales y únicas?
¿Cuáles de estos objetos físicos contribuyen positiva o negativamente a su entorno estético?
Tienes un equipo que puede responder a estas preguntas, pero el costo es dedicar una gran cantidad de energía a cada respuesta. Solo solicitas al equipo que responda a unas pocas preguntas (por ejemplo, si hay un total de 1 millón de elementos en la lista, es posible que el equipo solo responda a 100 de ellos). Incluso puedes plantear preguntas indirectas al equipo: no preguntes '¿Qué porcentaje del crédito total debería recibir Alice?', sino '¿Deberían Alice o Bob recibir más crédito, y en qué medida?'. Al diseñar un mecanismo de jurado, puedes reutilizar mecanismos probados en el mundo real, como comités de asignación, tribunales (para determinar el valor de un fallo), evaluaciones, etc. Por supuesto, los participantes del jurado también pueden utilizar herramientas de investigación de IA innovadoras para ayudarles a encontrar respuestas.
Luego, permites que cualquier persona presente una lista de respuestas numéricas al conjunto completo de problemas (por ejemplo, proporcionar una estimación de cuánto crédito debe recibir cada participante en toda la lista). Se alienta a los participantes a utilizar la inteligencia artificial para completar esta tarea, pero pueden utilizar cualquier tecnología: inteligencia artificial, combinación de humanos y máquinas, inteligencia artificial que puede acceder a búsquedas en internet y contratar de forma autónoma a otros seres humanos o trabajadores de inteligencia artificial, monos reforzados por teoría de control, etc.
Una vez que todos los proveedores de listas completas y los miembros del jurado hayan enviado sus respuestas, se verificará la lista completa en función de las respuestas del jurado y se seleccionará alguna combinación de la lista completa que sea más compatible con las respuestas del jurado como respuesta final.
Los mecanismos de juicio humano destilado son diferentes de los de la futarquía, pero tienen similitudes importantes:
En la futarquía, el "solucionador" hace predicciones, y los "datos reales" en los que se basan sus predicciones (utilizados para recompensar o castigar al solucionador) son un oráculo que genera el valor del indicador, dirigido por un jurado.
En el juicio humano destilado, el "solucionador" proporciona respuestas a un gran número de preguntas, y los "datos reales" en los que se basan sus predicciones son las respuestas de alta calidad a una fracción de las preguntas proporcionadas por el jurado.
Un ejemplo de juguete para destilar el juicio humano para asignación de crédito, consulte el código Python aquí. El guion requiere que actúes como jurado e incluye una lista completa de respuestas generadas por IA (y humanos) preinsertadas en el código. El mecanismo identifica la combinación lineal de la lista completa que mejor se ajusta a las respuestas del jurado. En este caso, la combinación ganadora es 0.199 * la respuesta de Claude + 0.801 * la respuesta de Deepseek; esta combinación es más adecuada para las respuestas del jurado que cualquier modelo individual. Estos coeficientes también serán la recompensa para los remitentes.
En este ejemplo de "derrotar a Sauron", el aspecto de "los humanos como volante" se manifiesta en dos aspectos. Primero, cada problema se aborda con un juicio humano de alta calidad, aunque aún se aprovecha el jurado como evaluador de desempeño "tecnocrático". En segundo lugar, hay un mecanismo de votación implícito que decide si "derrotar a Sauron" es el objetivo correcto (en lugar de, por ejemplo, intentar aliarse con Sauron o ceder todo el territorio al este de un río clave como un gesto de paz). También hay otros casos de uso de juicios humanos destilados, donde el trabajo del jurado tiene valores más directos, por ejemplo, imaginemos una plataforma de redes sociales (o subcomunidad) descentralizada, donde el trabajo del jurado es marcar publicaciones seleccionadas al azar como cumplimiento o incumplimiento de las reglas de la comunidad.
En el paradigma de juicio humano, existen algunas variables abiertas:
¿Cómo se lleva a cabo el muestreo? El papel de los contribuyentes con listas completas es proporcionar una gran cantidad de respuestas; el papel de los jurados es proporcionar respuestas de alta calidad. Necesitamos seleccionar a los jurados de tal manera y seleccionar preguntas para los jurados, de modo que la capacidad del modelo de emparejar las respuestas de los jurados demuestre al máximo su rendimiento general. Algunos factores a considerar incluyen:
El equilibrio entre el conocimiento profesional y los prejuicios: Los jurados expertos generalmente se especializan en sus campos, por lo que al permitirles elegir el contenido a calificar, obtendrá una entrada de mayor calidad. Por otro lado, demasiadas opciones pueden llevar a prejuicios (los jurados favorecen el contenido relacionado con ellos) o debilidades en el muestreo (cierto contenido no se califica sistemáticamente).
Anti-Goodhart: Habrá contenido que intente "jugar" con mecánicas de IA, por ejemplo, colaboradores que generen una gran cantidad de código que se ve impresionante pero que es inútil. Esto significa que el jurado puede detectarlo, pero el modelo estático de IA no lo hará a menos que se esfuerce. Una forma posible de capturar este comportamiento es agregar un mecanismo de desafío a través del cual las personas puedan marcar dichos intentos, garantizando un juicio del jurado sobre ellos (e incentivando así a los desarrolladores de IA para que se aseguren de que se capturen correctamente). Si el jurado está de acuerdo, el denunciante será recompensado, y si el jurado no está de acuerdo, se pagará una multa.
¿Qué función de calificación utiliza? Una idea utilizada en el actual programa piloto de Deep Grant es preguntar a los miembros del jurado: "¿Debería A o B recibir más crédito, y por cuánto?" La función de puntuación es score)x### = sum()log(x)( - log(x([B] - log)juror_ratio([A] ** 2 para )A, B, jurado_ratio( en jurado_answers): Es decir, para cada respuesta del jurado, pregunta qué tan lejos está la tasa en la lista completa de la tasa proporcionada por el jurado y agrega una penalización proporcional al cuadrado de la distancia (en espacio logarítmico). Esto es para mostrar que hay mucho espacio de diseño para las funciones de puntuación, y la elección de la función de puntuación está relacionada con la elección de las preguntas que se van a hacer a los miembros del jurado.
¿Cómo recompensas a los que presentan la lista completa? Idealmente, desea recompensar a varios participantes con una recompensa no nula con frecuencia para evitar el mecanismo de monopolio, pero también desea cumplir con las siguientes propiedades: los participantes no pueden aumentar la recompensa al presentar múltiples veces conjuntos de respuestas idénticos (o ligeramente modificados). Un método prometedor es calcular directamente la combinación lineal de la lista completa más adecuada para el jurado (los coeficientes son no negativos y suman 1) y usar estos mismos coeficientes para dividir la recompensa. También puede haber otros métodos.
En general, el objetivo es tomar mecanismos de juicio humano que se sabe que funcionan, están minimizados por el sesgo y han resistido la prueba del tiempo (por ejemplo, imagine cómo la estructura adversarial de un sistema judicial incluye dos partes en una disputa que tienen mucha información pero están sesgadas, y un juez que tiene una pequeña cantidad de información pero puede no serlo), y utilizar un mercado abierto de IA como un predictor razonablemente confiable y de muy bajo costo de estos mecanismos (similar a cómo funciona la "destilación" del modelo de la gran profecía).
) 深度融资(deep funding)
La financiación profunda es aplicar el juicio destilado de la humanidad al problema de ponderar cuánto porcentaje del crédito de X pertenece a Y en el gráfico.
La forma más sencilla es simplemente usar un ejemplo para ilustrarlo:
La salida del ejemplo de financiamiento profundo de dos niveles: el origen del pensamiento de Ethereum. Por favor revise el código Python aquí.
El objetivo aquí es asignar el reconocimiento filosófico aportado a Ethereum. Veamos un ejemplo:
El 20.5% del mérito de las rondas simuladas de financiación profunda aquí se atribuye al movimiento cypherpunk, y el 9.2% al progresismo tecnológico.
En cada nodo, te enfrentas a una pregunta: ¿hasta qué punto es una contribución original (por lo tanto, merece el crédito) y en qué medida es una recomposición de influencias previas? Para el movimiento cypherpunk, es 40% nuevo y 60% dependiente.
Luego, puede ver las influencias ascendentes en estos nodos: el liberalismo de pequeño gobierno y el anarquismo representan el 17.3% de los logros del movimiento cypherpunk, pero la democracia directa suiza solo obtiene el 5%.
Sin embargo, tenga en cuenta que tanto el liberalismo de pequeño gobierno como el anarquismo también han inspirado la filosofía monetaria de Bitcoin, por lo que ha influido en la filosofía de Ethereum de dos maneras.
Para calcular la cuota total de contribución del pequeño gobierno liberal y el anarquismo a Ethereum, es necesario multiplicar las aristas de cada ruta y luego sumar las rutas: 0,205 * 0,6 * 0,173 + 0,195 * 0,648 * 0,201 ~= 0,0466. Por lo tanto, si tuvieras que donar 100 dólares para recompensar a todos aquellos que contribuyeron a la filosofía de Ethereum, los pequeños gobernantes liberales y los anarquistas recibirían 4,66 dólares según esta ronda de financiación profunda simulada.
Este método está diseñado para ser aplicable en áreas donde se trabaja sobre la base de trabajos anteriores y la estructura es altamente clara. La academia (piensa: citas en gráficos) y el software de código abierto (piensa: dependencias de bibliotecas y bifurcaciones) son dos ejemplos naturales.
El objetivo de un sistema de financiación profunda que funcione bien es crear y mantener un gráfico global donde cualquier financiador interesado en apoyar un proyecto específico pueda enviar fondos a la dirección que representa ese nodo, los fondos se propagarán automáticamente a sus dependencias según el peso de los bordes del gráfico (y recursivamente a sus dependencias, etc.).
Puedes imaginar un protocolo descentralizado que utiliza un mecanismo de financiamiento profundo incorporado para emitir sus tokens: el gobierno descentralizado del protocolo elegirá un jurado, que operará el mecanismo de financiamiento profundo, ya que el protocolo emitirá automáticamente tokens y los depositará en un nodo correspondiente a sí mismo. Al hacerlo, el protocolo recompensa de forma programada a todos sus contribuyentes directos e indirectos, evocando cómo Bitcoin o Ethereum recompensan a un tipo específico de contribuyente (los mineros) a través de recompensas de bloque. Al influir en el peso de los bordes, el jurado puede definir continuamente el tipo de contribución que valora. Este mecanismo puede servir como una alternativa descentralizada y sostenible a largo plazo para la minería, la venta o las distribuciones aéreas únicas.
Aumentar la privacidad
Por lo general, para hacer un juicio correcto sobre el problema mencionado en el ejemplo anterior, es necesario poder acceder a información privada: registros de chat internos de la organización, información presentada en secreto por miembros de la comunidad, etc. Uno de los beneficios de 'solo usar un solo AI', especialmente en entornos más pequeños, es que es más fácilmente aceptado que un AI acceda a la información en lugar de hacerla pública para todos.
Para que el juicio humano o la financiación profunda de la destilación funcionen en estos casos, podemos intentar utilizar la criptografía para dar a la IA acceso seguro a la información privada. La idea es utilizar )MPC### de cómputo multipartito, (FHE) de cifrado totalmente homomórfico, un entorno de ejecución de confianza (TEE) o mecanismos similares para proporcionar información privada, pero solo si su única salida es una "confirmación de lista completa" que va directamente a la mecánica.
Si lo haces, tendrás que limitar el conjunto de mecanismos a los modelos de IA (no a los humanos o a las combinaciones de IA + humanos, porque no puedes hacer que los humanos vean los datos) y específicos a los modelos que se ejecutan en algún sustrato específico (por ejemplo, MPC, FHE, hardware de confianza). Una de las principales direcciones de investigación es encontrar versiones prácticas que sean lo suficientemente efectivas y significativas en un futuro próximo.
Ventajas del diseño del motor + volante
Hay muchos beneficios prometedores en un diseño de este tipo. Con mucho, el beneficio más importante es que permiten construir DAO, dando a los votantes humanos el control de la dirección, pero no se empantanarán con demasiadas decisiones. Llegan a un compromiso en el que no todos tienen que tomar N decisiones, pero tienen el poder de ir más allá de simplemente tomar una decisión (como suelen trabajar los delegados) y más provocan preferencias ricas que son difíciles de expresar directamente.
Además, este mecanismo parece tener una característica de incentivo suave. Lo que quiero decir con 'incentivo suave' aquí es la combinación de dos factores:
La difusión: ninguna acción individual tomada por el mecanismo de votación tendrá un impacto significativo en los intereses de ningún participante individual.
El caos: la relación entre las decisiones de votación y cómo afectan los intereses de los participantes es aún más compleja y difícil de calcular.
Los términos ofuscación y difusión aquí se toman de la criptografía, que son propiedades clave de la seguridad criptográfica y de la función hash.
Un buen ejemplo en el mundo real actual de un incentivo suave es el estado de derecho: en lugar de que los altos funcionarios del gobierno tomen acciones como "darle a la empresa de Alice 200 millones de dólares" o "multar a la empresa de Bob 100 millones de dólares" de manera regular, se utilizan reglas destinadas a aplicarse de manera uniforme a un gran número de participantes, y luego son interpretadas por otro tipo de participantes. Cuando este enfoque funciona, la ventaja es que reduce en gran medida los beneficios de la corrupción y otras formas de corrupción. Cuando se viola (lo cual sucede con frecuencia en la práctica), estos problemas se magnifican rápidamente.
La IA claramente se convertirá en una parte importante del futuro, lo que inevitablemente se convertirá en una parte importante del futuro gobierno. Sin embargo, si involucras a la IA en la gobernanza, hay riesgos evidentes: la IA tiene sesgos, puede ser intencionalmente saboteada durante el proceso de entrenamiento, y el desarrollo tecnológico de la IA es tan rápido que 'darle poder a la IA' puede significar en realidad 'darle poder a quienes son responsables de mejorar la IA'. La destilación del juicio humano proporciona una alternativa para avanzar, permitiéndonos aprovechar el poder de la IA de manera abierta y en un mercado libre, al tiempo que mantenemos el control democrático humano.
Agradezco especialmente los comentarios y revisiones de Devansh Mehta, Davide Crapis y Julian Zawistowski, así como las discusiones de Tina Zhen, Shaw Walters y otros.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Vitalik 新文:未来治理新范式「AI 引擎 + 人类方向盘」
Otro enfoque explorado por > en muchos casos de uso es tener una mecánica simple que sean las reglas del juego y que la IA sea el jugador.
Título original: "AI como el motor, humanos como el volante"
Escrito por: Vitalik, fundador de Ethereum
Compilador: Whitewater, Golden Finance
Si le preguntas a la gente qué aspectos les gustan de la estructura democrática, ya sea en el gobierno, en el lugar de trabajo o en un DAO basado en blockchain, a menudo escucharás los mismos argumentos: evitan la concentración de poder, brindan garantías sólidas a los usuarios, ya que nadie puede cambiar completamente la dirección del sistema a su antojo, y pueden tomar decisiones de mayor calidad al recopilar las opiniones y la sabiduría de muchas personas.
Cuando se les pregunta a las personas qué aspectos de la estructura democrática no les gustan, a menudo expresan las mismas quejas: los votantes comunes no son lo suficientemente sofisticados, ya que cada votante tiene muy pocas oportunidades de influir en los resultados, pocos votantes dedican una reflexión de alta calidad a la toma de decisiones, y a menudo se produce una baja participación (lo que hace que el sistema sea vulnerable) o una centralización de facto, ya que cada persona tiende a confiar y replicar las opiniones de algunas personas influyentes.
El objetivo de este artículo es explorar un paradigma que quizás pueda permitirnos beneficiarnos de las estructuras democráticas sin efectos negativos mediante el uso de la IA. "La IA es el motor, el ser humano es el volante". Los humanos proporcionan al sistema solo una pequeña cantidad de información, quizás solo unos cientos, pero de alta calidad y cuidadosamente considerada. La IA considera estos datos como una "función objetivo" y toma innumerables decisiones incansablemente para lograr estos objetivos. En particular, este artículo abordará una pregunta interesante: ¿podemos lograr esto sin colocar a una sola IA en el centro, sino confiando en un mercado abierto competitivo en el que cualquier IA (o híbrido humano-máquina) pueda participar libremente?
!
Índice
¿Por qué no dejar que un AI se encargue directamente?
La forma más sencilla de insertar las preferencias humanas en un mecanismo basado en IA es crear un modelo de IA y permitir que los humanos introduzcan sus preferencias de alguna manera. Hay una forma sencilla de hacerlo: simplemente coloque un archivo de texto que contenga la lista de instrucciones del personal en el indicador del sistema. Luego, puede capacitar a la IA con uno de los muchos "marcos de IA delegada" para acceder a Internet, entregarle las claves de los activos de su organización y perfiles en redes sociales, y habrá terminado.
Después de varias iteraciones, esto puede ser suficiente para satisfacer las necesidades de muchos casos de uso. Espero completamente que en un futuro cercano veamos muchas estructuras que involucren instrucciones dadas por grupos de lectura de IA (incluso lectura en tiempo real de chats grupales) y tomen medidas.
Esta estructura no es ideal como mecanismo de gobernanza como institución a largo plazo. Un atributo valioso que debe poseer una institución a largo plazo es la credibilidad y la neutralidad. En mi post introduciendo este concepto, enumeré cuatro atributos valiosos de la neutralidad creíble:
El LLM (o agente de IA) satisface 0/4. El modelo inevitablemente codifica un gran número de personas específicas y preferencias de resultados durante su entrenamiento. A veces, esto lleva a direcciones sorprendentes de preferencia de IA, por ejemplo, mirando un estudio reciente que muestra que los principales LLM valoran la vida en Pakistán más que la vida en los Estados Unidos (!!). )。 Puede ser de peso abierto, pero eso está lejos de ser de código abierto; Realmente no sabemos qué diablo se esconde en las profundidades del modelo. Es lo opuesto a simple: la complejidad de Kolmogorov de un LLM es de decenas de miles de millones de bits, aproximadamente equivalente a todas las leyes de EE. UU. (federales + estatales + locales) combinadas. Y debido a que la IA está evolucionando tan rápido, hay que cambiarla cada tres meses.
Por esta razón, estoy a favor de explorar otra forma en muchos casos de uso, que consiste en hacer que un mecanismo simple se convierta en una regla del juego, permitiendo que la IA sea el jugador. Es precisamente esta perspicacia la que hace que el mercado sea tan eficiente: las reglas son un sistema de propiedad relativamente tonto, los casos marginales son resueltos por el sistema judicial, que acumula y ajusta lentamente los precedentes, y toda la información proviene de los empresarios que operan 'en el margen'.
Un solo 'jugador de juegos' puede ser LLM, grupos LLM que interactúan entre sí e invocan varios servicios de Internet, varias combinaciones de IA + humanos y muchos otros constructos; como diseñador de mecanismos, no necesitas saberlo. El objetivo ideal es tener un mecanismo que pueda funcionar automáticamente, y si el objetivo de ese mecanismo es elegir qué financiar, debería ser lo más parecido posible a las recompensas en bloques de Bitcoin o Ethereum.
Los beneficios de este enfoque son:
El objetivo del mecanismo de tutoría es reflejar fielmente los objetivos fundamentales de los participantes. Solo necesita proporcionar una pequeña cantidad de información, pero debe ser información de alta calidad.
Se puede considerar que este mecanismo aprovecha la asimetría entre la presentación y la verificación de respuestas. Es similar a la dificultad de resolver un sudoku, pero es fácil verificar si la solución es correcta. Creas un mercado abierto donde los jugadores actúan como 'solucionadores', y luego mantienes un mecanismo operado por humanos para llevar a cabo tareas de verificación de las soluciones presentadas, mucho más sencillas.
( Futarchy
La futarquía fue propuesta originalmente por Robin Hanson y significa "votar por el valor, pero apostar por la fe". El mecanismo de votación selecciona un conjunto de objetivos (que pueden ser cualquiera, pero solo si deben ser medibles) y luego los combina en una métrica M. Cuando tienes que tomar una decisión (supongamos SÍ/NO para simplificar), estableces el mercado condicional: le pides a la gente que apueste sobre si )i( elegirá SÍ o NO, )ii### si eliges SÍ, el valor de M, de lo contrario cero, (iii) El valor de M si se selecciona NO, de lo contrario es cero. Con estas tres variables, puedes determinar si el mercado piensa que SÍ o NO es más favorable para el valor de M.
"El precio de las acciones de la empresa" (o para criptomonedas, el precio del token) es el indicador más comúnmente citado, ya que es fácil de entender y medir, pero este mecanismo puede respaldar varios indicadores: usuarios activos mensuales, la mediana de la autoinformación de la felicidad de ciertos grupos, algunos indicadores cuantificables de descentralización, etc.
La futarquía se inventó originalmente antes de la era de la inteligencia artificial. Sin embargo, Futarchy encaja perfectamente en el paradigma de "solucionadores complejos, validadores simples" descrito en la sección anterior, y los traders en Futarchy también pueden ser inteligencia artificial (o una combinación de humano + inteligencia artificial). El papel del "solucionador" (trader predictivo del mercado) es determinar cómo afectará cada plan propuesto al valor del indicador futuro. Es difícil. Si el solucionador es correcto, ganan dinero, y si el solucionador está equivocado, pierden dinero. Los validadores (personas que votan por un indicador, si notan que la métrica está "amañada" o desactualizada, ajustan la métrica y determinan el valor real de la métrica en algún momento en el futuro) solo necesitan responder a la pregunta más simple "¿Cuál es el valor de la métrica ahora?"
( Destilando el juicio humano
La destilación de juicios humanos es un tipo de mecanismo cuyo principio de funcionamiento es el siguiente. Hay una gran cantidad (piensa en: 100 万个) de preguntas que necesitan respuesta. Ejemplos naturales incluyen:
Tienes un equipo que puede responder a estas preguntas, pero el costo es dedicar una gran cantidad de energía a cada respuesta. Solo solicitas al equipo que responda a unas pocas preguntas (por ejemplo, si hay un total de 1 millón de elementos en la lista, es posible que el equipo solo responda a 100 de ellos). Incluso puedes plantear preguntas indirectas al equipo: no preguntes '¿Qué porcentaje del crédito total debería recibir Alice?', sino '¿Deberían Alice o Bob recibir más crédito, y en qué medida?'. Al diseñar un mecanismo de jurado, puedes reutilizar mecanismos probados en el mundo real, como comités de asignación, tribunales (para determinar el valor de un fallo), evaluaciones, etc. Por supuesto, los participantes del jurado también pueden utilizar herramientas de investigación de IA innovadoras para ayudarles a encontrar respuestas.
Luego, permites que cualquier persona presente una lista de respuestas numéricas al conjunto completo de problemas (por ejemplo, proporcionar una estimación de cuánto crédito debe recibir cada participante en toda la lista). Se alienta a los participantes a utilizar la inteligencia artificial para completar esta tarea, pero pueden utilizar cualquier tecnología: inteligencia artificial, combinación de humanos y máquinas, inteligencia artificial que puede acceder a búsquedas en internet y contratar de forma autónoma a otros seres humanos o trabajadores de inteligencia artificial, monos reforzados por teoría de control, etc.
Una vez que todos los proveedores de listas completas y los miembros del jurado hayan enviado sus respuestas, se verificará la lista completa en función de las respuestas del jurado y se seleccionará alguna combinación de la lista completa que sea más compatible con las respuestas del jurado como respuesta final.
Los mecanismos de juicio humano destilado son diferentes de los de la futarquía, pero tienen similitudes importantes:
![])https://img.gateio.im/social/moments-c370546e826b9a01499438d77a3d2781(
Un ejemplo de juguete para destilar el juicio humano para asignación de crédito, consulte el código Python aquí. El guion requiere que actúes como jurado e incluye una lista completa de respuestas generadas por IA (y humanos) preinsertadas en el código. El mecanismo identifica la combinación lineal de la lista completa que mejor se ajusta a las respuestas del jurado. En este caso, la combinación ganadora es 0.199 * la respuesta de Claude + 0.801 * la respuesta de Deepseek; esta combinación es más adecuada para las respuestas del jurado que cualquier modelo individual. Estos coeficientes también serán la recompensa para los remitentes.
En este ejemplo de "derrotar a Sauron", el aspecto de "los humanos como volante" se manifiesta en dos aspectos. Primero, cada problema se aborda con un juicio humano de alta calidad, aunque aún se aprovecha el jurado como evaluador de desempeño "tecnocrático". En segundo lugar, hay un mecanismo de votación implícito que decide si "derrotar a Sauron" es el objetivo correcto (en lugar de, por ejemplo, intentar aliarse con Sauron o ceder todo el territorio al este de un río clave como un gesto de paz). También hay otros casos de uso de juicios humanos destilados, donde el trabajo del jurado tiene valores más directos, por ejemplo, imaginemos una plataforma de redes sociales (o subcomunidad) descentralizada, donde el trabajo del jurado es marcar publicaciones seleccionadas al azar como cumplimiento o incumplimiento de las reglas de la comunidad.
En el paradigma de juicio humano, existen algunas variables abiertas:
En general, el objetivo es tomar mecanismos de juicio humano que se sabe que funcionan, están minimizados por el sesgo y han resistido la prueba del tiempo (por ejemplo, imagine cómo la estructura adversarial de un sistema judicial incluye dos partes en una disputa que tienen mucha información pero están sesgadas, y un juez que tiene una pequeña cantidad de información pero puede no serlo), y utilizar un mercado abierto de IA como un predictor razonablemente confiable y de muy bajo costo de estos mecanismos (similar a cómo funciona la "destilación" del modelo de la gran profecía).
) 深度融资(deep funding)
La financiación profunda es aplicar el juicio destilado de la humanidad al problema de ponderar cuánto porcentaje del crédito de X pertenece a Y en el gráfico.
La forma más sencilla es simplemente usar un ejemplo para ilustrarlo:
La salida del ejemplo de financiamiento profundo de dos niveles: el origen del pensamiento de Ethereum. Por favor revise el código Python aquí.
El objetivo aquí es asignar el reconocimiento filosófico aportado a Ethereum. Veamos un ejemplo:
Este método está diseñado para ser aplicable en áreas donde se trabaja sobre la base de trabajos anteriores y la estructura es altamente clara. La academia (piensa: citas en gráficos) y el software de código abierto (piensa: dependencias de bibliotecas y bifurcaciones) son dos ejemplos naturales.
El objetivo de un sistema de financiación profunda que funcione bien es crear y mantener un gráfico global donde cualquier financiador interesado en apoyar un proyecto específico pueda enviar fondos a la dirección que representa ese nodo, los fondos se propagarán automáticamente a sus dependencias según el peso de los bordes del gráfico (y recursivamente a sus dependencias, etc.).
Puedes imaginar un protocolo descentralizado que utiliza un mecanismo de financiamiento profundo incorporado para emitir sus tokens: el gobierno descentralizado del protocolo elegirá un jurado, que operará el mecanismo de financiamiento profundo, ya que el protocolo emitirá automáticamente tokens y los depositará en un nodo correspondiente a sí mismo. Al hacerlo, el protocolo recompensa de forma programada a todos sus contribuyentes directos e indirectos, evocando cómo Bitcoin o Ethereum recompensan a un tipo específico de contribuyente (los mineros) a través de recompensas de bloque. Al influir en el peso de los bordes, el jurado puede definir continuamente el tipo de contribución que valora. Este mecanismo puede servir como una alternativa descentralizada y sostenible a largo plazo para la minería, la venta o las distribuciones aéreas únicas.
Aumentar la privacidad
Por lo general, para hacer un juicio correcto sobre el problema mencionado en el ejemplo anterior, es necesario poder acceder a información privada: registros de chat internos de la organización, información presentada en secreto por miembros de la comunidad, etc. Uno de los beneficios de 'solo usar un solo AI', especialmente en entornos más pequeños, es que es más fácilmente aceptado que un AI acceda a la información en lugar de hacerla pública para todos.
Para que el juicio humano o la financiación profunda de la destilación funcionen en estos casos, podemos intentar utilizar la criptografía para dar a la IA acceso seguro a la información privada. La idea es utilizar )MPC### de cómputo multipartito, (FHE) de cifrado totalmente homomórfico, un entorno de ejecución de confianza (TEE) o mecanismos similares para proporcionar información privada, pero solo si su única salida es una "confirmación de lista completa" que va directamente a la mecánica.
Si lo haces, tendrás que limitar el conjunto de mecanismos a los modelos de IA (no a los humanos o a las combinaciones de IA + humanos, porque no puedes hacer que los humanos vean los datos) y específicos a los modelos que se ejecutan en algún sustrato específico (por ejemplo, MPC, FHE, hardware de confianza). Una de las principales direcciones de investigación es encontrar versiones prácticas que sean lo suficientemente efectivas y significativas en un futuro próximo.
Ventajas del diseño del motor + volante
Hay muchos beneficios prometedores en un diseño de este tipo. Con mucho, el beneficio más importante es que permiten construir DAO, dando a los votantes humanos el control de la dirección, pero no se empantanarán con demasiadas decisiones. Llegan a un compromiso en el que no todos tienen que tomar N decisiones, pero tienen el poder de ir más allá de simplemente tomar una decisión (como suelen trabajar los delegados) y más provocan preferencias ricas que son difíciles de expresar directamente.
Además, este mecanismo parece tener una característica de incentivo suave. Lo que quiero decir con 'incentivo suave' aquí es la combinación de dos factores:
Los términos ofuscación y difusión aquí se toman de la criptografía, que son propiedades clave de la seguridad criptográfica y de la función hash.
Un buen ejemplo en el mundo real actual de un incentivo suave es el estado de derecho: en lugar de que los altos funcionarios del gobierno tomen acciones como "darle a la empresa de Alice 200 millones de dólares" o "multar a la empresa de Bob 100 millones de dólares" de manera regular, se utilizan reglas destinadas a aplicarse de manera uniforme a un gran número de participantes, y luego son interpretadas por otro tipo de participantes. Cuando este enfoque funciona, la ventaja es que reduce en gran medida los beneficios de la corrupción y otras formas de corrupción. Cuando se viola (lo cual sucede con frecuencia en la práctica), estos problemas se magnifican rápidamente.
La IA claramente se convertirá en una parte importante del futuro, lo que inevitablemente se convertirá en una parte importante del futuro gobierno. Sin embargo, si involucras a la IA en la gobernanza, hay riesgos evidentes: la IA tiene sesgos, puede ser intencionalmente saboteada durante el proceso de entrenamiento, y el desarrollo tecnológico de la IA es tan rápido que 'darle poder a la IA' puede significar en realidad 'darle poder a quienes son responsables de mejorar la IA'. La destilación del juicio humano proporciona una alternativa para avanzar, permitiéndonos aprovechar el poder de la IA de manera abierta y en un mercado libre, al tiempo que mantenemos el control democrático humano.
Agradezco especialmente los comentarios y revisiones de Devansh Mehta, Davide Crapis y Julian Zawistowski, así como las discusiones de Tina Zhen, Shaw Walters y otros.