Un artículo destacado de Ars Technica de hoy explora si los modelos de lenguaje a gran escala tienen capacidad de razonamiento no lingüístico, y cita hallazgos de investigadores que sugieren que el procesamiento en un 'espacio latente' puede ayudar a la inteligencia artificial a resolver problemas lógicos difíciles. ¿Qué sucede? Sigamos leyendo.
Hasta ahora, los grandes modelos de lenguaje han tenido un gran éxito, utilizando su arquitectura transformadora para predecir de manera efectiva la siguiente palabra necesaria para responder a una consulta (es decir, un token de lenguaje). Sin embargo, algunos investigadores han descubierto que, al tratar tareas de razonamiento complejo que requieren abstracciones lógicas, podría surgir problemas al intentar explicarlo todo a través de este 'espacio de lenguaje', incluso para los modelos de 'razonamiento' modernos.
Ahora, los investigadores están tratando de resolver estos problemas mediante el diseño de modelos que pueden calcular soluciones lógicas potenciales en el “espacio latente” - es decir, en la capa de cálculo oculta antes de que el transformador genere lenguaje. Aunque este enfoque no produce cambios drásticos en la capacidad de razonamiento de los grandes modelos de lenguaje, sí mejora notablemente la precisión en ciertos tipos de problemas lógicos y señala nuevas direcciones para la investigación.
Espera, ¿qué espacio?
Los modelos de razonamiento modernos, como o1 de ChatGPT, tienden a trabajar mediante la generación de una 'cadena de pensamiento'. En estos modelos, cada paso del proceso lógico se representa como una serie de etiquetas de palabras en lenguaje natural y se devuelve al modelo a través de la retroalimentación.
En un nuevo documento de investigación, el equipo de investigación de inteligencia artificial básica de Meta y los investigadores de la Universidad de California en San Diego consideran esta dependencia del lenguaje natural y de las 'etiquetas de palabras' como un 'factor restrictivo fundamental' para estos modelos de razonamiento. Esto se debe a que para completar con éxito las tareas de razonamiento, a menudo es necesario planificar de manera compleja etiquetas clave específicas para encontrar la ruta lógica correcta entre muchas opciones.
La imagen de arriba muestra que el modelo estándar tiene que pasar por un convertidor en cada paso, a diferencia del modelo COCONUT, que utiliza un estado oculto "latente". (Fuente de la imagen: Entrenamiento de grandes modelos de lenguaje para razonar en un espacio latente continuo)
Los investigadores escribieron que en los modelos actuales de cadenas de pensamiento, las etiquetas de palabras suelen generarse para 'coherencia textual' y 'fluidez', con una contribución mínima al proceso real de razonamiento. En cambio, sugieren que 'idealmente, los modelos de lenguaje a gran escala pueden razonar libremente sin limitaciones lingüísticas y luego expresar sus hallazgos en lenguaje solo cuando sea necesario'.
Para lograr este 'ideal', los investigadores describen un método de 'entrenamiento de modelos de lenguaje a gran escala para razonar en un espacio potencial continuo', como se indica en el título del documento. Este 'espacio potencial' es esencialmente un conjunto de pesos de marcadores intermedios 'ocultos', que son lo que el modelo contiene antes de que el generador de transformadores genere una versión legible por humanos en lenguaje natural de este estado interno.
En el modelo COCONUT (cadena de pensamiento continua) de los investigadores, estos estados ocultos se codifican como "pensamientos latentes", que reemplazan los pasos escritos individuales en un orden lógico durante el entrenamiento y el procesamiento de consultas. Los investigadores escriben que esto evita la necesidad de convertir cada paso en lenguaje natural y "libera el razonamiento del espacio del lenguaje", lo que resulta en un camino de razonamiento optimizado que llaman "pensamiento continuo".
Una vista más amplia
Aunque el procesamiento lógico en el espacio potencial tiene ciertos beneficios para mejorar la eficiencia del modelo, el descubrimiento más importante es que este modelo puede "codificar simultáneamente múltiples pasos potenciales posteriores". El procesamiento lógico en el "espacio potencial" puede lograr una retrotracción instantánea, que los investigadores comparan con una búsqueda de amplitud primero en un gráfico en lugar de buscar todas las opciones lógicas de manera "codiciosa" y exhaustiva.
Los investigadores escribieron que incluso sin un entrenamiento explícito, esta característica de procesamiento sincrónico y repentino se reflejará en las pruebas. "Aunque el modelo puede no tomar decisiones correctas inicialmente, puede mantener muchas opciones posibles en el pensamiento continuo bajo la guía de algunas funciones de valor implícitas y eliminar gradualmente las rutas incorrectas a través del razonamiento", escribieron.
Esta imagen destaca algunas formas en las que diferentes modelos pueden fallar en ciertos tipos de razonamiento lógico. (Fuente de la imagen: Entrenamiento de grandes modelos de lenguaje para razonar en un espacio latente continuo)
En las pruebas de razonamiento matemático relativamente simples (GSM8K) o razonamiento general (ProntoQA), este razonamiento de múltiples vías no mejora realmente la precisión de COCONUT en comparación con los modelos de cadena de pensamiento tradicionales. Sin embargo, los investigadores encontraron que el modelo se desempeña relativamente bien en un conjunto de consultas ProntoQA generadas al azar que implican conjuntos de condiciones lógicas complejas y tortuosas (por ejemplo, 'cada manzana es una fruta, cada fruta es comida, etc.').
Para estas tareas, el modelo estándar de razonamiento encadenado a menudo cae en un callejón sin salida al intentar resolver problemas lógicos, e incluso puede generar reglas completamente ficticias. Investigaciones anteriores también sugieren que los "pasos lógicos verbalizados" producidos por estos modelos de razonamiento encadenado podrían estar utilizando procesos de razonamiento subyacentes diferentes a los compartidos.
Esta nueva investigación se suma a un número creciente de estudios destinados a comprender y aprovechar el funcionamiento de los grandes modelos de lenguaje en un nivel más profundo de sus redes neuronales. Aunque este tipo de estudios aún no ha logrado avances significativos, los investigadores creen que el entrenamiento inicial de los modelos con este tipo de 'pensamiento continuo' puede 'permitir que los modelos generalicen de manera más efectiva en un conjunto más amplio de escenarios de razonamiento'.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
¿Los grandes modelos de lenguaje tienen capacidad de razonamiento no lingüístico?
Fuente: Número Cuántico
Un artículo destacado de Ars Technica de hoy explora si los modelos de lenguaje a gran escala tienen capacidad de razonamiento no lingüístico, y cita hallazgos de investigadores que sugieren que el procesamiento en un 'espacio latente' puede ayudar a la inteligencia artificial a resolver problemas lógicos difíciles. ¿Qué sucede? Sigamos leyendo.
Hasta ahora, los grandes modelos de lenguaje han tenido un gran éxito, utilizando su arquitectura transformadora para predecir de manera efectiva la siguiente palabra necesaria para responder a una consulta (es decir, un token de lenguaje). Sin embargo, algunos investigadores han descubierto que, al tratar tareas de razonamiento complejo que requieren abstracciones lógicas, podría surgir problemas al intentar explicarlo todo a través de este 'espacio de lenguaje', incluso para los modelos de 'razonamiento' modernos.
Ahora, los investigadores están tratando de resolver estos problemas mediante el diseño de modelos que pueden calcular soluciones lógicas potenciales en el “espacio latente” - es decir, en la capa de cálculo oculta antes de que el transformador genere lenguaje. Aunque este enfoque no produce cambios drásticos en la capacidad de razonamiento de los grandes modelos de lenguaje, sí mejora notablemente la precisión en ciertos tipos de problemas lógicos y señala nuevas direcciones para la investigación.
Espera, ¿qué espacio?
Los modelos de razonamiento modernos, como o1 de ChatGPT, tienden a trabajar mediante la generación de una 'cadena de pensamiento'. En estos modelos, cada paso del proceso lógico se representa como una serie de etiquetas de palabras en lenguaje natural y se devuelve al modelo a través de la retroalimentación.
En un nuevo documento de investigación, el equipo de investigación de inteligencia artificial básica de Meta y los investigadores de la Universidad de California en San Diego consideran esta dependencia del lenguaje natural y de las 'etiquetas de palabras' como un 'factor restrictivo fundamental' para estos modelos de razonamiento. Esto se debe a que para completar con éxito las tareas de razonamiento, a menudo es necesario planificar de manera compleja etiquetas clave específicas para encontrar la ruta lógica correcta entre muchas opciones.
La imagen de arriba muestra que el modelo estándar tiene que pasar por un convertidor en cada paso, a diferencia del modelo COCONUT, que utiliza un estado oculto "latente". (Fuente de la imagen: Entrenamiento de grandes modelos de lenguaje para razonar en un espacio latente continuo)
Los investigadores escribieron que en los modelos actuales de cadenas de pensamiento, las etiquetas de palabras suelen generarse para 'coherencia textual' y 'fluidez', con una contribución mínima al proceso real de razonamiento. En cambio, sugieren que 'idealmente, los modelos de lenguaje a gran escala pueden razonar libremente sin limitaciones lingüísticas y luego expresar sus hallazgos en lenguaje solo cuando sea necesario'.
Para lograr este 'ideal', los investigadores describen un método de 'entrenamiento de modelos de lenguaje a gran escala para razonar en un espacio potencial continuo', como se indica en el título del documento. Este 'espacio potencial' es esencialmente un conjunto de pesos de marcadores intermedios 'ocultos', que son lo que el modelo contiene antes de que el generador de transformadores genere una versión legible por humanos en lenguaje natural de este estado interno.
En el modelo COCONUT (cadena de pensamiento continua) de los investigadores, estos estados ocultos se codifican como "pensamientos latentes", que reemplazan los pasos escritos individuales en un orden lógico durante el entrenamiento y el procesamiento de consultas. Los investigadores escriben que esto evita la necesidad de convertir cada paso en lenguaje natural y "libera el razonamiento del espacio del lenguaje", lo que resulta en un camino de razonamiento optimizado que llaman "pensamiento continuo".
Una vista más amplia
Aunque el procesamiento lógico en el espacio potencial tiene ciertos beneficios para mejorar la eficiencia del modelo, el descubrimiento más importante es que este modelo puede "codificar simultáneamente múltiples pasos potenciales posteriores". El procesamiento lógico en el "espacio potencial" puede lograr una retrotracción instantánea, que los investigadores comparan con una búsqueda de amplitud primero en un gráfico en lugar de buscar todas las opciones lógicas de manera "codiciosa" y exhaustiva.
Los investigadores escribieron que incluso sin un entrenamiento explícito, esta característica de procesamiento sincrónico y repentino se reflejará en las pruebas. "Aunque el modelo puede no tomar decisiones correctas inicialmente, puede mantener muchas opciones posibles en el pensamiento continuo bajo la guía de algunas funciones de valor implícitas y eliminar gradualmente las rutas incorrectas a través del razonamiento", escribieron.
Esta imagen destaca algunas formas en las que diferentes modelos pueden fallar en ciertos tipos de razonamiento lógico. (Fuente de la imagen: Entrenamiento de grandes modelos de lenguaje para razonar en un espacio latente continuo)
En las pruebas de razonamiento matemático relativamente simples (GSM8K) o razonamiento general (ProntoQA), este razonamiento de múltiples vías no mejora realmente la precisión de COCONUT en comparación con los modelos de cadena de pensamiento tradicionales. Sin embargo, los investigadores encontraron que el modelo se desempeña relativamente bien en un conjunto de consultas ProntoQA generadas al azar que implican conjuntos de condiciones lógicas complejas y tortuosas (por ejemplo, 'cada manzana es una fruta, cada fruta es comida, etc.').
Para estas tareas, el modelo estándar de razonamiento encadenado a menudo cae en un callejón sin salida al intentar resolver problemas lógicos, e incluso puede generar reglas completamente ficticias. Investigaciones anteriores también sugieren que los "pasos lógicos verbalizados" producidos por estos modelos de razonamiento encadenado podrían estar utilizando procesos de razonamiento subyacentes diferentes a los compartidos.
Esta nueva investigación se suma a un número creciente de estudios destinados a comprender y aprovechar el funcionamiento de los grandes modelos de lenguaje en un nivel más profundo de sus redes neuronales. Aunque este tipo de estudios aún no ha logrado avances significativos, los investigadores creen que el entrenamiento inicial de los modelos con este tipo de 'pensamiento continuo' puede 'permitir que los modelos generalicen de manera más efectiva en un conjunto más amplio de escenarios de razonamiento'.