Alucinaciones fatales, desarrollo de alternativas de GPU, los modelos grandes aún enfrentan estos 10 grandes desafíos

2023-08-28 01:50:24

El lanzamiento de ChatGPT, GPT-4, etc., nos permite ver el encanto del modelo grande (LLM), acompañado de varios desafíos que enfrenta.

Fuente de la imagen: Generada por IA ilimitada

¿Cómo mejorar el LLM? Ante modelos grandes, ¿qué problemas hay que solucionar? Se ha convertido en un importante tema de investigación en el campo de la IA.

En este artículo, el informático Chip Huyen parte de 10 aspectos y expone de manera integral los desafíos que enfrenta el LLM. Específicamente, los dos primeros aspectos tienen que ver con alucinaciones y aprendizaje contextual, y varios otros aspectos incluyen, entre otros, multimodalidad, arquitectura, búsqueda de alternativas de GPU, etc.

Direccion original:

La siguiente es una traducción del texto original.

1. Cómo reducir las alucinaciones

El problema de las alucinaciones ocurre cuando el texto generado por el LLM es fluido y natural, pero no fiel a la fuente del contenido (problema intrínseco) y/o incierto (problema extrínseco). Este problema existe ampliamente en LLM.

Por tanto, es muy importante aliviar las alucinaciones y desarrollar indicadores para medir las alucinaciones, y muchas empresas e instituciones están prestando atención a este tema. Chip Huyen dijo que hay muchas maneras de reducir las alucinaciones en esta etapa, como agregar más contexto a la indicación, usar cadenas de pensamiento o hacer que la respuesta del modelo sea más concisa.

Los materiales a los que se puede hacer referencia incluyen:

Una revisión de la investigación sobre alucinaciones en la generación del lenguaje natural:
Cómo la ilusión del lenguaje modela una bola de nieve:
Evaluación ChatGPT sobre razonamiento, alucinaciones e interactividad:
El aprendizaje contrastivo reduce las alucinaciones en las conversaciones:
La autoconsistencia mejora la capacidad de razonamiento de la cadena de pensamiento del modelo de lenguaje:
Detección de alucinaciones de caja negra para modelos generativos de lenguaje grande:

2. Optimice la longitud y la estructura del contexto

Otro foco de investigación de LLM es la longitud del contexto, porque el modelo grande necesita hacer referencia al contexto al responder las preguntas de los usuarios, y cuanto mayor sea la longitud que se pueda procesar, más útil será para LLM. Por ejemplo, le preguntamos a ChatGPT "¿Cuál es el mejor restaurante vietnamita?" Ante esta pregunta, ChatGPT necesita consultar el contexto para averiguar si el usuario está preguntando por el mejor restaurante vietnamita de Vietnam o por el mejor restaurante vietnamita de Estados Unidos. Estados Unidos, no es lo mismo.

En esta subsección, Chip Huyen presenta varios artículos relacionados.

El primero es "SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA", ambos autores son de la Universidad de Texas en Austin. El documento presenta un conjunto de datos de control de calidad de recuperación abierta SITUATEDQA, y los lectores interesados pueden consultarlo para obtener más información.

Chip Huyen afirmó que debido a que el modelo aprende del contexto proporcionado, este proceso se denomina aprendizaje contextual.

El segundo artículo es "Generación retri-aumentada para tareas de PNL intensivas en conocimiento", que propone RAG (generación retri-aumentada), que puede combinar modelos de lenguaje previamente entrenados y conocimiento externo para lograr respuestas generativas de preguntas de dominio abierto y otros conocimientos. Tareas intensivas.

El proceso de operación de RGA se divide en dos fases: la fase de fragmentación (también conocida como recuperación) y la fase de consulta:

Mucha gente piensa, basándose en esta investigación, que cuanto más largo sea el contexto, más información acumulará el modelo y mejor será su respuesta. Chip Huyen cree que esta afirmación no es del todo cierta.

Cuánto contexto puede usar un modelo y con qué eficiencia un modelo usa el contexto son dos preguntas completamente diferentes. Lo que tenemos que hacer es aumentar la eficiencia del contexto de procesamiento del modelo en paralelo mientras aumentamos la longitud del contexto del modelo. Por ejemplo, en el artículo "Perdido en el medio: cómo los modelos de lenguaje utilizan contextos largos", el artículo describe cómo el modelo puede comprender mejor la información al principio y al final del índice, en lugar de la información del medio.

3.Multimodal

Chip Huyen cree que la multimodalidad es muy importante.

En primer lugar, ámbitos como la atención sanitaria, la robótica, el comercio electrónico, el comercio minorista, los juegos, el entretenimiento, etc. requieren datos multimodales. Por ejemplo, la predicción médica requiere contenido de texto, como notas del médico y cuestionarios de pacientes, así como información de imágenes como tomografías computarizadas, rayos X y resonancias magnéticas.

En segundo lugar, la multimodalidad promete mejorar enormemente el rendimiento del modelo, ya que los modelos que pueden comprender tanto texto como imágenes funcionan mejor que los modelos que solo pueden comprender texto. Sin embargo, los modelos basados en texto exigen tanto texto que la gente está empezando a preocuparse de que pronto nos quedemos sin datos de Internet para entrenar modelos. Una vez agotado el texto, debemos considerar otras modalidades de datos.

Diagrama de arquitectura de flamencos

En cuanto a la multimodalidad, puedes consultar los siguientes contenidos:

Artículo 1 "Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural":
Capítulo 2《Flamingo: un modelo de lenguaje visual para el aprendizaje en pocas oportunidades》：
Capítulo 3《BLIP-2: Entrenamiento previo de imágenes y lenguaje de arranque con codificadores de imágenes congeladas y modelos de lenguaje grandes》：
Artículo 4 "El lenguaje no es todo lo que necesitas: alinear la percepción con los modelos del lenguaje"
Prueba 5 "Ajuste de instrucciones visuales":
Google PaLM-E:
NVIDIA NeVA:

4. Haz LLM más rápido y más barato

GPT-3.5 se lanzó por primera vez a finales de noviembre de 2022 y muchas personas están preocupadas por el alto costo de uso. Sin embargo, en solo medio año, la comunidad ha encontrado un modelo que se acerca al GPT-3.5 en términos de rendimiento, y el consumo de memoria requerido es solo el 2% del GPT-3.5.

Chip Huyen dijo que si creas algo lo suficientemente bueno, la gente pronto encontrará una manera de hacerlo rápido y barato.

La siguiente es una comparación de rendimiento del Guanaco 7B con modelos como ChatGPT y GPT-4. Pero debemos enfatizar que es muy difícil evaluar LLM.

Luego, Chip Huyen enumeró técnicas de optimización y compresión de modelos:

Cuantificación: El método más general para la optimización de modelos hasta la fecha. La cuantificación utiliza menos bits para representar parámetros, lo que reduce el tamaño del modelo. Por ejemplo, alguien cambia un número de punto flotante de 32 bits a una representación de punto flotante de 16 bits, o incluso de 4 bits;
Destilación de conocimientos: un método para entrenar un modelo pequeño (estudiante) para imitar un modelo más grande o un conjunto de modelos (maestro);
Descomposición de bajo rango: la idea clave es reemplazar los tensores de alta dimensión con tensores de baja dimensión para reducir la cantidad de parámetros. Por ejemplo, los usuarios pueden descomponer un tensor de 3x3 en un producto de tensores de 3x1 y 1x3, de modo que solo haya 6 parámetros en lugar de 9;
Poda.

Los cuatro métodos anteriores siguen siendo populares, como entrenar a Alpaca con destilación de conocimientos y QLoRA que combina descomposición y cuantificación de bajo rango.

5. Diseñar una nueva arquitectura de modelo

Desde el lanzamiento de AlexNet en 2012, muchas arquitecturas, incluidas LSTM y seq2seq, se hicieron populares y luego quedaron obsoletas. A diferencia de eso, Transformer es increíblemente pegajoso. Existe desde 2017 y todavía se usa ampliamente hasta ahora. Es difícil estimar cuánto tiempo será popular esta arquitectura.

Sin embargo, no es fácil desarrollar una arquitectura completamente nueva que supere a Transformer. En los últimos 6 años, los investigadores han realizado muchas optimizaciones en Transformer. Además de la arquitectura del modelo, también incluye optimización a nivel de hardware.

El laboratorio dirigido por el informático estadounidense Chris Ré ha realizado muchas investigaciones sobre S4 en 2021. Para obtener más información, consulte el artículo "Modelado eficiente de secuencias largas con espacios de estados estructurados". Además, el laboratorio Chris Ré ha invertido mucho en el desarrollo de nuevas arquitecturas y recientemente se asoció con la startup Together para desarrollar la arquitectura Monarch Mixer.

Su idea clave es que para la arquitectura Transformer existente, la complejidad de la atención es la cuadrática de la longitud de la secuencia, mientras que la complejidad de MLP es la cuadrática de la dimensión del modelo, y la arquitectura con baja complejidad será más eficiente.

6. Desarrollar alternativas de GPU

Las GPU han dominado el aprendizaje profundo desde el lanzamiento de AlexNet en 2012. De hecho, una razón bien reconocida de la popularidad de AlexNet es que fue el primer artículo que entrenó con éxito una red neuronal utilizando GPU. Antes de la aparición de las GPU, si querías entrenar un modelo del tamaño de AlexNet, tenías que usar miles de CPU, y unas pocas GPU podían hacerlo.

Durante la última década, tanto las grandes corporaciones como las nuevas empresas han intentado crear nuevo hardware para la inteligencia artificial. Los más representativos incluyen, entre otros, la TPU de Google, la IPU de Graphcore y la empresa de chips de inteligencia artificial Cerebras. Además, la startup de chips de IA SambaNova recaudó más de mil millones de dólares para desarrollar nuevos chips de IA.

Otra dirección interesante son los chips fotónicos, que utilizan fotones para mover datos, lo que permite una computación más rápida y eficiente. Varias nuevas empresas en este espacio han recaudado cientos de millones de dólares, incluidas Lightmatter ($270 millones), Ayar Labs ($220 millones), Lightelligence ($200 millones+) y Luminous Compute ($115 millones).

La siguiente es una línea de tiempo del progreso de los tres enfoques principales en la computación matricial fotónica, tomada del artículo "La multiplicación de matrices fotónicas ilumina el acelerador fotónico y más allá". Los tres métodos son la conversión de luz plana (PLC), el interferómetro de Mach-Zehnder (MZI) y la multiplexación por división de longitud de onda (WDM).

7. Hacer que los agentes sean más utilizables

Los agentes son LLM que pueden realizar acciones como navegar por Internet, enviar correos electrónicos, reservar una habitación, etc. En comparación con otras direcciones de investigación de este artículo, esta dirección apareció relativamente tarde y es muy nueva para todos.

Es por su novedad y su gran potencial que todo el mundo tiene una loca obsesión por los agentes inteligentes. Auto-GPT es actualmente el proyecto número 25 más popular en GitHub. GPT-Engineering es otro proyecto muy popular.

Si bien esto es esperado y emocionante, sigue siendo dudoso que LLM sea lo suficientemente confiable y eficaz como para tener el derecho de actuar.

Sin embargo, un caso de aplicación que ya ha aparecido es el de aplicar agentes a la investigación social. Hace algún tiempo, Stanford abrió la "ciudad virtual" Smallville. En la ciudad vivían 25 agentes de IA, que tienen trabajos, pueden chismorrear y pueden organizar actividades sociales. actividades, hacer nuevos amigos e incluso organizar una fiesta del Día de San Valentín, cada habitante de la ciudad tiene una personalidad y una historia de fondo únicas.

Para obtener más detalles, consulte los siguientes documentos.

Dirección del papel:

Probablemente la startup más famosa en este espacio sea Adept, fundada por dos coautores de Transformer y un ex vicepresidente de OpenAI, y ha recaudado casi 500 millones de dólares hasta la fecha. El año pasado, hicieron una demostración que mostraba cómo su agente podía navegar por Internet y agregar una nueva cuenta a Salesforce.

, duración 03:30

8. Aprendizaje mejorado a partir de las preferencias humanas

RLHF significa Aprendizaje por refuerzo a partir de preferencias humanas. No sería sorprendente que la gente encontrara otras formas de formar LLM, después de todo, RLHF todavía tiene muchos problemas que resolver. Chip Huyen enumeró los siguientes 3 puntos.

**¿Cómo representar matemáticamente las preferencias humanas? **

Actualmente, las preferencias humanas se determinan por comparación: los anotadores humanos determinan si la respuesta A es mejor que la respuesta B, pero no consideran cuánto mejor es la respuesta A que la respuesta B.

**¿Cuáles son las preferencias humanas? **

Anthropic mide la calidad de respuesta de sus modelos en tres ejes: utilidad, honestidad e inocencia.

Dirección del papel:

DeepMind también intenta generar respuestas que satisfagan a la mayoría. Vea este documento a continuación.

Dirección del papel:

Pero para ser claros, ¿queremos una IA que pueda tomar una postura, o una IA genérica que evite temas potencialmente controvertidos?

**¿De quién son las preferencias de las "personas"? **

Dadas las diferencias culturales, religiosas, etc., existen muchos desafíos para obtener datos de capacitación que representen adecuadamente a todos los usuarios potenciales.

Por ejemplo, en los datos InstructGPT de OpenAI, los etiquetadores son principalmente filipinos y bangladesíes, lo que puede causar alguna desviación debido a diferencias geográficas.

Fuente:

La comunidad de investigadores también está trabajando en esto, pero persiste el sesgo en los datos. Por ejemplo, en la distribución demográfica del conjunto de datos de OpenAssistant, 201 de los 222 encuestados (90,5%) eran hombres.

9. Mejorar la eficiencia de la interfaz de chat

Desde ChatGPT, ha habido muchas discusiones sobre si el chat es adecuado para diversas tareas. Por ejemplo estas discusiones:

El lenguaje natural es una interfaz de usuario perezosa
Por qué los chatbots no son el futuro:
¿Qué tipo de preguntas requieren diálogo para responder?
La interfaz de chat AI puede convertirse en la interfaz de usuario principal para leer la documentación:
Interactuar con LLM con un chat mínimo:

Sin embargo, estas discusiones no son nuevas. Muchos países, especialmente en Asia, han utilizado el chat como interfaz para súper aplicaciones durante aproximadamente una década.

*Chat como interfaz común para aplicaciones chinas

En 2016, cuando muchos pensaban que las aplicaciones estaban muertas y que los chatbots eran el futuro, la discusión volvió a ponerse tensa:

Acerca de la interfaz de chat:
¿Es la tendencia de los chatbots un gran error?
Los bots no reemplazarán las aplicaciones, las mejores aplicaciones:

Chip Huyen dijo que le gusta mucho la interfaz de chat por las siguientes razones:

El chat es una interfaz que todos pueden aprender a utilizar rápidamente, incluso aquellos que nunca antes han tenido acceso a una computadora o a Internet.
No hay ningún obstáculo en la interfaz de chat, incluso cuando tengas prisa, puedes usar voz en lugar de texto.
El chat también es una interfaz muy poderosa, puedes hacerle cualquier solicitud, incluso si la respuesta no es buena, te responderá.

Sin embargo, Chip Huyen cree que la interfaz de chat deja margen de mejora en algunas áreas. Tiene las siguientes sugerencias

Varios mensajes por ronda

Actualmente, se cree que sólo se puede enviar un mensaje por ronda. Pero no es así como la gente envía mensajes de texto en la vida real. Por lo general, se requieren múltiples piezas de información para completar la idea de un individuo, porque es necesario insertar diferentes datos (como imágenes, ubicaciones, enlaces) en el proceso, y es posible que el usuario se haya perdido algo en la información anterior, o simplemente no lo haga. quieres incluir todo Escríbelo en un párrafo largo.

Entrada multimodal

En el ámbito de las aplicaciones multimodales, la mayor parte del esfuerzo se dedica a construir mejores modelos y poco a construir mejores interfaces. En el caso del chatbot NeVA de Nvidia, puede haber margen para mejorar la experiencia del usuario.

DIRECCIÓN:

Incorporar IA generativa en los flujos de trabajo

Linus Lee lo expresa bien en su charla "Interfaces generadas por IA más allá del chat". Por ejemplo, si desea hacer una pregunta sobre una columna de un gráfico en el que está trabajando, debería poder señalar esa columna y preguntar.

Dirección del vídeo:

Editar y eliminar información

Vale la pena pensar en cómo editar o eliminar la entrada del usuario puede cambiar el flujo de una conversación con un chatbot.

10. Creación de un LLM para idiomas distintos del inglés

Los LLM actuales para inglés como primer idioma no se adaptan bien a otros idiomas en términos de rendimiento, latencia y velocidad. El contenido relacionado puede leer los siguientes artículos:

Dirección del papel:

Dirección del artículo:

Chip Huyen dijo que varios de los primeros lectores de este artículo le dijeron que pensaban que esta dirección no debería incluirse por dos razones.

Esta no es tanto una cuestión de investigación sino más bien de logística. Ya sabemos cómo hacerlo, sólo hace falta que alguien invierta dinero y energía, lo cual no es del todo cierto. La mayoría de los idiomas se consideran idiomas de bajos recursos, por ejemplo, tienen datos de mucha menos calidad que el inglés o el chino y, por lo tanto, pueden requerir diferentes técnicas para entrenar modelos de idiomas grandes. Vea los siguientes artículos:

Dirección del papel:

Las personas pesimistas piensan que muchos idiomas desaparecerán en el futuro y que la Internet del futuro constará de dos idiomas: inglés y chino.

No está claro el impacto de las herramientas de inteligencia artificial, como la traducción automática y los chatbots, en el aprendizaje de idiomas. Se desconoce si ayudan a las personas a aprender nuevos idiomas más rápido o eliminan por completo la necesidad de aprender nuevos idiomas.

Resumir

Los problemas mencionados en este documento también tienen diferentes niveles de dificultad, como el último problema, si puede encontrar suficientes recursos y tiempo, es posible construir un LLM para idiomas distintos del inglés.

Uno de los primeros problemas es reducir las alucinaciones, lo cual será mucho más difícil, porque las alucinaciones son simplemente LLM haciendo cosas probabilísticas.

El cuarto problema es hacer que el LLM sea más rápido y más barato, y esto no se resolverá por completo. Se han logrado algunos avances en esta área y habrá más avances en el futuro, pero nunca mejoraremos a la perfección.

Los temas quinto y sexto son las nuevas arquitecturas y el nuevo hardware, lo cual es muy desafiante, pero inevitable con el tiempo. Debido a la relación simbiótica entre arquitectura y hardware, donde las nuevas arquitecturas deben optimizarse para hardware de uso general y las necesidades de hardware para soportar arquitecturas de propósito general, este problema podría ser resuelto por la misma empresa.

También hay problemas que no se pueden resolver únicamente con conocimientos técnicos. Por ejemplo, el octavo problema de mejorar los métodos para aprender de las preferencias humanas puede ser más una cuestión de política que técnica. Hablando de la novena pregunta, mejorar la eficiencia de la interfaz, esto se parece más a un problema de experiencia del usuario y se necesitan más personas sin experiencia técnica para resolver este problema juntos.

Si desea analizar estos problemas desde otros ángulos, Chip Huyen recomienda leer el siguiente artículo.

Dirección del papel:

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
207k publicaciones
#PI#
152k publicaciones
#ETH#
131k publicaciones
4#GateioInto11#
78k publicaciones
5#ContentStar#
65k publicaciones
6#BOME#
60k publicaciones
7#GT#
59k publicaciones
8#DOGE#
55k publicaciones
9#MAGA#
52k publicaciones
10#SLERF#
51k publicaciones

Anclado