Un estudio reciente ha encontrado que ChatGPT Health, la herramienta de orientación impulsada por IA utilizada por aproximadamente 40 millones de personas diariamente, no dirigió a los usuarios a atención de emergencia en más de la mitad de los escenarios médicos graves evaluados por médicos.
Los investigadores diseñaron 60 casos clínicos estructurados que cubrían 21 especialidades médicas, desde dolencias menores aptas para atención en casa hasta emergencias que amenazan la vida. Tres médicos independientes determinaron el nivel de urgencia adecuado para cada caso según las directrices de 56 sociedades médicas.
Cada escenario fue probado en 16 variaciones contextuales diferentes, resultando en 960 interacciones con ChatGPT Health. El estudio, publicado el lunes en Nature Medicine, reveló varios patrones preocupantes.
Aunque la herramienta funcionó razonablemente bien en emergencias evidentes, subestimó la gravedad en más de la mitad de los casos que los médicos identificaron como urgentes. Los investigadores de la Escuela de Medicina Icahn en Mount Sinai señalaron una tendencia particularmente inquietante: ChatGPT Health a menudo reconocía síntomas peligrosos en sus explicaciones, pero aún así tranquilizaba al usuario en lugar de recomendar atención médica inmediata.
El estudio también detectó importantes deficiencias en las salvaguardas contra crisis suicidas de la herramienta. Aunque el sistema está programado para remitir a los usuarios de alto riesgo a la Línea de Vida contra el Suicidio y Crisis, las alertas fueron inconsistentes—a veces activándose en situaciones de bajo riesgo y fallando en aparecer cuando los usuarios describían planes específicos de autolesión.
“Si bien esperábamos cierta variabilidad, lo que observamos fue más allá de la simple inconsistencia”, dijo Girish N. Nadkarni, autor principal del estudio.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Estudio muestra que la salud de ChatGPT a menudo omite instrucciones críticas de emergencia
Un estudio reciente ha encontrado que ChatGPT Health, la herramienta de orientación impulsada por IA utilizada por aproximadamente 40 millones de personas diariamente, no dirigió a los usuarios a atención de emergencia en más de la mitad de los escenarios médicos graves evaluados por médicos.
Los investigadores diseñaron 60 casos clínicos estructurados que cubrían 21 especialidades médicas, desde dolencias menores aptas para atención en casa hasta emergencias que amenazan la vida. Tres médicos independientes determinaron el nivel de urgencia adecuado para cada caso según las directrices de 56 sociedades médicas.
Cada escenario fue probado en 16 variaciones contextuales diferentes, resultando en 960 interacciones con ChatGPT Health. El estudio, publicado el lunes en Nature Medicine, reveló varios patrones preocupantes.
Aunque la herramienta funcionó razonablemente bien en emergencias evidentes, subestimó la gravedad en más de la mitad de los casos que los médicos identificaron como urgentes. Los investigadores de la Escuela de Medicina Icahn en Mount Sinai señalaron una tendencia particularmente inquietante: ChatGPT Health a menudo reconocía síntomas peligrosos en sus explicaciones, pero aún así tranquilizaba al usuario en lugar de recomendar atención médica inmediata.
El estudio también detectó importantes deficiencias en las salvaguardas contra crisis suicidas de la herramienta. Aunque el sistema está programado para remitir a los usuarios de alto riesgo a la Línea de Vida contra el Suicidio y Crisis, las alertas fueron inconsistentes—a veces activándose en situaciones de bajo riesgo y fallando en aparecer cuando los usuarios describían planes específicos de autolesión.
“Si bien esperábamos cierta variabilidad, lo que observamos fue más allá de la simple inconsistencia”, dijo Girish N. Nadkarni, autor principal del estudio.