Une étude récente a révélé que ChatGPT Health, l’outil de guidance alimenté par l’IA utilisé par environ 40 millions de personnes chaque jour, n’a pas dirigé les utilisateurs vers les soins d’urgence dans plus de la moitié des scénarios médicaux graves évalués par des médecins.
Les chercheurs ont conçu 60 cas cliniques structurés couvrant 21 spécialités médicales, allant de petits maux traitables à domicile à des urgences mettant la vie en danger. Trois médecins indépendants ont déterminé le niveau d’urgence approprié pour chaque cas en se basant sur les directives de 56 sociétés médicales.
Chaque scénario a été testé dans 16 variations contextuelles différentes, ce qui a donné lieu à 960 interactions avec ChatGPT Health. L’étude, publiée lundi dans Nature Medicine, a révélé plusieurs tendances préoccupantes.
Alors que l’outil fonctionnait raisonnablement bien dans les urgences évidentes, il sous-estimait la gravité dans plus de la moitié des cas où les médecins avaient identifié un besoin urgent de soins. Les chercheurs de l’Icahn School of Medicine à Mount Sinai ont noté une tendance particulièrement inquiétante : ChatGPT Health reconnaissait souvent des symptômes dangereux dans ses explications, mais rassurait l’utilisateur au lieu de recommander une attention médicale immédiate.
L’étude a également mis en évidence d’importantes lacunes dans les mesures de sécurité de l’outil concernant la crise suicidaire. Bien que le système soit programmé pour orienter les utilisateurs à haut risque vers la ligne d’assistance Suicide and Crisis Lifeline, les alertes étaient incohérentes — parfois déclenchées dans des situations à faible risque et ne s’affichant pas lorsque les utilisateurs décrivaient des plans précis d’automutilation.
« Bien que nous attendions une certaine variabilité, ce que nous avons observé dépassait l’incohérence », a déclaré le coauteur principal de l’étude, Girish N. Nadkarni.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Une étude montre que ChatGPT Health manque souvent des conseils d'urgence critiques
Une étude récente a révélé que ChatGPT Health, l’outil de guidance alimenté par l’IA utilisé par environ 40 millions de personnes chaque jour, n’a pas dirigé les utilisateurs vers les soins d’urgence dans plus de la moitié des scénarios médicaux graves évalués par des médecins.
Les chercheurs ont conçu 60 cas cliniques structurés couvrant 21 spécialités médicales, allant de petits maux traitables à domicile à des urgences mettant la vie en danger. Trois médecins indépendants ont déterminé le niveau d’urgence approprié pour chaque cas en se basant sur les directives de 56 sociétés médicales.
Chaque scénario a été testé dans 16 variations contextuelles différentes, ce qui a donné lieu à 960 interactions avec ChatGPT Health. L’étude, publiée lundi dans Nature Medicine, a révélé plusieurs tendances préoccupantes.
Alors que l’outil fonctionnait raisonnablement bien dans les urgences évidentes, il sous-estimait la gravité dans plus de la moitié des cas où les médecins avaient identifié un besoin urgent de soins. Les chercheurs de l’Icahn School of Medicine à Mount Sinai ont noté une tendance particulièrement inquiétante : ChatGPT Health reconnaissait souvent des symptômes dangereux dans ses explications, mais rassurait l’utilisateur au lieu de recommander une attention médicale immédiate.
L’étude a également mis en évidence d’importantes lacunes dans les mesures de sécurité de l’outil concernant la crise suicidaire. Bien que le système soit programmé pour orienter les utilisateurs à haut risque vers la ligne d’assistance Suicide and Crisis Lifeline, les alertes étaient incohérentes — parfois déclenchées dans des situations à faible risque et ne s’affichant pas lorsque les utilisateurs décrivaient des plans précis d’automutilation.
« Bien que nous attendions une certaine variabilité, ce que nous avons observé dépassait l’incohérence », a déclaré le coauteur principal de l’étude, Girish N. Nadkarni.