OpenAI abandonne SWE-bench Verified après avoir constaté que 59 % des tests échoués étaient défectueux. OpenAI révèle d'importants problèmes de contamination dans le benchmark SWE-bench Verified, montrant que les modèles d'IA de pointe ont mémorisé des solutions et que les tests ont rejeté du code correct. 🧪
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
OpenAI abandonne SWE-bench Verified après avoir constaté que 59 % des tests échoués étaient défectueux. OpenAI révèle d'importants problèmes de contamination dans le benchmark SWE-bench Verified, montrant que les modèles d'IA de pointe ont mémorisé des solutions et que les tests ont rejeté du code correct. 🧪