Recientemente vimos un exploit de $1.78M causado por una vulnerabilidad escrita por Claude Opus 4.6.


cbETH se valoraba en $1 en lugar de $2,000.
No mucho después, @OpenAI lanzó EVMbench. Para ponerlo simple, es un benchmark que evalúa la capacidad de los agentes de IA para interactuar con contratos inteligentes.

Tiene 3 modos principales de evaluación:
> Detectar: analiza la capacidad del agente para detectar vulnerabilidades
> Corregir: analiza la capacidad del agente para solucionar esas vulnerabilidades
> Explotar: analiza la capacidad del agente para explotar esas vulnerabilidades
Su análisis mostró que los modelos recientes (Opus 4.6, GPT-5.3-Codex, etc.) son muy buenos explotando vulnerabilidades, pero débiles en detectarlas y corregirlas.
Y eso es exactamente lo que he observado al ejecutar mis propios agentes en los modelos más recientes. En mi equipo de agentes, siempre incluyo un agente auditor que obtiene todo el contexto, con el objetivo principal de encontrar vulnerabilidades.
Cuando encuentra una, el agente de desarrollo la corrige fácilmente.
Pero el problema es que de 10 vulnerabilidades, quizás solo encuentre 3. Por ahora, simplemente no podemos confiar en los agentes para detectar vulnerabilidades correctamente.
Lanzar este benchmark es un movimiento muy fuerte. Estoy emocionado de probarlo con mis agentes.
Para ser claro, esto no es un escáner de seguridad ni una herramienta de auditoría lista para producción. Principalmente está destinado a medir las capacidades de IA, comparar modelos y proporcionar métricas sobre cómo progresa la IA en este campo.
Básicamente, es una herramienta que permite evaluar y mejorar la IA en este dominio, y la verdad, realmente lo necesitamos.
Ver originales
post-image
post-image
post-image
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)