Los grandes modelos de lenguaje (LLM) están cambiando la forma en que se desarrolla el software, y si la IA ahora puede reemplazar a los programadores humanos a gran escala se ha convertido en un tema de gran preocupación en la industria.
En solo dos años, el modelo de IA ha pasado de resolver problemas básicos de informática a competir con maestros humanos en concursos internacionales de programación, como OpenAI o1, que participó en la Olimpiada Internacional de Informática (IOI) de 2024 en las mismas condiciones que los participantes humanos y ganó con éxito la medalla de oro, mostrando un fuerte potencial de programación.
Al mismo tiempo, la tasa de iteración de AI también se está acelerando. En el punto de referencia de evaluación de generación de código SWE-Bench Verificado, la puntuación de GPT-4o en agosto de 2024 fue del 33%, pero la puntuación del nuevo modelo o3 de próxima generación se ha duplicado a un 72%.
Para medir mejor la capacidad de ingeniería de software de los modelos de IA en el mundo real, hoy OpenAI ha lanzado un nuevo punto de referencia de evaluación, SWE-Lancer, que por primera vez vincula el rendimiento del modelo con el valor monetario.
SWE-Lancer es un punto de referencia de más de 1.400 tareas de ingeniería de software independientes de la plataforma Upwork, con un valor total de compensación en el mundo real de aproximadamente $ 1 millón.
El 'característica' de la nueva referencia
El precio base de la tarea SWE-Lancer refleja la verdadera situación del valor de mercado, cuanto más difícil sea la tarea, mayor será la recompensa.
Incluye tareas de ingeniería independientes y tareas de gestión, y se puede seleccionar entre diferentes soluciones técnicas. Este criterio no solo se aplica a los programadores, sino también a todo el equipo de desarrollo, incluidos arquitectos y gerentes.
Comparado con el benchmarking de pruebas de ingeniería de software anterior, SWE-Lancer tiene varias ventajas, como:
Las 1.488 asignaciones representan la verdadera remuneración pagada por los empleadores a los ingenieros independientes, lo que proporciona un gradiente de dificultad natural, determinado por el mercado, que oscila entre $ 250 y $ 32,000, lo cual es bastante sustancial.
El 35% de las tareas tienen un valor superior a 1000 dólares, mientras que el 34% de las tareas tienen un valor entre 500 y 1000 dólares. La categoría de tareas de Ingeniería de Software (IC) incluye 764 tareas con un valor total de 41,4775 millones de dólares; la categoría de tareas de Gestión de Ingeniería de Software (SWE) incluye 724 tareas con un valor total de 58,5225 millones de dólares.
La ingeniería de software a gran escala en el mundo real no solo requiere que se desarrolle un código específico, sino que también debe tener la capacidad de administrar la tecnología en su conjunto, y el punto de referencia utiliza el modelo de evaluación de datos del mundo real para actuar como el papel de "director técnico" de SWE.
Tener la capacidad avanzada de evaluación de ingeniería de pila completa. SWE-Lancer representa la ingeniería de software del mundo real, ya que sus tareas provienen de plataformas con millones de usuarios reales.
Las tareas implican el desarrollo de ingeniería en móviles y en la web, la interacción con API, navegadores y aplicaciones externas, y la validación y reproducción de problemas complejos.
Por ejemplo, hay tareas que cuestan $250 para mejorar la confiabilidad (corregir llamadas API de doble activación), $1,000 para corregir errores (para corregir discrepancias de permisos) y $16,000 para implementar nuevas funciones (agregar soporte de reproducción de video en la aplicación en la web, iOS, Android y escritorio, etc.).
4、Diversidad de campos. El 74% de las tareas de IC SWE y el 76% de las tareas de gestión de SWE implican lógica de aplicación, mientras que el 17% de las tareas de IC SWE y el 18% de las tareas de gestión de SWE implican desarrollo de UI/UX.
En cuanto a la dificultad de las tareas, las tareas seleccionadas por SWE-Lancer son muy desafiantes, ya que en promedio se necesitan 26 días para resolver las tareas en el conjunto de datos de código abierto en Github.
Además, OpenAI dijo que no había sesgo en la recopilación de datos, que seleccionaron una muestra representativa de tareas de Upwork y contrataron a 100 ingenieros de software profesionales para escribir y validar pruebas de extremo a extremo para todas las tareas.
AI capacidad de ganar dinero PK
Aunque muchos peces gordos de la tecnología siguen afirmando que los modelos de IA pueden sustituir a los ingenieros de "bajo nivel", todavía hay un gran signo de interrogación sobre si las empresas pueden sustituir por completo a los ingenieros de software humanos por LLM.
Los resultados de las primeras pruebas muestran que, en el conjunto de datos completo de SWE-Lancer, los modelos de los jugadores de IA de élite probados actualmente tienen ganancias mucho menores que el potencial rendimiento total de 1,000,000 dólares.
En general, todos los modelos superan a las tareas de IC SWE en las tareas de gestión de SWE, mientras que las tareas de IC SWE aún no son superadas por completo por los modelos de IA, y el mejor modelo que se está probando es Claude 3.5 Sonnet desarrollado por el competidor de OpenAI, Anthropic.
En la tarea de IC SWE, todas las tasas de aprobación y rendimiento de los modelos son inferiores al 30%, mientras que en la tarea de gestión de SWE, el modelo Claude 3.5 Sonnet obtiene la mejor puntuación con un 45%.
Claude 3.5 Sonnet mostró un sólido rendimiento tanto en las tareas de gestión de IC SWE como en las de SWE, superando al segundo modelo de mejor rendimiento o1 en un 9,7 % en las tareas de IC SWE y en un 3,4 % en las tareas de gestión de SWE.
Si se convierte en rendimiento, el mejor rendimiento lo muestra Claude 3.5 Sonnet, con ingresos totales superiores a 400,000 dólares en el conjunto de datos completo.
Un punto a tener en cuenta es que una mayor cantidad de cálculos de razonamiento será de gran ayuda para 'AI ganar dinero'.
En la tarea IC SWE, los investigadores realizaron experimentos en el modelo O1 con herramientas de inferencia profunda habilitadas que mostraron que un mayor cálculo de inferencia podría aumentar la tasa de un solo paso del 9,3% al 16,5%, y el rendimiento de $ 16,000 a $ 29,000, y el rendimiento del 6.8% al 12.1%.
Los investigadores concluyeron que, aunque el mejor modelo, Claude 3.5 Sonnet, resolvió el 26,2% de los problemas de IC SWE, la mayoría de las soluciones restantes todavía tienen errores, y todavía hay mucho trabajo por hacer para lograr una implementación confiable. A esto le sigue o1 y luego GPT-4o, y la tasa de aprobación única para las tareas administrativas suele ser más del doble de la tasa de aprobación única para las tareas de IC SWE.
Esto significa que, aunque la idea de que los agentes de IA reemplacen a los ingenieros de software humanos ha sido muy publicitada, las empresas deben pensar dos veces antes de actuar. Los modelos de IA pueden resolver algunos problemas de codificación 'básicos', pero aún no pueden reemplazar a los ingenieros de software 'básicos', ya que no pueden entender las razones de algunos errores de código y siguen cometiendo más errores derivados.
El marco de evaluación actual aún no admite insumos multimodales, y los investigadores aún no han evaluado el "retorno de la inversión", como el pago pagado a un profesional independiente en comparación con el costo de usar una API al completar una tarea, que sería el enfoque del próximo refinamiento del punto de referencia.
Ser un programador "mejorado por IA"
Por lo que se ve en este momento, la IA aún tiene un largo camino por recorrer para reemplazar verdaderamente a los programadores humanos, después de todo, desarrollar un proyecto de ingeniería de software no es tan simple como solo generar código según los requisitos.
Por ejemplo, los programadores a menudo se enfrentan a problemas de requisitos de clientes extremadamente complejos, abstractos y ambiguos, que requieren una comprensión profunda de varios principios tecnológicos, lógica comercial y arquitectura del sistema. Al optimizar la arquitectura de software compleja, los programadores humanos pueden considerar de manera integral factores como la escalabilidad, la mantenibilidad y el rendimiento del sistema en el futuro, mientras que la IA puede tener dificultades para realizar un análisis y juicio exhaustivos.
Además, la programación no solo implica implementar lógica existente, sino que también requiere una gran cantidad de creatividad y pensamiento innovador. Los programadores necesitan concebir nuevos algoritmos, diseñar interfaces de software únicas, entre otros, estas ideas y soluciones verdaderamente innovadoras son el punto débil de la inteligencia artificial.
Los programadores a menudo necesitan comunicarse y colaborar con otros miembros del equipo, clientes y otras partes interesadas, comprender las necesidades y la viabilidad de todas las partes, expresar claramente sus puntos de vista y trabajar en colaboración con otros para completar proyectos. Además, los programadores humanos tienen la capacidad de aprender continuamente y adaptarse a los nuevos cambios. Pueden adquirir rápidamente nuevos conocimientos y habilidades, y aplicarlos a proyectos prácticos. Por otro lado, un modelo de IA exitoso requiere varios tipos de entrenamiento y pruebas.
La industria del desarrollo de software también está sujeta a diversas restricciones legales y regulatorias, como la propiedad intelectual, la protección de datos y las licencias de software. La inteligencia artificial puede tener dificultades para comprender y cumplir plenamente con estos requisitos legales y regulaciones, lo que podría acarrear riesgos legales o disputas de responsabilidad.
A largo plazo, la sustitución de puestos de programador debido al avance de la tecnología de IA sigue existiendo, pero a corto plazo, el "programador potenciado por IA" es el principal, y dominar el uso de las últimas herramientas de IA es una de las habilidades clave de un programador excelente.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
¿Puedes ganar 400.000 dólares dejando que la programación de IA haga el trabajo?
Autor: Tan Zixin, tecnología de cabeza
Fuente de la imagen: Generado por AI sin límites
Los grandes modelos de lenguaje (LLM) están cambiando la forma en que se desarrolla el software, y si la IA ahora puede reemplazar a los programadores humanos a gran escala se ha convertido en un tema de gran preocupación en la industria.
En solo dos años, el modelo de IA ha pasado de resolver problemas básicos de informática a competir con maestros humanos en concursos internacionales de programación, como OpenAI o1, que participó en la Olimpiada Internacional de Informática (IOI) de 2024 en las mismas condiciones que los participantes humanos y ganó con éxito la medalla de oro, mostrando un fuerte potencial de programación.
Al mismo tiempo, la tasa de iteración de AI también se está acelerando. En el punto de referencia de evaluación de generación de código SWE-Bench Verificado, la puntuación de GPT-4o en agosto de 2024 fue del 33%, pero la puntuación del nuevo modelo o3 de próxima generación se ha duplicado a un 72%.
Para medir mejor la capacidad de ingeniería de software de los modelos de IA en el mundo real, hoy OpenAI ha lanzado un nuevo punto de referencia de evaluación, SWE-Lancer, que por primera vez vincula el rendimiento del modelo con el valor monetario.
SWE-Lancer es un punto de referencia de más de 1.400 tareas de ingeniería de software independientes de la plataforma Upwork, con un valor total de compensación en el mundo real de aproximadamente $ 1 millón.
El 'característica' de la nueva referencia
El precio base de la tarea SWE-Lancer refleja la verdadera situación del valor de mercado, cuanto más difícil sea la tarea, mayor será la recompensa.
Incluye tareas de ingeniería independientes y tareas de gestión, y se puede seleccionar entre diferentes soluciones técnicas. Este criterio no solo se aplica a los programadores, sino también a todo el equipo de desarrollo, incluidos arquitectos y gerentes.
Comparado con el benchmarking de pruebas de ingeniería de software anterior, SWE-Lancer tiene varias ventajas, como:
El 35% de las tareas tienen un valor superior a 1000 dólares, mientras que el 34% de las tareas tienen un valor entre 500 y 1000 dólares. La categoría de tareas de Ingeniería de Software (IC) incluye 764 tareas con un valor total de 41,4775 millones de dólares; la categoría de tareas de Gestión de Ingeniería de Software (SWE) incluye 724 tareas con un valor total de 58,5225 millones de dólares.
La ingeniería de software a gran escala en el mundo real no solo requiere que se desarrolle un código específico, sino que también debe tener la capacidad de administrar la tecnología en su conjunto, y el punto de referencia utiliza el modelo de evaluación de datos del mundo real para actuar como el papel de "director técnico" de SWE.
Tener la capacidad avanzada de evaluación de ingeniería de pila completa. SWE-Lancer representa la ingeniería de software del mundo real, ya que sus tareas provienen de plataformas con millones de usuarios reales.
Las tareas implican el desarrollo de ingeniería en móviles y en la web, la interacción con API, navegadores y aplicaciones externas, y la validación y reproducción de problemas complejos.
Por ejemplo, hay tareas que cuestan $250 para mejorar la confiabilidad (corregir llamadas API de doble activación), $1,000 para corregir errores (para corregir discrepancias de permisos) y $16,000 para implementar nuevas funciones (agregar soporte de reproducción de video en la aplicación en la web, iOS, Android y escritorio, etc.).
4、Diversidad de campos. El 74% de las tareas de IC SWE y el 76% de las tareas de gestión de SWE implican lógica de aplicación, mientras que el 17% de las tareas de IC SWE y el 18% de las tareas de gestión de SWE implican desarrollo de UI/UX.
En cuanto a la dificultad de las tareas, las tareas seleccionadas por SWE-Lancer son muy desafiantes, ya que en promedio se necesitan 26 días para resolver las tareas en el conjunto de datos de código abierto en Github.
Además, OpenAI dijo que no había sesgo en la recopilación de datos, que seleccionaron una muestra representativa de tareas de Upwork y contrataron a 100 ingenieros de software profesionales para escribir y validar pruebas de extremo a extremo para todas las tareas.
AI capacidad de ganar dinero PK
Aunque muchos peces gordos de la tecnología siguen afirmando que los modelos de IA pueden sustituir a los ingenieros de "bajo nivel", todavía hay un gran signo de interrogación sobre si las empresas pueden sustituir por completo a los ingenieros de software humanos por LLM.
Los resultados de las primeras pruebas muestran que, en el conjunto de datos completo de SWE-Lancer, los modelos de los jugadores de IA de élite probados actualmente tienen ganancias mucho menores que el potencial rendimiento total de 1,000,000 dólares.
En general, todos los modelos superan a las tareas de IC SWE en las tareas de gestión de SWE, mientras que las tareas de IC SWE aún no son superadas por completo por los modelos de IA, y el mejor modelo que se está probando es Claude 3.5 Sonnet desarrollado por el competidor de OpenAI, Anthropic.
En la tarea de IC SWE, todas las tasas de aprobación y rendimiento de los modelos son inferiores al 30%, mientras que en la tarea de gestión de SWE, el modelo Claude 3.5 Sonnet obtiene la mejor puntuación con un 45%.
Claude 3.5 Sonnet mostró un sólido rendimiento tanto en las tareas de gestión de IC SWE como en las de SWE, superando al segundo modelo de mejor rendimiento o1 en un 9,7 % en las tareas de IC SWE y en un 3,4 % en las tareas de gestión de SWE.
Si se convierte en rendimiento, el mejor rendimiento lo muestra Claude 3.5 Sonnet, con ingresos totales superiores a 400,000 dólares en el conjunto de datos completo.
Un punto a tener en cuenta es que una mayor cantidad de cálculos de razonamiento será de gran ayuda para 'AI ganar dinero'.
En la tarea IC SWE, los investigadores realizaron experimentos en el modelo O1 con herramientas de inferencia profunda habilitadas que mostraron que un mayor cálculo de inferencia podría aumentar la tasa de un solo paso del 9,3% al 16,5%, y el rendimiento de $ 16,000 a $ 29,000, y el rendimiento del 6.8% al 12.1%.
Los investigadores concluyeron que, aunque el mejor modelo, Claude 3.5 Sonnet, resolvió el 26,2% de los problemas de IC SWE, la mayoría de las soluciones restantes todavía tienen errores, y todavía hay mucho trabajo por hacer para lograr una implementación confiable. A esto le sigue o1 y luego GPT-4o, y la tasa de aprobación única para las tareas administrativas suele ser más del doble de la tasa de aprobación única para las tareas de IC SWE.
Esto significa que, aunque la idea de que los agentes de IA reemplacen a los ingenieros de software humanos ha sido muy publicitada, las empresas deben pensar dos veces antes de actuar. Los modelos de IA pueden resolver algunos problemas de codificación 'básicos', pero aún no pueden reemplazar a los ingenieros de software 'básicos', ya que no pueden entender las razones de algunos errores de código y siguen cometiendo más errores derivados.
El marco de evaluación actual aún no admite insumos multimodales, y los investigadores aún no han evaluado el "retorno de la inversión", como el pago pagado a un profesional independiente en comparación con el costo de usar una API al completar una tarea, que sería el enfoque del próximo refinamiento del punto de referencia.
Ser un programador "mejorado por IA"
Por lo que se ve en este momento, la IA aún tiene un largo camino por recorrer para reemplazar verdaderamente a los programadores humanos, después de todo, desarrollar un proyecto de ingeniería de software no es tan simple como solo generar código según los requisitos.
Por ejemplo, los programadores a menudo se enfrentan a problemas de requisitos de clientes extremadamente complejos, abstractos y ambiguos, que requieren una comprensión profunda de varios principios tecnológicos, lógica comercial y arquitectura del sistema. Al optimizar la arquitectura de software compleja, los programadores humanos pueden considerar de manera integral factores como la escalabilidad, la mantenibilidad y el rendimiento del sistema en el futuro, mientras que la IA puede tener dificultades para realizar un análisis y juicio exhaustivos.
Además, la programación no solo implica implementar lógica existente, sino que también requiere una gran cantidad de creatividad y pensamiento innovador. Los programadores necesitan concebir nuevos algoritmos, diseñar interfaces de software únicas, entre otros, estas ideas y soluciones verdaderamente innovadoras son el punto débil de la inteligencia artificial.
Los programadores a menudo necesitan comunicarse y colaborar con otros miembros del equipo, clientes y otras partes interesadas, comprender las necesidades y la viabilidad de todas las partes, expresar claramente sus puntos de vista y trabajar en colaboración con otros para completar proyectos. Además, los programadores humanos tienen la capacidad de aprender continuamente y adaptarse a los nuevos cambios. Pueden adquirir rápidamente nuevos conocimientos y habilidades, y aplicarlos a proyectos prácticos. Por otro lado, un modelo de IA exitoso requiere varios tipos de entrenamiento y pruebas.
La industria del desarrollo de software también está sujeta a diversas restricciones legales y regulatorias, como la propiedad intelectual, la protección de datos y las licencias de software. La inteligencia artificial puede tener dificultades para comprender y cumplir plenamente con estos requisitos legales y regulaciones, lo que podría acarrear riesgos legales o disputas de responsabilidad.
A largo plazo, la sustitución de puestos de programador debido al avance de la tecnología de IA sigue existiendo, pero a corto plazo, el "programador potenciado por IA" es el principal, y dominar el uso de las últimas herramientas de IA es una de las habilidades clave de un programador excelente.