Todos los benchmarks de codificación con IA tienen un problema en común: miden qué tan bien un agente resuelve un bug aislado, una sola vez, en un repositorio congelado. Pero el desarrollo de software real no funciona así. Los proyectos evolucionan durante meses, acumulan deuda técnica, cambian de requisitos y requieren decenas de iteraciones antes de que una feature quede lista. SWE-CI, presentado esta semana en arXiv por investigadores de la Universidad Jiaotong de Shanghai, es el primer benchmark diseñado para capturar exactamente esa realidad.

El benchmark propone evaluar a los agentes de IA no sobre su capacidad de reparación estática de bugs ('static one-shot repair'), sino sobre su capacidad de mantener la calidad del código a lo largo del tiempo, usando el Continuous Integration (CI) como árbitro objetivo de éxito o fracaso.

SWE-CI comprende 100 tareas, cada una correspondiente a una historia de evolución real de un repositorio de código open source. En promedio, cada tarea abarca 233 días y 71 commits consecutivos de un proyecto real. Los agentes deben resolver estos problemas a través de docenas de rondas de análisis e iteraciones de código — exactamente como haría un desarrollador senior manteniendo un proyecto activo.

La métrica central es la 'mantenibilidad dinámica a largo plazo', en contraste con la 'corrección funcional estática' que miden SWE-bench y sus derivados. El loop de CI actúa como juez imparcial: si el código del agente pasa los tests y no rompe la integración continua del proyecto real, el agente tuvo éxito.

Los resultados preliminares revelan brechas importantes: los mejores modelos actuales, incluyendo Claude 3.7 Sonnet y GPT-4o, tienen un desempeño significativamente peor en tareas de mantenimiento a largo plazo que en corrección de bugs puntuales. Para los equipos de Latinoamérica que están evaluando si adoptar agentes de codificación en sus flujos de desarrollo, SWE-CI ofrece por primera vez un marco para hacer esa evaluación de forma más realista.