OpenAI declara que benchmark de código SWE-bench Verified está contaminado e deve ser aposentado

A OpenAI declarou que o benchmark de programação SWE-bench Verified perdeu utilidade, apontando que ao menos 59,4% das tarefas têm falhas e rejeitam soluções corretas. Muitas tarefas e soluções também vazaram para dados de treino do GPT-5.2, Claude Opus 4.5 e Gemini 3 Flash Preview, fazendo com que os resultados reflitam memorização em vez de capacidade real de codificação. A OpenAI recomenda o SWE-bench Pro como substituto e está construindo testes próprios não públicos. O anúncio tem um ângulo estratégico: um benchmark contaminado pode fazer rivais open source parecerem artificialmente competitivos, especialmente antes do esperado lançamento do V4 da DeepSeek.

Ver resumo completo de 24 de fevereiro de 2026