AIRS-Bench: agentes de pesquisa em IA superam humanos em apenas 4 de 20 tarefas de ML

Pesquisadores da Meta lançaram AIRS-Bench, suíte de 20 tarefas de papers recentes de ML cobrindo modelagem de linguagem, bioinformática, matemática e previsão de séries temporais. O benchmark testa o ciclo completo de pesquisa -- geração de ideias, análise de experimentos e refinamento iterativo -- sem fornecer código base. Agentes superaram o estado da arte humano em apenas 4 tarefas enquanto falharam em 16 outras. O score normalizado médio foi 23,4%, e apenas 1,55% das combinações agente-tarefa superaram SOTA.

Ver resumo completo de 17 de fevereiro de 2026