Novo benchmark DISBench: melhor modelo de IA acerta só 29% das buscas contextuais de fotos

Pesquisadores da Universidade Renmin da China e do Oppo Research Institute criaram o DISBench, benchmark que testa se a IA consegue encontrar fotos específicas em coleções pessoais usando pistas contextuais. Mesmo o Claude Opus 4.5, melhor colocado, acertou todas as imagens relevantes só 29% das vezes. Até 50% dos erros vêm de planejamento ruim: os modelos identificam o contexto correto mas param a busca cedo demais ou perdem o controle das restrições. O resultado expõe a distância entre o reconhecimento visual da IA e sua incapacidade de fazer buscas em múltiplas etapas que humanos fazem intuitivamente.

Ver resumo completo de 23 de fevereiro de 2026