Benchmark estoniano aponta modelos da Anthropic como mais resistentes à propaganda russa

O Instituto da Língua Estoniana lançou um benchmark que avalia 60 LLMs em 75 perguntas, três idiomas e 14 narrativas de propaganda russa, em versões neutras, enviesadas e manipuladas. Cada resposta é classificada de 1 a 5; nota 1 significa que o modelo repete a linha russa. Um Claude Opus 4.5 calibrado serviu como avaliador, validado por especialistas em desinformação do Propastop. Os modelos da Anthropic ficaram no topo, com o Claude Fable 5 marcando 95,2, seguidos pelo Nemotron 3 da Nvidia e pelo Qwen 3.6 Plus da Alibaba. O Medium 3.5 da Mistral apareceu no terço inferior. Os modelos rodaram sem busca web ou ferramentas, isolando a resistência paramétrica à desinformação.

Ver resumo completo de 17 de junho de 2026