VibeThinker-3B do Weibo iguala DeepSeek V3.2 no AIME 2026 com 1/200 do tamanho

Uma equipe de nove pesquisadores do Sina Weibo publicou um artigo de 14 páginas no arXiv afirmando que o VibeThinker, modelo de 3 bilhões de parâmetros, atingiu 94,3 no AIME 2026, igualando o DeepSeek V3.2 de 671 bilhões e superando os 91,7 do Gemini 3 Pro. Com escala em tempo de inferência via Claim-Level Reliability Assessment, a pontuação sobe para 97,1. O modelo recebeu 685 estrelas no GitHub, 130 likes no Hugging Face e 62 upvotes no artigo em poucas horas, mas a reação dividiu opiniões. Céticos argumentam que os ganhos podem refletir vazamento de dados de treino ou overfitting agressivo em competições de matemática, e não raciocínio genuíno — reacendendo o debate entre modelos pequenos e grandes.

Ver resumo completo de 17 de junho de 2026