Estudo da ByteDance mostra por que modelos de raciocínio "pensam demais" e como corrigir

Um estudo da ByteDance constatou que modelos de raciocínio frequentemente continuam processando muito além da resposta correta, desperdiçando tokens com verificações cruzadas e reformulações desnecessárias. Em 72% dos casos com respostas certas e erradas, a resposta mais longa estava errada com mais frequência. Os pesquisadores criaram o SAGE, que identifica caminhos de raciocínio ideais ocultos pela inferência padrão. Modelos treinados com SAGE-RL tiveram desempenho 2,1% melhor usando 44,1% menos tokens. Descoberta principal: os modelos sabem quando terminaram, mas os métodos comuns de amostragem não os deixam parar.

Ver resumo completo de 26 de fevereiro de 2026