Método do MIT dobra velocidade de treino de LLMs de raciocínio usando tempo ocioso de GPU

Pesquisadores do MIT encontraram uma forma de aproveitar ciclos ociosos de GPU durante o treino de modelos de raciocínio, treinando automaticamente um modelo menor e mais rápido para prever as saídas do modelo maior. O modelo maior então verifica as previsões, reduzindo sua carga de trabalho. O sistema treina e implanta o modelo menor de forma adaptativa, ativando-o apenas quando os processadores estão ociosos. Em testes com múltiplos LLMs de raciocínio, dobrou a velocidade de treino sem perder precisão.

Ver resumo completo de 26 de fevereiro de 2026