Pesquisadores incorporam aceleração de 3x na inferência diretamente nos pesos do modelo, sem decodificação especulativa

Pesquisadores da Universidade de Maryland, Lawrence Livermore, Columbia e TogetherAI criaram um método que incorpora previsão multi-token diretamente nos pesos do modelo, alcançando ganho de 3x na vazão com a adição de um único token especial à arquitetura existente. Diferentemente da decodificação especulativa, não exige modelo auxiliar nem infraestrutura adicional. A abordagem ataca um gargalo crítico para fluxos de IA agêntica, em que modelos de raciocínio geram milhares de tokens de cadeia de pensamento antes de produzir a resposta final. Um dos autores disse que a latência está se tornando tão importante quanto a vazão bruta conforme cadeias de raciocínio longas se tornam padrão.

Ver resumo completo de 24 de fevereiro de 2026