Inception Labs lança Mercury 2, primeiro LLM de raciocínio baseado em difusão com 1.009 tokens/s

A startup Inception Labs lançou o Mercury 2, um modelo de raciocínio que substitui a decodificação autorregressiva padrão por uma abordagem baseada em difusão, gerando múltiplos tokens simultaneamente. Em GPUs Nvidia Blackwell, atinge 1.009 tokens/s com latência total de 1,7 segundo, contra 14,4s do Gemini 3 Flash. O preço fica abaixo dos concorrentes: US$ 0,25 por milhão de tokens de entrada e US$ 0,75 por milhão de saída. O modelo oferece contexto de 128K, uso nativo de ferramentas e profundidade de raciocínio ajustável. A Inception o posiciona para cargas de produção de alto volume onde gargalos autorregressivos se acumulam em loops de agentes.

Ver resumo completo de 25 de fevereiro de 2026