Microsoft lança Phi-4-reasoning-vision-15B, modelo compacto multimodal que rivaliza com sistemas maiores
A Microsoft lançou o Phi-4-reasoning-vision-15B, modelo de 15 bilhões de parâmetros com pesos abertos que processa imagens e texto para matemática, ciência, interpretação de gráficos e navegação de interfaces. Disponível no HuggingFace, GitHub e Azure sob licença permissiva, o modelo usa "pensamento seletivo" — decide quando vale gastar computação com raciocínio profundo e quando uma resposta rápida basta.
O modelo iguala ou supera sistemas muito maiores em benchmarks multimodais com fração do custo computacional. O treinamento usou três etapas: fine-tuning supervisionado com dados de cadeia de raciocínio, aprendizado por reforço para eficiência e fusão de modelos para recuperar capacidades gerais.
Ver resumo completo de 5 de março de 2026