Estudo da Anthropic com milhões de interações mapeia como a autonomia de agentes de IA funciona na prática

A Anthropic analisou milhões de interações entre humanos e agentes no Claude Code e na sua API para medir como a autonomia de IA se manifesta na prática. Achados principais: as sessões mais longas do Claude Code quase dobraram de menos de 25 para mais de 45 minutos entre outubro de 2025 e janeiro de 2026, e usuários experientes usam aprovação automática total mais de 40% das vezes, contra 20% entre novatos. Engenharia de software responde por quase metade de toda a atividade com agentes, com uso emergente em saúde, finanças e cibersegurança. O estudo mostrou que o Claude pede esclarecimentos com mais frequência do que humanos o interrompem, e 80% das chamadas de ferramentas têm salvaguardas como aprovação humana. Os autores argumentam que infraestrutura de monitoramento pós-implantação importa mais do que requisitos rígidos de interação.

Ver resumo completo de 19 de fevereiro de 2026