Extrair dados de PDFs continua sendo um dos fracassos 'sem glamour' da IA

Apesar dos avanços em código e física, a IA ainda não extrai informações de PDFs de forma confiável. Modelos de ponta resumem em vez de extrair, confundem notas de rodapé com corpo do texto ou alucinam conteúdo. O problema ficou evidente quando desenvolvedores tentaram criar ferramentas de busca para os mais de 3 milhões de documentos do caso Epstein. O pesquisador Pierre-Carl Langlais coloca "parsing de PDF resolvido!" na sua linha do tempo de IA pouco antes de AGI — mostrando o abismo entre capacidades de manchete e utilidade no mundo real.

Ver resumo completo de 23 de fevereiro de 2026