MIT cria método para expor e controlar vieses ocultos, humor e personalidades em LLMs

Pesquisadores do MIT e da UC San Diego desenvolveram uma técnica para identificar e manipular conceitos abstratos ocultos em LLMs, de traços de personalidade como "teórico da conspiração" a posturas como "medo de casamento". O método permite ajustar essas representações para amplificar ou minimizar conceitos nos resultados do modelo. Quando amplificaram a representação de "teórico da conspiração" e perguntaram sobre a foto "Blue Marble" da Apollo 17, o modelo gerou uma resposta conspiratória. A equipe demonstrou que o método funciona em mais de 500 conceitos nos maiores LLMs, oferecendo uma forma de identificar e tratar vulnerabilidades ocultas.

Ver resumo completo de 20 de fevereiro de 2026