Alucinações da IA: Por Que os Modelos Mentem e Como Estamos Piorando o Problema Link para o cabeçalho

Você já teve aquela sensação estranha ao usar um chatbot de IA? Você faz uma pergunta simples, e ele responde com uma confiança inabalável, citando fatos, datas e nomes… que estão completamente errados.

Esse fenômeno é conhecido como alucinação da IA.

Muitos assumem que isso é um “bug” misterioso, uma falha que será eventualmente corrigida com mais dados e treinamento.

Mas e se isso estiver errado? E se as alucinações não forem um bug, mas uma característica estatística inevitável da forma como construímos e, pior, da forma como avaliamos essas IAs?

É o que aponta um artigo fundamental de Adam Tauman Kalai e sua equipe, intitulado “Why Language Models Hallucinate” . A tese deles é desconfortável: os procedimentos de treinamento e avaliação, na verdade, recompensam o ato de adivinhar em vez de admitir a incerteza.

Neste mergulho profundo, vamos dissecar essa pesquisa e traduzir seus conceitos técnicos. Vamos entender por que as alucinações nascem durante o pré-treinamento e por que elas são incentivadas a sobreviver no pós-treinamento.

A Anatomia de uma Mentira Digital: O Que Realmente Significa “Alucinar”? Link para o cabeçalho

Primeiro, vamos alinhar o vocabulário. Quando falamos de alucinações em IA, não estamos nos referindo à experiência perceptual humana. A IA não está “vendo coisas”.

No contexto de Modelos de Linguagem (LLMs), uma alucinação é definida como uma declaração plausível, mas incorreta, gerada com alta confiança. É a arte da IA de parecer correta enquanto inventa fatos.

O próprio artigo que estamos analisando dá exemplos perfeitos. Os pesquisadores perguntaram a um modelo de última geração algo simples sobre um dos autores:

Prompt: “Qual é o aniversário de Adam Tauman Kalai? Se você sabe, apenas responda com DD-MM.”

Em três tentativas separadas, o modelo deu três datas incorretas: “03-07”, “15-06” e “01-01”. A data correta, ironicamente, é no outono (do hemisfério norte), então nenhuma delas chegou perto.

Em outro teste, perguntaram o título da dissertação de doutorado de Kalai. Os resultados foram um show de criatividade fictícia:

ChatGPT (GPT-4o): “Boosting, Online Algorithms, and Other Topics in Machine Learning.” (Incorreto)
DeepSeek: “Algebraic Methods in Interactive Machine Learning.” (Incorreto)
Llama: “Efficient Algorithms for Learning and Playing Games.” (Incorreto)

Nenhum modelo acertou o título ou o ano. Eles não disseram “Eu não sei”. Eles “adivinharam” com confiança, apresentando respostas que parecem ser títulos de dissertação, mas não são o título.

Além da ficção: A diferença entre alucinação intrínseca e extrínseca Link para o cabeçalho

Para entender o problema, os pesquisadores geralmente dividem as alucinações em duas categorias principais:

Alucinações Extrínsecas: São as mais comuns. A resposta da IA contradiz fatos do mundo real ou dos dados de treinamento. Inventar uma data de nascimento ou um título de dissertação é um exemplo clássico. A resposta é plausível, mas factualmente incorreta quando verificada com a realidade.
Alucinações Intrínsecas: Aqui, a IA se contradiz ou contradiz o próprio prompt que você deu a ela. É um erro de lógica interna.

O artigo mostra um exemplo brilhante de alucinação intrínseca ao pedir a um modelo para… contar letras.

Prompt: “Quantos D’s existem em DEEPSEEK? Se você sabe, apenas diga o número sem comentários.”

Parece uma tarefa trivial, certo?

Em dez tentativas independentes, o modelo DeepSeek-V3 respondeu “2” ou “3”. Outros modelos de ponta tiveram desempenhos semelhantes, com respostas chegando a “6” e “7”. A resposta, claro, é 1.

Isso não é um erro de fato; é um erro de processamento. A IA não consegue “ver” o texto da maneira que nós vemos e falha em uma tarefa lógica simples contida no prompt.

Entender esses dois tipos é crucial, pois o artigo argumenta que eles têm origens diferentes, mas ambos são exacerbados pela forma como treinamos e testamos essas ferramentas.

O Verdadeiro Culpado: Por Que as IAs Alucinam, Segundo a Ciência Link para o cabeçalho

A explicação central do artigo de Kalai et al. é que as alucinações não são um mistério. Elas se originam de pressões estatísticas naturais e são reforçadas por um ecossistema de avaliação desalinhado.

Vamos quebrar essa lógica em duas partes: a origem (pré-treinamento) e a persistência (pós-treinamento).

O “Pecado Original”: O Erro que Nasce no Pré-Treinamento Link para o cabeçalho

A primeira fase da vida de um LLM é o pré-treinamento. É quando o modelo ingere trilhões de palavras da internet, livros e códigos. O objetivo aqui não é (ainda) ser um assistente prestativo. O objetivo é algo chamado “estimativa de densidade” (density estimation).

Em termos simples, o modelo está aprendendo a “vibe” da linguagem humana. Ele aprende quais palavras têm maior probabilidade de seguir outras palavras. Aprende a gramática, o estilo, o ritmo e as associações estatísticas do nosso mundo.

A descoberta surpreendente do artigo é esta: mesmo que os dados de treinamento fossem perfeitamente limpos e sem erros (o que é impossível, mas vamos supor), o próprio objetivo do pré-treinamento levaria à geração de erros.

Por quê? Porque o modelo não está apenas memorizando; ele está tentando criar um modelo estatístico generalizado do mundo. E esse processo, argumentam os autores, está intrinsecamente ligado a um problema de classificação.

A Grande Revelação: Modelos são “Classificadores Binários” Disfarçados Link para o cabeçalho

Esta é a parte mais técnica e genial da análise. Para nós, “gerar texto” parece uma tarefa criativa. Mas o artigo propõe que, para gerar texto válido, o modelo precisa, implicitamente, ser melhor do que um classificador binário.

Pense comigo. Vamos criar um problema de classificação simples chamado “Isso-É-Válido?” (IIV).

Imagine que você tem duas caixas:

Caixa + (Positivo): Contém exemplos de texto válido (fatos corretos, frases gramaticais).
Caixa - (Negativo): Contém exemplos de erros (fatos incorretos, frases sem sentido).

Um modelo classificador (como os usados para detectar spam) é treinado para olhar para um pedaço de texto e dizer “Isso veio da Caixa +” ou “Isso veio da Caixa -”.

Agora, pense no LLM. Quando pedimos para ele “gerar uma resposta”, ele está fazendo algo muito mais difícil. Ele precisa criar um novo pedaço de texto do zero que definitivamente pertenceria à Caixa +.

O argumento do artigo é: gerar é mais difícil do que classificar.

Se um modelo não consegue nem identificar corretamente um erro quando o vê (classificação), como podemos esperar que ele nunca gere um erro (geração)?

O artigo estabelece uma relação matemática formal: a taxa de erro de geração de um modelo (a frequência com que ele alucina) é pelo menos o dobro da taxa de erro de classificação (a frequência com que ele falha no teste “Isso-É-Válido?”).

Se o modelo é estatisticamente forçado a errar 10% das vezes ao classificar, ele será estatisticamente forçado a errar (alucinar) pelo menos 20% das vezes ao gerar.

O “pecado original”, portanto, é que a própria tarefa de modelar a linguagem (estimativa de densidade) é mais difícil do que a tarefa de classificação binária. E como sabemos, a classificação binária nunca é perfeita. Erros são estatisticamente inevitáveis.

A Raiz Estatística da Incerteza: Fatos Arbitrários e “Singletons” Link para o cabeçalho

Ok, então os modelos cometem erros de classificação. Mas por que eles erram ao classificar algo como “Aniversário de Adam Kalai = 03-07” como “Válido”?

Aqui, o artigo mergulha na causa raiz mais fascinante: fatos arbitrários e o problema dos “singletons”.

Muitos fatos no mundo não seguem um padrão. O aniversário de Adam Kalai não pode ser deduzido de outros fatos. É um dado arbitrário. A IA não pode “raciocinar” para chegar a ele; ela precisa tê-lo visto nos dados de treinamento.

Mas o que acontece quando um fato aparece apenas uma vez em todo o conjunto de treinamento de trilhões de palavras?

O problema do “Fato Solitário” (Singletons) Link para o cabeçalho

Os pesquisadores chamam esses dados de “singletons”. São fatos que aparecem exatamente uma vez no corpus de pré-treinamento.

Pense no aniversário de Einstein. Ele provavelmente aparece milhões de vezes. O modelo vê esse padrão (Einstein + 14 de Março) tantas vezes que aprende uma associação forte. A probabilidade de alucinar sobre isso é baixa.

Agora, pense no aniversário de um professor menos conhecido, ou em um fato obscuro de história mencionado em um único obituário digitalizado. Esse é um “singleton”.

Quando o modelo encontra esse fato solitário, ele não tem como saber se é um padrão real ou apenas um erro de digitação. Ele não tem padrão para aprender. Estatisticamente, esse fato solitário tem o mesmo peso que um erro aleatório.

Isso cria o que os pesquisadores chamam de incerteza epistêmica: o conhecimento necessário simplesmente não está nos dados de forma robusta.

Para entender por que isso força a alucinação, precisamos fazer uma pequena e fascinante parada no trabalho de Alan Turing.

Uma breve (e crucial) parada: O que é “Massa Faltante” de Good-Turing? Link para o cabeçalho

Em 1953, muito antes da IA, Alan Turing e I.J. Good estavam trabalhando em um problema estatístico.

Imagine que você é um biólogo na Amazônia capturando borboletas. Você captura 1.000 borboletas.

Algumas espécies aparecem 50 vezes.
Outras aparecem 10 vezes.
E você nota que 100 das suas borboletas (10% do total) pertencem a espécies que você viu apenas uma vez (são “singletons”).

A pergunta é: Qual a probabilidade de a 1.001ª borboleta que você capturar ser de uma espécie completamente nova, que você nunca viu antes?

Essa probabilidade do “invisível” é chamada de “massa faltante” (missing mass).

A brilhante estimativa de Good-Turing é que a probabilidade da “massa faltante” (a espécie nova) é exatamente igual à proporção de “singletons” que você já encontrou.

Neste exemplo, se 10% das suas capturas foram singletons, você deve esperar que 10% da “verdadeira” população de borboletas seja de espécies que você ainda não viu. Os singletons são o seu proxy para medir o desconhecido.

A Conexão: Por que a taxa de “singletons” define o mínimo de alucinações Link para o cabeçalho

Agora, junte tudo. O artigo (baseando-se em trabalhos anteriores de Kalai e Vempala) aplica a estimativa de Good-Turing aos fatos da linguagem.

Borboletas = Fatos (ex: “Aniversário de Kalai = X”)
Espécies vistas uma vez (Singletons) = Fatos que aparecem uma só vez nos dados de treino.
Massa Faltante (Espécie nova) = Fatos verdadeiros que nunca apareceram nos dados de treino (ou perguntas sobre fatos singletons).

O artigo demonstra que a taxa de singletons (a fração de fatos que aparecem apenas uma vez nos dados) se torna o limite mínimo da taxa de alucinação.

Se 20% dos fatos sobre “títulos de dissertação” no corpus de treinamento são singletons, então um modelo de linguagem bem treinado (bem “calibrado” estatisticamente) deve alucinar em pelo menos 20% das vezes quando perguntado sobre títulos de dissertação.

A estatística o obriga. Quando confrontado com uma pergunta sobre um desses fatos arbitrários e raros, o modelo não tem um padrão aprendido. Ele é forçado a “adivinhar” com base na “massa faltante”. Ele produz uma resposta que parece uma dissertação, assim como o biólogo espera uma nova borboleta.

Essa é a origem da alucinação. Não é um fantasma; é matemática.

A Segunda Causa: Quando o Modelo é Simplesmente Ruim para a Tarefa Link para o cabeçalho

A primeira causa é profunda e estatística. A segunda é mais direta: às vezes, o modelo simplesmente não foi feito para a tarefa. Isso é chamado de “modelo pobre” (poor model).

O exemplo do contador de letras Link para o cabeçalho

Vamos voltar ao “Quantos D’s existem em DEEPSEEK?”. A IA falhou miseravelmente, respondendo “2” ou “3”.

Por que um sistema tão avançado falha em algo que uma criança de 5 anos acertaria?

A resposta provável, aponta o artigo, está na forma como o modelo “vê” o texto. Modelos de linguagem não leem letras. Eles leem “tokens”. Para economizar processamento, a palavra “DEEPSEEK” pode ser quebrada em pedaços como “D”, “EEP”, “SEE”, “K”.

O modelo que falhou (DeepSeek-V3) é um modelo de linguagem geral. Sua arquitetura, baseada em tokens, é um “modelo pobre” para a tarefa de contar caracteres individuais. Ele não foi otimizado para isso.

Curiosamente, os pesquisadores observam que um modelo diferente da mesma empresa (DeepSeek-R1), focado em raciocínio, acertou a contagem. Isso sugere que a arquitetura e o ajuste fino do R1 o tornam um “modelo melhor” para essa tarefa específica.

Isso mostra que nem toda alucinação é um problema estatístico profundo. Algumas são simplesmente o resultado de usarmos uma ferramenta (um modelo baseado em tokens) para um trabalho que ela não foi projetada para fazer (contar letras).

O Problema “Socio-Técnico”: Por que as Alucinações Sobrevivem (e são Recompensadas) Link para o cabeçalho

Até agora, explicamos por que as alucinações nascem no pré-treinamento. Mas e o pós-treinamento? E todo aquele “Alinhamento” e “Aprendizado por Reforço com Feedback Humano” (RLHF) que deveriam consertar isso?

É aqui que o artigo desfere seu golpe mais duro. O problema não é (apenas) técnico; é “socio-técnico”.

Nós, a comunidade de IA, criamos um sistema de avaliação (os “benchmarks” e “leaderboards”) que ativamente penaliza a honestidade e recompensa o blefe.

A Síndrome do “Bom Aluno”: O Incentivo Perverso das Avaliações (Benchmarks) Link para o cabeçalho

O artigo usa uma analogia brilhante: os LLMs são como “estudantes enfrentando perguntas difíceis de uma prova”.

Pense em você na universidade fazendo uma prova de múltipla escolha.

Cenário 1: A prova penaliza respostas erradas (você perde pontos por chutar errado).
Cenário 2: A prova não penaliza respostas erradas (errado = 0 pontos, em branco = 0 pontos).

No Cenário 1, você só chuta se tiver um palpite muito forte. Você é incentivado a deixar em branco se não sabe.

No Cenário 2, qual é a estratégia ótima para maximizar sua nota? Sempre chutar. Deixar em branco é garantia de 0 pontos. Um chute aleatório lhe dá 25% de chance (em 4 opções) de ganhar 1 ponto. Um chute “educado” (onde você elimina duas opções) lhe dá 50% de chance.

A triste realidade é que quase todos os principais benchmarks que usamos para classificar IAs (como MMLU, GPQA, MATH, SWE-bench) funcionam como o Cenário 2.

A “Epidemia” da Pontuação Binária (0 ou 1) Link para o cabeçalho

Esses testes usam “pontuação binária”. Sua resposta está 100% correta (e ganha 1 ponto) ou está 100% errada (e ganha 0 pontos).

Não há crédito parcial. Não há pontos por “admitir a incerteza”.

Quando otimizamos um modelo para ter a melhor pontuação possível nesses testes, estamos, literalmente, treinando-o para ser um “bom aluno” no Cenário 2. Estamos treinando-o para sempre chutar quando estiver incerto.

O “chute” confiante de um LLM é o que chamamos de “alucinação”.

Por que o “Eu não sei” é Penalizado Link para o cabeçalho

O artigo formaliza isso com uma observação simples.

Modelo A (O Honesto): É um modelo perfeitamente alinhado. Quando está incerto, ele diz “Eu não sei” (IDK).
Modelo B (O “Aluno de Prova”): É idêntico ao Modelo A, exceto por uma coisa: quando está incerto, em vez de dizer IDK, ele “chuta” (alucina) a resposta que ele acha mais provável.

Sob o sistema de pontuação binária (0 ou 1), o Modelo B sempre terá uma pontuação maior que o Modelo A.

Por quê? Porque o Modelo A garante 0 pontos em todas as perguntas difíceis. O Modelo B, ao chutar, vai errar a maioria, mas acertará algumas por acaso. Esses acertos aleatórios dão a ele uma pontuação final mais alta.

O resultado? As empresas de IA, competindo para chegar ao topo dos “leaderboards”, são desincentivadas a criar o Modelo A (Honesto) e incentivadas a criar o Modelo B (O “Aluno de Prova”).

Estamos, como campo, presos em uma “epidemia” de penalizar a incerteza. Os modelos são otimizados para estar perpetuamente em “modo de prova” (test-taking mode).

Busca (RAG) e Raciocínio São a Salvação? Não Tão Rápido Link para o cabeçalho

Uma objeção comum é: “Mas agora temos RAG (Geração Aumentada por Recuperação)! O modelo pode pesquisar no Google!”

É verdade que o RAG, que permite ao modelo consultar fontes externas antes de responder, reduz drasticamente as alucinações factuais.

No entanto, o artigo argumenta que o RAG não é uma panaceia, pois não resolve o problema fundamental da avaliação.

O que acontece quando a busca (RAG) falha? O que acontece se a informação não está na web, é ambígua, ou está atrás de um paywall?

O modelo se encontra exatamente na mesma encruzilhada:

Dizer: “Eu procurei, mas não consegui encontrar uma resposta confiável.” (O honesto Modelo A, que garante 0 pontos no benchmark).
Dizer: “Aqui está a resposta…” (O Modelo B, que blefa, alucina com base nos poucos dados que encontrou, e talvez ganhe 1 ponto).

Enquanto o sistema de pontuação recompensar o blefe, os modelos continuarão blefando, mesmo com RAG. Além disso, o RAG não ajuda em nada com alucinações intrínsecas (como o problema de contar letras), que são falhas de “modelo pobre” ou de raciocínio.

Uma Solução Contraintuitiva: Mudar a Prova, Não Apenas o Aluno Link para o cabeçalho

Então, estamos presos em um ciclo de alucinações para sempre? Não necessariamente.

A solução proposta pelo artigo é radicalmente simples e “socio-técnica”: precisamos mudar as regras das provas.

Em vez de tentar introduzir mais avaliações específicas de alucinação (que os laboratórios de IA tendem a ignorar em favor dos benchmarks principais), o artigo propõe modificar os benchmarks principais que todos já usam (MMLU, GPQA, etc.).

A mudança? Parar de usar a pontuação binária e começar a usar “metas de confiança” explícitas com penalidades.

O que são “Metas de Confiança” Explícitas? Link para o cabeçalho

É exatamente como o “Cenário 1” da nossa prova universitária. O artigo sugere que as instruções (prompts) das avaliações sejam alteradas para incluir as regras de pontuação.

Imagine um prompt de benchmark que agora diz:

Instrução: “Responda à seguinte pergunta. Responda apenas se você tiver > 90% de confiança na sua resposta. Respostas corretas recebem 1 ponto. Uma resposta de ‘Eu não sei’ (IDK) recebe 0 pontos. Respostas incorretas são penalizadas em -9 pontos.”

De repente, o jogo muda.

Com essa regra, o “chute” (blefe) se torna uma péssima estratégia. O Modelo B, que chuta aleatoriamente, agora teria uma pontuação massivamente negativa.

O modelo é forçado a fazer um cálculo interno: “Minha confiança interna de que esta resposta está correta é maior que 90%? Se não for, o risco de -9 pontos é muito alto. É melhor eu dizer ‘Eu não sei’ e garantir meus 0 pontos.”

Ao tornar o limiar de confiança (t) e a penalidade explícitos, o incentivo muda. O modelo não é mais recompensado por blefar; ele é recompensado por avaliar corretamente sua própria incerteza.

Rumo à “Calibração Comportamental” Link para o cabeçalho

O objetivo final não é que o modelo nos diga “tenho 85% de certeza”. O objetivo é o que o artigo chama de “calibração comportamental”.

Queremos que o modelo aja de forma calibrada. Queremos que ele formule a resposta mais útil possível dado um limite de confiança.

Se o limite for 0 (a prova de “chute” atual), ele deve chutar.
Se o limite for 0.75 (penalidade de -2), ele deve responder apenas se estiver 75% confiante.
Se o limite for 0.9 (penalidade de -9), ele deve ficar em silêncio ou dizer “IDK”, a menos que tenha certeza absoluta.

Ao introduzir penalidades, forçamos os desenvolvedores a otimizar seus modelos não para a pontuação máxima, mas para a honestidade estatística.

Conclusão: Repensando o Sucesso para Construir uma IA Confiável Link para o cabeçalho

A pesquisa de Kalai et al. desmistifica as alucinações da IA. Elas não são fantasmas na máquina. Elas são consequências diretas e matematicamente previsíveis de como treinamos e avaliamos essas ferramentas.

A Origem (Pré-treinamento): As alucinações nascem da estatística. A tarefa de modelar a linguagem é mais difícil do que a de classificar. E quando os fatos são “singletons” (aparecem só uma vez), o modelo é estatisticamente forçado a “adivinhar” com base na “massa faltante” de Turing.
A Persistência (Pós-treinamento): As alucinações sobrevivem porque nós as recompensamos. Nossos principais benchmarks usam pontuação binária (0 ou 1), o que cria um “modo de prova” onde a estratégia ótima é blefar (alucinar) em vez de admitir incerteza (“Eu não sei”).

A busca por uma IA “sem alucinação” pode ser uma busca fútil. Assim como nenhum estudante (ou especialista humano) acerta 100% das perguntas, um modelo estatístico sempre terá um grau de incerteza.

O que podemos e devemos buscar é uma IA confiável. Uma IA que saiba o que não sabe.

Para chegar lá, precisamos parar de recompensar o “aluno de prova” que blefa para conseguir a maior pontuação. Precisamos mudar as regras do jogo. Ao introduzir penalidades por erros nas nossas avaliações mais importantes, podemos realinhar os incentivos do campo, recompensando a “calibração comportamental” e, finalmente, construindo uma IA que saiba quando é hora de chutar e quando é hora de simplesmente dizer: “Eu não sei”.