Le allucinazioni dell’intelligenza artificiale – cioè quando un modello genera informazioni errate ma presentate come vere – sono in aumento, nonostante l’evoluzione dei modelli più recenti. OpenAI, DeepSeek, IBM e altri colossi tecnologici stanno affrontando un fenomeno sempre più evidente e preoccupante: i modelli di ragionamento avanzato sembrano allucinare più frequentemente dei loro predecessori.

Modelli più sofisticati, ma anche più inclini all’errore
I test interni condotti da OpenAI su o3 e o4-mini, due dei suoi modelli più recenti, hanno rivelato tassi di allucinazione compresi tra il 30% e il 79%, a seconda della tipologia di domanda. I dati emergono da report aziendali e da test pubblicati nel febbraio 2024.
Ad esempio:
- o3 ha allucinato nel 33% dei casi nel test PersonQA (domande su personaggi pubblici)
- o3 ha raggiunto un allarmante 51% nel test SimpleQA (domande fattuali brevi)
- o4-mini ha fatto anche peggio: fino al 79% di risposte errate
Questi risultati contrastano con le performance di GPT-4.5, il modello attualmente più affidabile di OpenAI, che si attesta su un tasso di errore del 37,1% nel test SimpleQA.
I test indipendenti confermano: ragionamento non sempre è sinonimo di precisione
La società di ricerca AI Vectara ha eseguito test indipendenti sui modelli. I risultati:
- o3 di OpenAI: tasso di allucinazioni 6,8% nel test di riassunto di articoli giornalistici
- R1 di DeepSeek: 14,3%
- DeepSeek-V2.5: solo 2,4%
- IBM Granite 3.2 (8B): 8,7%, mentre la versione 2B ha toccato il 16,5%
Questi dati suggeriscono che i modelli progettati per “pensare di più” possono sbagliare di più, generando errori logici o fatti inventati durante il ragionamento multistep.
Perché l’IA allucina?
Le cause sono complesse. Secondo Transluce, organizzazione di ricerca AI non-profit, il problema principale è che i modelli ottimizzano per la probabilità di generare una risposta, anche quando non sanno la risposta corretta. A questo si aggiungono:
- Dati di addestramento incompleti o distorti
- Mancanza di consapevolezza (i modelli non sanno “non sapere”)
- Assenza di un meccanismo di “dubbio” integrato
Come ha dichiarato il CEO di OpenAI Sam Altman, le allucinazioni “sono una caratteristica, non un bug”. Secondo lui, proprio grazie alla creatività (e quindi all’invenzione), l’IA può generare valore in certi contesti.
Le soluzioni (parziali) in fase di sviluppo
Tutti i principali attori del settore stanno tentando di arginare il fenomeno:
- Google ha lanciato Vertex, che segnala informazioni potenzialmente errate
- Microsoft ha introdotto Correction, un sistema simile per Bing Chat
- Anthropic lavora su modelli più trasparenti
Tuttavia, come sottolineato da TechCrunch e MIT Technology Review, nessuna di queste soluzioni risolve pienamente il problema.
Secondo un’inchiesta del Wall Street Journal, una delle tecniche più promettenti è la retrieval-augmented generation (RAG), dove il modello IA integra fonti esterne attendibili invece di basarsi solo sulla sua memoria. Altri ricercatori propongono di addestrare i modelli a dire “non lo so” quando non hanno informazioni sufficienti.
Il termine “allucinazione” è davvero corretto?
Alcuni esperti, tra cui Usama Fayyad, direttore dell’Institute for Experiential Artificial Intelligence della Northeastern University, mettono in discussione l’uso del termine “allucinazione”.
“Parlare di allucinazioni umanizza troppo il modello. Non si tratta di una percezione distorta, ma di un output statistico sbagliato.”
Conclusione: più intelligenza, più errori?
I modelli di IA stanno diventando sempre più avanzati, ma anche più complessi e quindi più inclini a errori sofisticati. L’obiettivo non è eliminare completamente le allucinazioni (oggi considerato impossibile), ma ridurle, segnalarle e gestirle.
La trasparenza, la formazione dell’utente e l’affiancamento dell’umano restano fondamentali per garantire l’affidabilità dell’IA nei contesti critici, come la sanità, il diritto o l’informazione.