Come si misura l’intelligenza artificiale: i limiti dei benchmark

10 views

Dai test MMLU ad ARC-AGI, scopri come funzionano i benchmark e perché non bastano per capire quanto un modello di IA sia davvero intelligente. Corre…

Panda SecurityNov 3, 20258 min read

Dai test MMLU ad ARC-AGI, scopri come funzionano i benchmark e perché non bastano per capire quanto un modello di IA sia davvero intelligente.

Corre l’anno 2025, i modelli di linguaggio di grandi dimensioni (LLM) generalisti sono ormai decine, mentre abbiamo perso il conto degli strumenti di IA specializzati. Le persone non sanno cosa scegliere e quale chatbot sia migliore per il compito che devono svolgere, e così sorge spontanea una domanda: qual è l’IA più intelligente?

Per questo motivo sono nati i benchmark IA, ovvero dei test che confrontano in modo standardizzato le capacità dei chatbot, con l’obiettivo di fornire un punteggio obiettivo in ciascuna area, come programmazione, uso del linguaggio, computer vision e così via.

Ma quanto possiamo fidarci di questi benchmark? Sono davvero in grado di valutare un’IA, visto che è così complicato dare una definizione chiara di intelligenza? Ne parliamo in questo post sui benchmark di IA, in cui vedremo esattamente come funzionano, come si misura l’intelligenza artificiale e perché non dobbiamo usare i benchmark come unico parametro per scegliere i chatbot da usare.

In questo articolo:

  • Come si misura l’intelligenza delle IA come ChatGPT o Gemini?
  • Quali sono i modelli di intelligenza artificiale più “intelligenti” o avanzati?
  • Come funzionano i test per valutare i modelli IA?
  • Questi test sono davvero affidabili o sono manipolabili?

Buona lettura!

Benchmark IA: come viene misurata oggi l’intelligenza artificiale

Il modo più comune per valutare l’intelligenza artificiale è attraverso i benchmark, ovvero test standardizzati che misurano le prestazioni dei modelli ponendo domande o problemi e confrontando le loro risposte con quelle corrette, in modo simile a un esame scolastico.

Questi benchmark sono condotti da società di auditing informatico, associazioni del settore e anche testate giornalistiche specializzate. I test però non sono tutti uguali, esistono tre tipologie principali:

  • Zero-shot: il modello può rispondere solo una volta.
  • Few-shot: il modello può rispondere un numero limitato di volte.
  • Addestramento mirato: i modelli vengono addestrati per prepararsi alla risoluzione dei test.

A prima vista, sembrano una buona soluzione al problema di come misurare l’intelligenza artificiale, ma in realtà nascondono una difficoltà. I benchmark misurano le prestazioni in relazione a criteri ben precisi, ma non sono in grado di valutare davvero la capacità di comprensione dei modelli come ChatGPT o Gemini.

Per superare questi limiti, ultimamente vengono usati test condotti da persone reali, che valutano le risposte dei modelli in modo anonimo.

Quando una misura diventa un obiettivo, smette di essere una buona misura

Charles Goodhart

I test più usati per valutare i modelli di IA

Vediamo brevemente quali sono i test più diffusi attualmente e le relative capacità che misurano:

  • MMLU: conoscenze generali su 57 materie.
  • HellaSwag: capire il finale più logico di una storia.
  • HumanEval: scrivere codice funzionante.
  • TruthfulQA: verificare la veridicità delle risposte.
  • ARC-AGI: test di logica astratta simile al ragionamento umano.
  • MT-Bench: confronto diretto fra chatbot.
  • SWE-bench: correggere bug reali nei software.

Questi sono i benchmark IA più utilizzati nel 2025. Come abbiamo accennato, però, i benchmark di questo tipo hanno un problema. Come dice la legge di Goodhart, “quando una misura diventa un obiettivo, smette di essere una buona misura”. Il rischio dei benchmark è che ormai gli LLM vengano preparati e addestrati proprio per superare questi test e ottenere punteggi alti, e non per essere più intelligenti.

BenchmarkCosa misuraMigliori modelli
MMLUConoscenze generali su 57 materie🥇 Gemini 2.5 Pro (84,1%)
🥈 GPT-o1 (83,5%)
🥉 Claude 3.7 Sonnet (82,7%)
HellaSwagCoerenza e logica del linguaggio (capacità di terminare una storia)🥇 Claude 3 Opus (95,4%)
🥈 GPT-4 (95,3%)
🥉 Mistral Large (89,2%)
MT-BenchQualità e naturalezza del dialogo (confronto diretto tra chatbot)🥇 GPT-4 Turbo
🥈 Mistral Medium
🥉 Claude 1

I limiti dei benchmark: quando l’IA impara a barare

Oggi si parla di benchmark hacking: i modelli vengono ottimizzati per vincere i confronti e ottenere punteggi alti, non per ragionare meglio. Questo crea un doppio problema: da un lato peggiora la trasparenza sul funzionamento e le capacità dei modelli, dall’altro incide sullo sviluppo degli LLM, perché la ricerca non viene concentrata sulle sue reali capacità, ma sull’obiettivo di raggiungere e superare standard aleatori.

Vediamo un esempio accaduto poco tempo fa: nel 2024 OpenAI annunciò che il suo modello o3 aveva ottenuto l’87,5% di accuratezza nel test ARC-AGI, ideato per valutare la capacità di ragionamento astratto.

Era un risultato mai visto: i modelli precedenti non superavano il 55%, ma diversi ricercatori hanno poi chiarito che il modello non aveva davvero “ragionato”: aveva semplicemente generato migliaia di soluzioni e scelto la più plausibile tramite un voto interno. Un metodo potente, ma contrario allo spirito del test, pensato per misurare la logica con risorse limitate.

Il caso ARC-AGI è diventato così l’esempio perfetto di benchmark hacking: il modello ha vinto la prova, ma non ha dimostrato di capire davvero.

Questo ci insegna che un punteggio più alto nei test non implica sempre che il modello sia più intelligente, ma solo che sia più bravo a rispondere a quel tipo di domande. Si tratta, insomma, di misure quantitative e non qualitative.

LEGGI ANCHE: ChatGPT 5 spiegato bene: cosa fa e quali sono i limiti

Verso test IA qualitativi condotti da esseri umani

La nuova frontiera dei benchmark è creare degli ambienti di test e far valutare le risposte a un essere umano, come fanno LMArena e Chatbot Arena.

Questo approccio è innovativo e più vicino alla nostra esperienza: i confronti vengono fatti in modo anonimo per non influenzare i risultati e alla fine si ottiene un giudizio qualitativo e umano che, seppure imperfetto, rimane più affidabile e vicino alla nostra esperienza rispetto a un punteggio arbitrario.

Questo metodo, ad esempio, viene utilizzato spesso nell’ambito medico, perché ricercatori e specialisti ritengono che sia più importante saper risolvere problemi piuttosto che azzeccare risposte.

Che un modello di IA sia più potente non significa che sia anche il più sicuro.

Cosa significa tutto questo per gli utenti finali

In conclusione, ti consigliamo di scegliere i chatbot in base a quello che devi fare, basandoti su valutazioni qualitative umane e sulla tua opinione personale: se il risultato di un chatbot ti piace di più per quello che devi fare, ad esempio per riscrivere un’email, scegli quello.

Ricorda che i benchmark sono solo dei punteggi che misurano la capacità di un modello di affrontare un compito ben preciso e in un determinato modo. L’intelligenza è un concetto molto ampio e difficile da definire, che trascende l’ambito scientifico e tocca perfino questioni filosofiche e umanistiche.

Inoltre, che un modello di IA sia più potente non significa che sia anche il più sicuro (cosa di cui si parla sempre troppo poco), per cui è importante capire come vengono trattati i tuoi dati dagli sviluppatori del chatbot, oltre a confrontare i benchmark.

Domande frequenti sui benchmark IA

Cosa significa quando un modello “supera un benchmark”?

Vuol dire che ha ottenuto un punteggio alto in un test standardizzato, ma non che “capisca” come una persona. I benchmark misurano la precisione e la coerenza statistica delle risposte, non l’intelligenza o la comprensione profonda.

I modelli di IA che ottengono i punteggi più alti sono anche i più affidabili?

Non sempre. Un modello può eccellere in un test ma sbagliare in contesti reali o fornire risposte false con grande sicurezza (allucinazioni). L’affidabilità dipende anche da come viene addestrato, aggiornato e controllato, non solo dai risultati dei benchmark.

Ricordati che tutti i chatbot possono commettere errori e inventare informazioni, perché sono programmati per cercare di dare sempre una risposta all’utente. In sintesi, non fidarti ciecamente delle risposte dei modelli di IA e controlla sempre su altre fonti.

Perché i risultati dei test cambiano così spesso?

Perché i modelli vengono aggiornati di continuo e i benchmark si evolvono. Inoltre, ogni test valuta aspetti diversi (logica, linguaggio, programmazione, veridicità), quindi non esiste una classifica assoluta e che valga per sempre.

Come faccio a capire se un’intelligenza artificiale è “sicura” da usare?

Controlla sempre chi la sviluppa, come gestisce i tuoi dati e se rispetta le normative sulla privacy. Un punteggio alto in un test tecnico non è garanzia del rispetto della privacy: per questo è importante usare IA integrate in piattaforme sicure e affidabili, ancora meglio se protette da soluzioni di sicurezza avanzata.

In questo articolo abbiamo visto come si misura l’intelligenza artificiale, cosa sono i benchmark IA e come funzionano, e soprattutto quali limiti hanno. Ti invitiamo a provare diversi chatbot, leggere recensioni aggiornate e controllare sempre come gestiscono i tuoi dati personali.

E tu, quale pensi che sia il chatbot più intelligente? Faccelo sapere nei commenti!

CONTINUA A LEGGERE: Bambini e intelligenza artificiale: come guidarli all’uso consapevole e sicuro

Buona navigazione e buona scelta del chatbot più intelligente!