GPTZero riconosce davvero testi scritti da umani o AI?

Negli ultimi mesi si parla sempre più spesso di strumenti in grado di rilevare se un testo è stato scritto da un’intelligenza artificiale. Tra i più citati c’è GPTZero, utilizzato in ambito accademico, scolastico e professionale come supporto per individuare contenuti generati da AI.

Ma quanto sono davvero affidabili questi strumenti?

Per capirlo, ho deciso di fare un test pratico, basato non su testi generati oggi, ma su contenuti umani reali, scritti anni prima della diffusione delle intelligenze artificiali generative.

Il risultato è stato, per certi versi, sorprendente.


Il test: usare GPTZero come strumento di verifica? Un fallimento!

L’esperimento è stato volutamente semplice.

Ho preso diversi testi e li ho sottoposti a GPTZero nella sua versione standard, senza modifiche, riscritture o “umanizzazioni”. In particolare ho analizzato:

  1. Testi informativi e professionali scritti recentemente

  2. Testi riscritti manualmente con uno stile più colloquiale

  3. Un articolo del mio blog scritto nel 2015, quindi molti anni prima dell’esistenza di modelli come ChatGPT, GPT-3 o simili

L’obiettivo non era “ingannare” il sistema, ma capire cosa stesse realmente misurando.


Il risultato più interessante: un testo del 2015 classificato come 100% AI

Il dato più significativo è arrivato proprio dall’ultimo test.

Un articolo pubblicato sul mio blog intorno al 2015 che puoi trovare qui, scritto interamente da me, in un contesto in cui l’AI generativa non esisteva ancora, è stato analizzato da GPTZero e classificato come:

100% AI generated
0% Human
0% Mixed

Questo risultato, di fatto, dimostra una cosa molto importante:
GPTZero non sta verificando l’origine reale di un testo, ma la sua somiglianza statistica con contenuti che oggi sono comuni nei dataset delle intelligenze artificiali.


Cosa misura davvero GPTZero (e strumenti simili)

Dall’analisi dei risultati emerge chiaramente che GPTZero non “riconosce” se un testo è umano o artificiale nel senso stretto del termine. Piuttosto, valuta indicatori come:

  • prevedibilità linguistica

  • coerenza sintattica

  • uniformità dello stile

  • somiglianza con testi tecnici, informativi o professionali già presenti nei suoi modelli di riferimento

In pratica, la domanda implicita non è:

“Questo testo è stato scritto da un umano?”

ma piuttosto:

“Questo testo assomiglia a quelli che oggi un’AI sarebbe in grado di scrivere?”

Ed è qui che nasce il problema.


Il bias temporale: quando l’AI riscrive il passato

Il test sul testo del 2015 evidenzia un bias temporale evidente.

Testi ben scritti, informativi, tecnici o divulgativi, che esistevano molto prima dell’AI, oggi vengono classificati come “AI-generated” solo perché lo stile è diventato comune negli output delle intelligenze artificiali moderne.

In altre parole:

  • non è l’AI a imitare lo stile umano

  • è il detector che retroattivamente attribuisce all’AI uno stile umano preesistente

Questo porta a falsi positivi sistemici, soprattutto nei seguenti ambiti:

  • tecnologia

  • web marketing

  • compliance e normativa

  • articoli divulgativi

  • documentazione tecnica


Perché questo è un problema reale

Se un testo scritto da una persona nel 2015 viene classificato come “100% AI”, diventa evidente che strumenti come GPTZero non possono essere considerati prove oggettive dell’origine di un contenuto.

Questo è particolarmente critico in contesti come:

  • università

  • pubblica amministrazione

  • aziende

  • valutazioni professionali

Dove l’uso di un detector come unico criterio rischia di portare a valutazioni errate.

Non a caso, molte istituzioni stanno iniziando a chiarire che i sistemi di AI detection non devono essere usati come strumenti forensi, ma al massimo come indicatori statistici.


Conclusione: cosa ci insegna questo test

Il test che ho condotto dimostra una cosa molto chiara:

Gli strumenti di rilevamento AI non stabiliscono se un testo è stato scritto da un’intelligenza artificiale, ma se è statisticamente simile a ciò che oggi un’AI è in grado di produrre.

Questo significa che:

  • un testo umano può risultare “100% AI”

  • un testo AI può risultare “umano”

  • la qualità della scrittura viene spesso penalizzata

  • lo stile professionale è uno dei principali fattori di falso positivo

Per questo motivo, strumenti come GPTZero vanno usati con cautela, soprattutto quando il contesto è tecnico, professionale o storico.

0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Fornisci il tuo contributo!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *