Il rilevatore AI di Turnitin è affidabile? Dati e casi

Hai inviato un saggio scritto interamente da te, senza l'ausilio di IA o scorciatoie. Eppure, Turnitin lo contrassegna come generato da intelligenza artificiale. A questo punto ti chiedi: ma quanto è affidabile questo sistema di rilevamento? E non sei il solo a dubitarne.
In questo articolo, analizzeremo nel dettaglio lo strumento di rilevamento IA di Turnitin, il suo funzionamento e, soprattutto, i fattori che potrebbero portarlo a segnalare il tuo testo. Vedremo inoltre cosa rivelano dati ed esperienze reali circa la sua attendibilità.
Andiamo a fondo e scopriamo cosa si cela dietro i punteggi IA di Turnitin.
Il rilevatore AI di Turnitin è affidabile? – Analisi dei dati ufficiali
Nel 2023, Turnitin ha lanciato ufficialmente la sua tecnologia per identificare testi generati o riformulati da strumenti di intelligenza artificiale come ChatGPT. L'obiettivo è tutelare l'integrità accademica, riducendo al minimo il rischio di accuse infondate verso gli studenti. Per valutare l'effettiva accuratezza di questo sistema, analizziamo i dati e le decisioni condivise pubblicamente da Turnitin.
Come funziona il sistema di rilevamento AI di Turnitin
Il sistema di rilevamento della scrittura AI di Turnitin analizza i testi caricati, valutando la probabilità che i diversi segmenti siano stati generati da un'intelligenza artificiale. Il sistema confronta le caratteristiche statistiche nell'uso delle parole, nella struttura delle frasi e nello stile con gli schemi tipici dei modelli linguistici di grandi dimensioni (LLM) come GPT-3 e GPT-4. Poiché i testi generati dall'AI tendono a seguire schemi linguistici più prevedibili rispetto alla scrittura umana, il sistema valuta la somiglianza di ogni segmento del documento con tali schemi.
Una volta individuati contenuti potenzialmente generati dall'AI, il sistema applica un ulteriore livello di analisi per verificare se tali contenuti siano stati parafrasati tramite strumenti di intelligenza artificiale (come QuillBot). Questo processo in due fasi permette di identificare sia i testi scritti direttamente dall'AI, sia i contenuti AI riformulati.
Cosa dichiara Turnitin in merito all'accuratezza?
Stando ai dati forniti da Turnitin, il sistema è progettato per mantenere un tasso di falsi positivi inferiore all'1% per i documenti contenenti più del 20% di testo generato dall'AI. Ciò significa che, su 100 elaborati scritti da persone, meno di uno dovrebbe essere erroneamente identificato come generato dall'AI. A sostegno di questa affermazione, Turnitin ha testato il suo sistema su 800.000 documenti accademici redatti prima dell'avvento di ChatGPT, utilizzandoli come riferimento per la scrittura umana autentica.
Tuttavia, per garantire un basso tasso di falsi positivi, Turnitin ammette un compromesso: il sistema potrebbe non individuare circa il 15% dei contenuti generati dall'AI. Ad esempio, se Turnitin indica che il 50% di un documento è stato scritto con l'AI, la percentuale effettiva potrebbe avvicinarsi al 65%. Questo riflette la prudenza del sistema, che preferisce evitare di accusare ingiustamente testi originali scritti da persone.
(fonte: Turnitin)
Aggiornamenti recenti per migliorare l'accuratezza
Per ottimizzare le prestazioni del sistema e ridurre al minimo gli errori, Turnitin ha implementato diversi aggiornamenti basati su test interni:
Avvisi con asterisco per bassi punteggi AI: i risultati inferiori al 20% vengono ora contrassegnati con un asterisco nel report, indicando una minore affidabilità e una maggiore probabilità di falsi positivi.
Aumento del numero minimo di parole: la soglia minima per l'analisi AI è stata portata da 150 a 300 parole, poiché Turnitin ha riscontrato una maggiore accuratezza con documenti più lunghi.
Modifiche all'analisi di introduzioni e conclusioni: Turnitin ha osservato che i falsi positivi si verificano spesso all'inizio o alla fine dei documenti (ad esempio, in introduzioni o conclusioni), e ha quindi modificato le modalità di analisi di queste sezioni.
Rilevamento di testi parafrasati dall'AI
Turnitin offre anche uno strumento per identificare testi parafrasati dall'AI, che viene attivato solo dopo che un contenuto è stato inizialmente segnalato come generato dall'AI. Questo significa che la verifica della parafrasi non incide sul tasso complessivo di falsi positivi. Tuttavia, il sistema di rilevamento della parafrasi a volte può identificare in modo errato il tipo di intervento dell'AI:
Potrebbe classificare un testo generato dall'AI sia come generato che come parafrasato (anche se non lo è), oppure
Potrebbe non riconoscere che un testo generato dall'AI è stato anche parafrasato.
Il sistema di rilevamento AI di Turnitin discrimina gli autori non madrelingua inglese?
Dubbi sollevati da Liang et al. (2023):
Nel 2023, i ricercatori Liang e colleghi hanno espresso preoccupazioni riguardo alla possibilità che i sistemi di rilevamento di testi AI mostrino pregiudizi nei confronti di autori non madrelingua inglese, anche noti come autori English Language Learner (ELL). Questa conclusione si basava sull'analisi di 91 prove di saggio TOEFL, tutte inferiori a 150 parole. Lo studio ha suscitato un ampio dibattito nella comunità accademica e ha spinto alcuni utenti di Turnitin a richiedere chiarimenti all'azienda.
Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). I rilevatori GPT sono distorti nei confronti degli scrittori di inglese non nativi. arXiv preprint arXiv:2304.02819.
In risposta, Turnitin ha pubblicato un proprio studio nell'ottobre 2023 per verificare se il suo sistema di rilevamento AI mostri una distorsione statisticamente significativa nei confronti degli autori ELL.
Quali sono state le conclusioni di Turnitin?
Turnitin ha testato il suo sistema di rilevamento AI utilizzando migliaia di saggi autentici di studenti, provenienti da diversi database accademici pubblici. Questi includevano elaborati sia di madrelingua inglese (autori L1) che di autori ELL (autori L2). I campioni sono stati suddivisi in base alla lunghezza:
Testi brevi: 150–300 parole
Testi più lunghi: 300 parole o più
Ecco i risultati:
Per testi più lunghi (300 parole o più):
Il tasso di falsi positivi, ovvero la probabilità che il sistema identifichi erroneamente un testo scritto da una persona come generato dall'AI, è risultato quasi identico sia per gli autori ELL che per i madrelingua inglese. La differenza era così minima da non essere statisticamente significativa.
➡️ Conclusione: quando i documenti rispettano il numero minimo di parole, il sistema di rilevamento AI di Turnitin non mostra una distorsione significativa nei confronti degli autori ELL.
Per testi più brevi (meno di 300 parole):
Il tasso di falsi positivi è aumentato in generale, e la differenza tra autori madrelingua e non madrelingua è diventata più evidente. Turnitin ha riconosciuto che i campioni più brevi non forniscono sufficienti informazioni linguistiche ("segnale") affinché il modello AI possa distinguere accuratamente tra testi scritti da persone e testi generati dall'AI.
➡️ Questo rende il sistema di rilevamento meno affidabile per tutti i testi brevi, e potenzialmente ancora di più per gli autori ELL.
Di conseguenza, Turnitin ha aggiornato il suo sistema per analizzare solo i testi con almeno 300 parole, con l'obiettivo di ridurre i falsi positivi e migliorare l'accuratezza.
In conclusione:
Turnitin conclude che il suo sistema di rilevamento AI non discrimina gli autori non madrelingua inglese, a condizione che il testo rispetti il limite minimo di 300 parole. L'azienda ha inoltre sottolineato il suo impegno costante nel migliorare l'equità e l'affidabilità del sistema, soprattutto in considerazione della continua evoluzione dei modelli linguistici di grandi dimensioni (LLM).
In che modo stanno rispondendo le università?
Sebbene Turnitin difenda l'integrità del suo sistema di rilevamento della scrittura AI, non tutti gli istituti accademici ne sono pienamente convinti. Diverse università hanno espresso preoccupazioni in merito alla trasparenza, all'affidabilità e al potenziale impatto dello strumento sulla fiducia degli studenti. Alcune hanno persino scelto di disabilitare completamente la funzione, adducendo il rischio di false accuse e la mancanza di una convalida sufficiente. Di seguito sono riportati esempi di come due università statunitensi, l'Università Vanderbilt e la Temple University, hanno valutato e reagito al sistema di rilevamento AI di Turnitin.
La decisione dell'Università Vanderbilt di disabilitare il rilevatore AI di Turnitin
L'Università Vanderbilt ha deciso di disattivare lo strumento di rilevamento AI di Turnitin a causa di dubbi sulla sua efficacia e trasparenza. Lo strumento è stato attivato con un preavviso inferiore a 24 ore, senza possibilità di rinuncia. Vanderbilt ha contestato il funzionamento del rilevatore, poiché Turnitin non ha fornito informazioni dettagliate sui metodi utilizzati per identificare i testi generati dall'AI. Pur dichiarando una percentuale di falsi positivi dell'1%, Vanderbilt ha evidenziato che, su 75.000 elaborati presentati nel 2022, si sarebbero potute verificare circa 750 segnalazioni errate di utilizzo dell'AI. Anche altre università hanno segnalato casi di studenti accusati ingiustamente di aver utilizzato l'AI, spesso a causa del rilevatore di Turnitin. Inoltre, alcuni studi suggeriscono che il sistema potrebbe essere più incline a identificare come generati dall'AI i testi prodotti da persone non madrelingua inglese, sollevando questioni di equità.
Valutazione del sistema di rilevamento della scrittura AI di Turnitin presso la Temple University
I ricercatori del Center for Student Success e del Center for the Advancement of Teaching della Temple University (Temple CAT) hanno condotto uno studio su Turnitin utilizzando 120 campioni di testo, suddivisi in quattro categorie: testi scritti interamente da persone, testi generati interamente dall'AI, testi generati dall'AI mascherati (parafrasati per evitare il rilevamento) e testi ibridi (combinazione di contributi umani e dell'AI). Questi ultimi simulavano scenari reali e didattici, come contenuti generati dall'AI e poi modificati da persone, oppure testi scritti da persone e poi perfezionati dall'AI. Tutti i campioni sono stati analizzati mediante il sistema di rilevamento AI di Turnitin.
Risultati:
Testi scritti da persone: identificati correttamente nel 93% dei casi.
Testi generati dall'AI: rilevati correttamente nel 77% dei casi.
Testi generati dall'AI mascherati: la percentuale di rilevamento è scesa al 63%.
Testi ibridi: identificati correttamente solo nel 43% dei casi; la capacità del sistema di individuare le parti effettivamente generate dall'AI è risultata scarsa.
Complessivamente, il sistema di rilevamento AI di Turnitin ha raggiunto una precisione di circa l'86% nell'individuazione dell'uso dell'AI, ma ha evidenziato una percentuale di errore del 14%, soprattutto con i testi mascherati e ibridi.
Discussione e implicazioni:
Il sistema di rilevamento AI di Turnitin è in grado di identificare in modo affidabile i lavori scritti unicamente da persone ed è utile quando l'uso dell'AI è completamente vietato, poiché un punteggio AI pari a 0% indica con forza la paternità umana. Tuttavia, lo strumento è progettato per ridurre al minimo i falsi positivi, il che a volte porta a una sovrastima dei contenuti generati da persone e produce alcune imprecisioni. Un aspetto fondamentale è che i report del sistema non riescono a individuare con precisione le parti di un elaborato generate dall'AI, soprattutto nei testi ibridi, un formato sempre più diffuso in ambito didattico.
A differenza del rilevamento del plagio, i testi generati dall'AI non presentano una fonte diretta a cui essere collegati; di conseguenza, le sezioni contrassegnate non forniscono riferimenti alla fonte originale. Tale mancanza di collegamenti verificabili limita la capacità dei docenti di confermare autonomamente il contenuto segnalato, e li obbliga ad affidarsi all'algoritmo di Turnitin senza disporre di prove trasparenti.
Cosa dicono gli utenti comuni di Turnitin?
Ora vediamo come gli utenti normali—soprattutto gli studenti—reagiscono allo strumento di rilevamento AI di Turnitin. Mentre alcuni ne riconoscono il potenziale, molti esprimono seri dubbi sulla sua accuratezza ed equità. Le discussioni online, specialmente su piattaforme come Reddit, mostrano una crescente frustrazione per i falsi positivi e i risultati incoerenti. Gli utenti segnalano frequentemente che il loro lavoro originale, scritto da persone, viene erroneamente contrassegnato come generato dall'AI.
Preoccupazioni degli utenti su Reddit
Diversi utenti di Reddit hanno condiviso esperienze personali di essere stati ingiustamente contrassegnati dal rilevatore AI di Turnitin:
Falsi positivi: EyYoSup ha riferito che la loro tesina finale è stata contrassegnata come scritta per il 23% con l'AI, anche se non hanno utilizzato affatto l'AI. Un altro è rimasto scioccato nel ricevere un punteggio AI del 48% per contenuti basati interamente su analisi personale e ricerche da siti Web affidabili.
Imprecisione riconosciuta dalle scuole: Alcune scuole sembrano riconoscere questi problemi. Un commentatore ha detto che la loro istituzione utilizza i risultati del rilevamento AI di Turnitin solo come riferimento, non come prova finale, riconoscendo che nessun rilevatore AI attuale è affidabile al 100%.
Opinione
Questi rapporti degli utenti suggeriscono un divario tra le affermazioni di Turnitin e le esperienze reali degli studenti. Sebbene lo strumento possa funzionare bene in determinate condizioni, la sua tendenza a classificare erroneamente la scrittura umana genuina, specialmente quando gli studenti parafrasano o riassumono le ricerche, solleva problemi di equità. Affidarsi troppo a tali strumenti per la valutazione o le decisioni accademiche, specialmente senza trasparenza o processi di appello, rischia di danneggiare gli studenti che non hanno fatto nulla di male.
Perché il tuo saggio potrebbe essere rilevato come AI
Molti studenti si sentono confusi e frustrati quando Turnitin segnala il loro lavoro originale come generato dall'AI. Se ti è successo, non sei il solo.
Ecco alcuni motivi specifici per cui il tuo saggio, pur scritto da te, potrebbe essere comunque segnalato:
1. Linguaggio eccessivamente formale o generico
Il testo generato dall'AI spesso risulta impersonale e neutro. Se il tuo saggio è caratterizzato da una grammatica perfetta, assenza di contrazioni o un tono didattico, il sistema di rilevamento potrebbe erroneamente classificarlo come generato dall'AI, anche se lo hai scritto tu.
2. Mancanza di voce personale o di varietà stilistica
Gli strumenti di intelligenza artificiale tendono a produrre frasi con strutture prevedibili. Se il tuo stile di scrittura è poco vario, privo di sfumature o di una chiara impronta personale, potrebbe assomigliare agli schemi tipici di un testo prodotto da una macchina.
3. Eccessivo ricorso alla parafrasi di fonti online
Anche se conduci ricerche accurate e riformuli personalmente i concetti, riassumere troppo fedelmente contenuti online molto diffusi può ricordare lo stile dell'AI, che a sua volta si basa su dati disponibili pubblicamente.
4. Lunghezza insufficiente o numero di parole limitato
Turnitin ha dichiarato che i saggi inferiori a 300 parole sono più facilmente soggetti a segnalazioni errate. I testi brevi offrono al sistema di rilevamento AI meno elementi per l'analisi, aumentando il rischio di una classificazione imprecisa.
5. Struttura ripetitiva o idee scollegate
Un testo generato dall'AI può talvolta apparire ripetitivo o eccessivamente logico, ma privo di approfondimento. Se il tuo lavoro presenta elenchi, frasi ripetute o transizioni poco efficaci, potrebbe ricordare lo stile tipico della scrittura generata dall'AI.
6. Argomenti molto comuni o popolari
Gli argomenti ampiamente trattati online, come il cambiamento climatico, i vantaggi dei social media o le uniformi scolastiche, sono ben noti ai modelli AI. Se la tua argomentazione segue schemi consolidati o utilizza espressioni ricorrenti, il sistema di rilevamento potrebbe classificarla come prodotta dall'AI.
7. Stile di citazione e di riferimento
In alcuni casi, il sistema di rilevamento di Turnitin può segnalare determinati stili di citazione o elenchi bibliografici che coincidono strettamente con i dati utilizzati per l'addestramento dell'AI. Questo è raro, ma può accadere, soprattutto se le tue fonti sono molto utilizzate o presentate in modo generico.
Per gli studenti: Cosa fare se si viene segnalati dal rilevatore AI di Turnitin
Essere segnalati per l'uso di AI quando in realtà non si è utilizzata può essere frustrante e ingiusto. Ma niente paura: ci sono dei passi che puoi intraprendere per spiegare e difendere il tuo lavoro.
1. Mantieni la calma ed esamina il rapporto
Innanzitutto, analizza attentamente il rapporto di Turnitin. Turnitin non indica il tuo elaborato come interamente scritto con AI, ma fornisce una percentuale di quanto sospetta possa essere stato generato con AI. Controlla quali parti sono state segnalate e chiediti: c'è qualcosa che sembra troppo elaborato, troppo ripetitivo o troppo simile ai tipici output generati dall'AI?
2. Raccogli le prove del tuo processo di scrittura
Il modo migliore per dimostrare l'originalità del tuo lavoro è mostrare come lo hai creato:
Mostra le tue bozze – Se hai scritto il tuo saggio su Documenti Google o Word, usa la funzione cronologia delle versioni o registra modifiche per comprovare il tuo processo di scrittura.
Fai screenshot o video – Documentare i tuoi appunti scritti a mano, le bozze o le ricerche stampate con evidenziazioni può rafforzare la tua posizione.
Fornisci i tuoi riferimenti – Se hai utilizzato fonti esterne, mostrale al tuo docente con note su come hai usato le informazioni.
3. Parla con il tuo docente
Contatta il tuo docente con rispetto. Spiega che il contenuto è opera tua e condividi le prove del tuo processo di scrittura. Spiega come hai sviluppato le tue idee. Molti docenti apprezzano la trasparenza e l'impegno più dello scontro.
4. Chiedi una revisione o una rivalutazione
Se la tua scuola lo consente, potresti richiedere una seconda opinione o presentare un ricorso accademico. Non esitare a chiedere chiarimenti sulle politiche e sui tuoi diritti come studente.
Come dovrebbero gli insegnanti utilizzare i report di rilevamento dell'IA di Turnitin?
Gli insegnanti dovrebbero considerare i report di rilevamento dell'IA di Turnitin con cautela, attenzione al contesto e apertura alla comunicazione: non come un verdetto definitivo, ma come un elemento informativo all'interno di una valutazione accademica più ampia. Ecco come utilizzare questi strumenti in modo responsabile ed equo:
1. Non basarsi esclusivamente sul punteggio
Il punteggio dell'IA di Turnitin non costituisce una prova di comportamento scorretto. È concepito come supporto al giudizio dell'insegnante, non come sua sostituzione. Una percentuale elevata non implica automaticamente che lo studente abbia copiato.
2. Confrontare con i lavori precedenti
Esaminare il compito segnalato unitamente alle precedenti consegne dello studente. Si riscontrano differenze nel tono, nella struttura, nel lessico o nella complessità? Variazioni improvvise possono sollevare dubbi fondati, ma solo se valutate nel contesto.
3. Verificare incrociando con altri strumenti
Sottoporre lo stesso testo a diversi sistemi di rilevamento dell'IA può fornire ulteriori elementi utili. I risultati possono variare, ma se più strumenti sollevano le stesse perplessità, potrebbe essere opportuno approfondire l'analisi.
4. Parlare con lo studente
Intavolare una conversazione rispettosa. Chiedere chiarimenti sul processo di scrittura, sulle fonti utilizzate e sulla tempistica di realizzazione. Mostrare le sezioni evidenziate. L'eventuale disponibilità di bozze, appunti o della cronologia delle versioni (ad esempio, in Google Docs) rappresenta un elemento di valutazione prezioso.
5. Offrire l'opportunità di rivedere il lavoro
Salvo in presenza di chiare evidenze di utilizzo improprio intenzionale, è preferibile offrire agli studenti la possibilità di rivedere o riformulare il testo. Molti studenti potrebbero non essere consapevoli del fatto che il loro elaborato possa essere interpretato in modo errato da un algoritmo.
6. Attenersi alla procedura istituzionale
Qualora si sospetti una violazione e lo studente non fornisca una giustificazione ragionevole, attenersi alla procedura stabilita dall'istituto in materia di integrità accademica, tenendo tuttavia presenti i limiti degli strumenti di rilevamento dell'IA e la possibilità di falsi positivi.
7. Definire chiaramente le aspettative
Stabilire fin dall'inizio del corso linee guida chiare sull'utilizzo dell'IA: cosa è consentito, cosa non lo è e come citare strumenti come ChatGPT, se ne è autorizzato l'impiego. Definire queste aspettative in anticipo previene incomprensioni e favorisce un clima di fiducia.
FAQ
D: È possibile che Turnitin commetta errori?
R: Sì, Turnitin può sbagliare. I suoi strumenti per il rilevamento del plagio e dell'AI sono utili, ma non perfetti. A volte, lavori originali vengono segnalati erroneamente, soprattutto se simili a modelli di scrittura comuni o a informazioni con molte citazioni.
D: Un punteggio del 36% su Turnitin è accettabile?
R: Dipende dal tipo di compito. Per quanto riguarda il rilevamento del plagio, un punteggio Turnitin del 36% potrebbe essere accettabile se la maggior parte deriva da citazioni o riferimenti attribuiti correttamente. Per il rilevamento dell'AI, la questione è più complessa: un 30% potrebbe destare o meno preoccupazioni, a seconda di cosa è stato segnalato e dell'interpretazione del docente.
D: Turnitin è uno strumento davvero affidabile?
R: Turnitin è uno strumento molto diffuso, ma non infallibile. È più efficace nell'identificare corrispondenze testuali dirette per il plagio, mentre il rilevamento dell'AI è una tecnologia più recente e in fase di sviluppo. Si raccomanda agli insegnanti di utilizzarlo come riferimento, non come giudizio definitivo.
D: Un punteggio del 70% su Turnitin è considerato negativo?
R: Un punteggio di similarità del 70% per il plagio di solito è un campanello d'allarme e richiede un'analisi approfondita. Nel caso del rilevamento dell'AI, un punteggio del 70% non implica automaticamente una condotta scorretta, ma probabilmente spingerà il docente a indagare ulteriormente.
D: Quanto è preciso il sistema di rilevamento AI di Turnitin?
R: Il sistema è ragionevolmente preciso con testi chiaramente scritti da AI o da persone, ma incontra difficoltà con testi ibridi, in cui i contributi umani e dell'AI si mescolano. La precisione si riduce ulteriormente quando i contenuti generati dall'AI vengono parafrasati o modificati in modo significativo.
D: Qual è l'accuratezza del rilevatore AI di Turnitin rispetto ad altri strumenti simili?
R: Secondo studi indipendenti, Turnitin offre prestazioni migliori rispetto a molti rilevatori gratuiti, ma non è ancora perfetto. In situazioni miste o con parafrasi, la sua accuratezza può scendere al di sotto del 50%. Altri strumenti, come GPTZero o Originality.ai, possono fornire risultati diversi, ma presentano anch'essi delle limitazioni.
D: Turnitin riesce a rilevare contenuti AI con meno di 300 parole?
R: Non in modo affidabile. Testi brevi non forniscono un contesto sufficiente affinché il sistema di rilevamento AI di Turnitin possa effettuare una valutazione solida. In questi casi, il rischio di falsi positivi aumenta.
Considerazioni finali
Il sistema di rilevamento AI di Turnitin non è sempre preciso e una segnalazione non implica automaticamente una scorrettezza. Questi strumenti sono ancora in fase di perfezionamento e possono erroneamente identificare testi scritti da persone, soprattutto quando questi ricalcano schemi tipici dei contenuti generati dall'AI.
Studenti e insegnanti dovrebbero valutare i risultati del rilevamento AI con prudenza, tenendo conto del contesto e favorendo il dialogo aperto. Comprendendo il funzionamento di questi strumenti e le ragioni dei falsi positivi, possiamo promuovere un utilizzo più corretto, consapevole e ragionato dell'AI nel settore dell'istruzione.