Quale strumento AI sfrutta Turnitin? Modelli, precisione

Con strumenti di scrittura AI come ChatGPT disponibili dappertutto, non sorprende che Turnitin sia intervenuto con i suoi strumenti di rilevamento AI.
Ma a differenza degli strumenti gratuiti che forniscono risposte imprecise, il sistema di Turnitin è più accurato e internamente molto più complesso.
Ho analizzato approfonditamente il loro whitepaper ufficiale e ho testato il suo funzionamento; quindi, in questo articolo, spiegherò quali modelli Turnitin utilizza realmente, come individua i testi generati dall'AI o parafrasati con l'AI e cosa lo differenzia dagli altri.
1. Quale rilevatore AI utilizza Turnitin?
Secondo il white paper ufficiale di Turnitin (la fonte su cui si basa questo articolo), il sistema di rilevamento AI di Turnitin si basa su due modelli chiave di deep-learning:
AIW (abbreviazione di AI Writing) è il modello che verifica se un testo è stato generato da un'AI.
AIR (abbreviazione di AI Rewriting) è un modello più recente che cerca specificamente testi che sono stati parafrasati o riscritti da strumenti di AI per sembrare più umani.
Entrambi sono costruiti utilizzando un'architettura basata su transformer — lo stesso tipo di tecnologia alla base dell'AI moderna come ChatGPT.
Turnitin ha lanciato per la prima volta il suo strumento di rilevamento AI—AIW-1—ad aprile 2023. Quel modello è stato aggiornato e sostituito da AIW-2 a dicembre 2023. Poi, a luglio 2024, AIR-1 è stato aggiunto per rilevare un uso più sottile dell'AI, come quando uno studente utilizza uno strumento di AI solo per riformulare contenuti esistenti.
Insieme, questi modelli aiutano gli istruttori a individuare testi che potrebbero essere scritti o modificati dall'AI, fornendo approfondimenti sull'originalità del lavoro degli studenti.
D: Possono i privati utilizzare i rilevatori AI di Turnitin?
Il rilevamento AI di Turnitin fa parte del loro servizio di originalità, che è disponibile solo per istituzioni come scuole e università. E tutti i servizi di Turnitin sono a pagamento.
I report sono accessibili solo a istruttori e amministratori. Quindi, se sei uno studente o un privato, non puoi utilizzare direttamente Turnitin o i suoi rilevatori AI. Tuttavia, alcuni strumenti alternativi sono disponibili online, inclusi link Discord condivisi dalla comunità o altre app di rilevamento AI.
2. Come è stato sviluppato il sistema di rilevamento AI di Turnitin?
AIW-1: Il punto di partenza
Il primo sistema di Turnitin per il rilevamento di testi scritti con l'ausilio dell'AI, chiamato AIW-1, è stato lanciato ad aprile 2023. Analizzava gli elaborati alla ricerca di schemi tipici dei testi generati dall'intelligenza artificiale, come strutture eccessivamente lineari, mancanza di sfumature o ripetizioni di frasi.
Se riscontrava un numero sufficiente di questi schemi, il testo veniva segnalato come probabilmente scritto dall'AI.
Un punto di forza di AIW-1 era la sua bassissima percentuale di falsi positivi: era progettato per evitare di accusare erroneamente testi scritti da persone di essere stati generati dall'AI. Se veniva segnalato almeno il 20% del documento, la probabilità di un falso allarme era inferiore all'1%.
Questo dava agli insegnanti la sicurezza di fidarsi dei risultati, senza il rischio di reazioni eccessive in casi poco chiari.
AIW-2: Un aggiornamento più sofisticato
Tuttavia, gli strumenti di intelligenza artificiale stavano diventando sempre più sofisticati, soprattutto quelli in grado di riscrivere o parafrasare i testi. Questi strumenti prendono testi generati dall'AI e li modificano ulteriormente per renderli più simili a testi scritti da persone. Questo rendeva l'individuazione molto più complessa.
Per questo, Turnitin ha sviluppato AIW-2, lanciato a dicembre 2023: un modello più avanzato, addestrato su una gamma più ampia di testi:
Testi generati direttamente dall'AI (come da ChatGPT)
Testi autentici di studenti, provenienti da diversi ambiti e discipline
Testi generati dall'AI e poi rielaborati tramite sistemi di parafrasi AI
Documenti che combinano contenuti scritti da persone e contenuti generati dall'AI
AIW-2 si basa su un'architettura di deep learning "transformer-based", simile a quella di modelli come GPT-4. Questo gli permette di riconoscere schemi più complessi nella struttura delle frasi, nella grammatica e nel tono, che sfuggono ai modelli più semplici.
📊 A giugno 2024, Turnitin ha dichiarato di aver utilizzato AIW-2 su oltre 250 milioni di elaborati (Turnitin, 2024), potendo così contare su un'enorme base di dati per l'addestramento e il testing.
In sintesi, AIW-2 ha rappresentato un grande passo avanti: ha migliorato la precisione del rilevamento, ridotto i falsi positivi e reso il sistema più efficace contro i contenuti AI parafrasati.
Finora, abbiamo parlato del rilevamento generico di testi scritti dall'AI. Ma cosa succede quando gli studenti cercano di camuffare i testi generati dall'AI utilizzando strumenti di parafrasi? È qui che entra in gioco l'ultimo modello di Turnitin: AIR-1.
3. Il modello AIR-1: Come individua la parafrasi generata dall'IA
Sempre più studenti (e scrittori in generale) utilizzano strumenti di parafrasi basati sull'IA, spesso chiamati "text spinner", per riscrivere contenuti generati dall'IA. Questi strumenti non creano testi originali come ChatGPT, ma riformulano testi esistenti nel tentativo di nasconderne l'origine.
Ma c'è una peculiarità: gli strumenti di parafrasi lasciano delle impronte statistiche differenti rispetto ai modelli di scrittura AI veri e propri.
Per questo, Turnitin ha sviluppato un modello specializzato per identificare questi schemi: così è nato AIR-1, acronimo di AI Rewriting detection, nel luglio 2024.
Cos'è la parafrasi generata dall'IA e perché è difficile da individuare?
Gli strumenti di parafrasi (spesso anch'essi basati sull'IA) prendono testi prodotti da LLM come ChatGPT e li riformulano. L'obiettivo? Renderli meno artificiali e più simili allo stile di scrittura di uno studente. Questi strumenti non generano idee nuove, ma si limitano a rielaborare materiale esistente.
Dal punto di vista del rilevamento, questo complica le cose. La struttura e il vocabolario possono cambiare, ma la firma statistica tipica della scrittura AI spesso rimane riconoscibile.
Come funziona AIR-1
Immagina AIR-1 come un detective addestrato a identificare contenuti AI riformulati. Non si limita ad analizzare il contenuto, ma presta attenzione a come è espresso, individuando indizi e schemi linguistici sottili caratteristici dei testi AI parafrasati. Non analizza solo la scelta delle parole o le espressioni utilizzate, ma schemi più profondi che gli strumenti di parafrasi AI tendono a lasciare. Questo include il ritmo del testo, il modo in cui le idee vengono riorganizzate e persino le variazioni nella complessità delle frasi.
Ecco cosa succede nel dettaglio:
Innanzitutto, il modello AIW-2 esegue la sua scansione abituale.
Se il modello AIW-2 identifica il 20% o più del documento come potenzialmente generato dall'IA, allora AIR-1 entra in azione.
AIR-1 analizza nuovamente le frasi contrassegnate, ricercando segnali di parafrasi AI.
Se vengono rilevati tali segnali, la frase viene evidenziata in viola nel report di scrittura AI di Turnitin.
Come appare nei report
Quando AIR-1 identifica una frase come parafrasata dall'IA, la segnala insieme al rilevamento originale di AIW-2. Nell'interfaccia dei report di Turnitin, queste frasi sono spesso evidenziate in viola, indicando che il sistema le considera sia scritte dall'IA sia parafrasate da un altro strumento di IA.
Questo ulteriore livello di analisi aiuta i docenti a comprendere meglio non solo se è stata utilizzata l'IA, ma anche come: se lo studente ha copiato e incollato testo da un chatbot o ha tentato di camuffarlo con uno strumento di parafrasi.
✳️ AIR-1 non esegue la scansione dell'intero documento. Analizza solo il testo che AIW-2 ha già identificato come potenzialmente generato dall'IA e non cerca mai di rilevare parafrasi in testi che AIW-2 considera scritti da persone.
Ora che abbiamo esaminato tutti gli strumenti principali (AIW-2 e AIR-1), parliamo dei dati e dell'addestramento necessari per svilupparli.
4. Come sono stati addestrati e collaudati i rilevatori AI di Turnitin?
Ora che abbiamo capito cosa fanno realmente AIW-2 e AIR-1, è lecito chiedersi: come facciamo a sapere che sono affidabili?
Bene, secondo Turnitin, è stata dedicata molta attenzione – e molti dati – all'addestramento e al collaudo di questi modelli, per garantire che funzionino come previsto. Cerchiamo di capire meglio la cosa.
Addestramento dei modelli: da dove provengono i dati?
Per insegnare a AIW-2 e AIR-1 a individuare contenuti scritti o parafrasati dall'AI, Turnitin ha utilizzato enormi insiemi di dati, ma non si trattava solo di testo qualsiasi.
Secondo Turnitin:
Il modello AIW-2 è stato addestrato utilizzando un mix di contenuti generati dall'AI e di testi accademici reali, scritti da persone. Ciò includeva documenti provenienti da una vasta gamma di materie, paesi e dati demografici degli studenti.
Turnitin si è particolarmente impegnata per includere gruppi sottorappresentati, come studenti di seconda lingua e studenti provenienti da diversi contesti accademici. Questo aiuta a ridurre i pregiudizi e rende il modello più equo e accurato tra diversi stili di scrittura.
È importante sottolineare che i dati di addestramento di AIW-2 includevano anche esempi di testo generato dall'AI che era stato elaborato tramite strumenti di parafrasi; questo è stato fondamentale per migliorare la sua capacità di individuare contenuti "AI+AI-parafrasati".
Per AIR-1, l'attenzione era ancora più specifica:
È stato addestrato su una vasta gamma di testo parafrasato dall'AI, insieme a testi normali scritti da persone e a puro contenuto AI.
Questo ha aiutato AIR-1 a imparare a individuare indizi sottili, unici per l'AI riformulata: indizi che i rilevatori AI tradizionali spesso non colgono.
In breve, questi modelli non sono stati addestrati solo su esempi estratti da Internet, ma sono stati progettati attentamente utilizzando scenari accademici realistici, per riprodurre le situazioni che educatori e studenti si trovano ad affrontare.
Test dei modelli: come misura Turnitin l'accuratezza?
Quando si tratta di test, Turnitin si concentra su due metriche fondamentali:
Recall – Questo misura quanti testi effettivamente scritti dall'AI vengono identificati correttamente. Un alto recall significa che il modello sta facendo un buon lavoro nell'individuare ciò che dovrebbe.
Tasso di falsi positivi (FPR) – Questo indica con quale frequenza un testo scritto da persone viene erroneamente contrassegnato come AI. Un basso FPR è fondamentale, soprattutto in contesti accademici, dove una falsa accusa può avere gravi conseguenze.
Secondo Turnitin, AIW-2 mantiene il tasso di falsi positivi a livello di documento inferiore all'1%, a condizione che trovi almeno il 20% di un documento generato dall'AI. Per questo motivo, vedrete spesso questa soglia del 20% menzionata nel report AI: è un valore limite scelto con cura in base ai test.
Perché la sola "accuratezza" non è sufficiente
È interessante notare che Turnitin non utilizza il termine generale "accuratezza" nei suoi report. Perché?
Perché in insiemi di dati sbilanciati (ad esempio, quando la maggior parte dei documenti sono scritti da persone), anche un modello molto scarso potrebbe sembrare accurato al 99% semplicemente indovinando sempre "umano". Questo sarebbe fuorviante.
Concentrandosi invece su recall e FPR, Turnitin fornisce una visione più onesta dell'effettivo rendimento del suo sistema di rilevamento.
Ora che abbiamo capito come sono addestrati i modelli di Turnitin, diamo un'occhiata più da vicino a come analizzano la scrittura di uno studente dopo che è stata inviata. Qui le cose diventano un po' più tecniche, ma cercheremo di semplificare il tutto.
Come funziona davvero il sistema di rilevamento AI di Turnitin
Innanzitutto, il sistema suddivide il testo in piccoli blocchi
Turnitin utilizza un metodo chiamato approccio a finestre segmentate. In pratica, invece di analizzare l'intero testo in una sola volta, il sistema lo suddivide in piccole sezioni sovrapposte, ad esempio segmenti di cinque-dieci frasi.
Ciascuna di queste "finestre" scorre attraverso il documento una frase alla volta, in modo che ogni frase venga analizzata in contesti diversi. Questo permette al sistema di valutare la stessa frase in maniera più accurata.
Quindi, assegna a ogni frase un punteggio di probabilità di essere generata da AI
Ogni segmento riceve un punteggio compreso tra 0 e 1:
Un punteggio vicino allo 0 indica che il testo è probabilmente stato scritto da un essere umano.
Un punteggio vicino all'1 suggerisce che il testo è più probabilmente generato dall'AI.
Poiché ogni frase compare in più finestre, Turnitin calcola un punteggio medio ponderato per ciascuna frase, attenuando eventuali errori di lettura e fornendo una valutazione più affidabile.
Inoltre, il sistema valuta anche se le frasi identificate come generate da AI sono state parafrasate, assegnando un punteggio separato.
Successivamente, il sistema esprime un giudizio a livello di documento
Come stabilisce, quindi, se un intero documento è stato generato dall'AI?
Stando a quanto dichiarato da Turnitin, un documento viene segnalato solo se il 20% o più delle frasi supera la soglia di rilevamento della scrittura AI. Questa soglia del 20% non è casuale, ma si basa su test che hanno dimostrato che percentuali inferiori portano spesso a falsi positivi. In questo modo, Turnitin cerca di essere prudente e di segnalare un testo solo quando vi sono chiari indizi dell'utilizzo di sistemi AI.
In altre parole, un testo deve presentare una quantità significativa di contenuti simili a quelli generati dall'AI per essere classificato come tale.
I documenti brevi non vengono controllati
Un altro limite importante: Turnitin non analizza tramite il rilevatore AI documenti inferiori a 300 parole, poiché i testi brevi non forniscono dati sufficienti per esprimere un giudizio accurato. Il sistema necessita di una certa quantità di testo: più parole ci sono, più precisa sarà l'analisi.
Questo spiega come Turnitin rileva contenuti generati da AI.
Come si distingue il sistema di rilevamento AI di Turnitin rispetto ad altri strumenti?
Esistono numerosi sistemi di rilevamento AI, alcuni gratuiti e altri a pagamento, ma quello di Turnitin si distingue per alcuni aspetti chiave:
Progettato specificamente per l'ambito accademico: A differenza di molti rilevatori generici, i modelli di Turnitin sono addestrati in modo specifico su elaborati reali di studenti in varie discipline, lingue e stili di scrittura. Ciò riduce i falsi positivi e ne aumenta l'affidabilità in contesti educativi.
Un approccio a due modelli: Mentre la maggior parte dei rilevatori si limita a identificare i testi generati dall'AI, Turnitin utilizza due modelli: AIW-2 per i testi AI grezzi e AIR-1 per i testi parafrasati con l'AI. Questo permette di coprire un'area più ampia e di individuare contenuti abilmente mascherati.
Architettura basata su Transformer: Molti rilevatori si basano su statistiche più semplici come la perplessità o la ridondanza. L'utilizzo di modelli transformer avanzati consente a Turnitin di individuare pattern linguistici sottili, rendendo il rilevamento più intelligente e preciso.
Ampia diffusione e integrazione: Gli strumenti di Turnitin sono integrati nei sistemi di gestione dell'apprendimento di tutto il mondo e analizzano già oltre 250 milioni di elaborati. Questo significa che i loro modelli migliorano costantemente grazie ai dati reali.
Trasparenza e test: Turnitin pubblica white paper dettagliati e studi di convalida, dimostrando apertamente le prestazioni e i limiti del proprio sistema, cosa che la maggior parte dei rilevatori gratuiti non fa.
In sintesi: Turnitin non è semplicemente un altro strumento di verifica AI. È un sistema solido e basato sulla ricerca, progettato per soddisfare le complesse esigenze del settore dell'istruzione, anziché limitarsi a segnalare l'utilizzo dell'AI in base a regole semplicistiche.
Turnitin contro altri sistemi di rilevamento AI
Ti stai chiedendo se puoi utilizzare altri sistemi di rilevamento AI al posto di Turnitin per controllare il tuo lavoro prima di inviarlo? Il punto è questo: il sistema di Turnitin non è facilmente sostituibile da strumenti diffusi come GPTZero.
Turnitin addestra i suoi modelli AI su elaborati reali di studenti, in un'ampia varietà di materie e lingue, quindi è ottimizzato per la scrittura accademica. Inoltre, ha imparato analizzando oltre 250 milioni di elaborati reali—un dato che la maggior parte degli altri sistemi di rilevamento non possiede. Queste informazioni reali aumentano notevolmente la precisione.
Turnitin va anche oltre, utilizzando due modelli: uno per identificare i testi generati dall'AI e un altro per individuare le frasi parafrasate dall'AI. Sebbene GPTZero e Quillbot offrano evidenziazioni a livello di frase, non raggiungono la profondità e l'affidabilità di Turnitin.
Tecnicamente, molti sistemi di rilevamento si basano su statistiche più semplici come la perplessità, ma Turnitin si basa su modelli transformer avanzati che individuano schemi linguistici sottili, rendendo il suo rilevamento più efficace.
FAQ
Q: What AI models does Turnitin use?
R: Turnitin utilizza due modelli principali: AIW (AI Writing) per rilevare il testo generato direttamente da sistemi di IA, e AIR (AI Rewriting) per individuare i contenuti parafrasati tramite IA. Le versioni più recenti sono AIW-2 e AIR-1, entrambe basate su deep learning avanzato con architettura Transformer.
Q: How can I avoid being flagged by Turnitin’s AI detectors?
R: Se temi di essere segnalato dai sistemi di rilevamento IA di Turnitin, il modo migliore è scrivere contenuti originali, ben documentati e con il tuo stile personale. Esistono anche strumenti che umanizzano il testo, migliorando il tuo lavoro senza introdurre un tono generato dall'IA.
Q: Is Turnitin more accurate than free tools like ZeroGPT?
R: Sì. I modelli di Turnitin sono sottoposti a peer review, testati su milioni di documenti accademici reali e ottimizzati specificamente per la scrittura studentesca. Al contrario, molti strumenti di rilevamento gratuiti non condividono i dati di training o i tassi di falsi positivi, e spesso trascurano dettagli a livello di frase. Strumenti come ZeroGPT tendono ad essere più permissivi e meno precisi.
Q: Can Turnitin detect writing from newer AI like GPT-4 or Gemini?
R: Certamente. Dal 2024, il sistema di Turnitin è progettato per identificare testi generati da GPT-3, GPT-4, GPT-4o, Gemini, LLaMA e altri modelli linguistici di grandi dimensioni leader.
Q: How accurate is Turnitin’s AI detection?
R: Secondo Turnitin, il suo sistema di rilevamento IA è molto preciso. Mantiene un tasso di falsi positivi inferiore all'1% per documenti in cui almeno il 20% del testo è generato dall'IA.
Conclusione
Abbiamo analizzato nel dettaglio lo strumento di controllo AI di Turnitin: da come scompone i documenti nei loro elementi costitutivi a come viene addestrato utilizzando sia elaborati di studenti reali sia contenuti generati dall'AI. Con l'evolversi dell'AI, anche Turnitin si evolve, un tema cruciale con cui sia gli insegnanti che gli studenti devono confrontarsi. In definitiva, l'obiettivo non è individuare i trasgressori, ma preservare l'integrità del nostro lavoro. Comprendere il funzionamento di questo strumento aiuta tutti a utilizzarlo in modo più corretto e responsabile.