Welchen KI-Detektor nutzt Turnitin? Modelle, Genau. & mehr

Mit KI-Schreibwerkzeugen wie ChatGPT, die allgegenwärtig sind, überrascht es nicht, dass Turnitin nun mit eigenen KI-Erkennungssystemen auftritt.
Doch im Gegensatz zu den kostenlosen Tools, die oft unklare Ergebnisse liefern, präsentiert sich Turnitins System wesentlich fundierter – und unter der Oberfläche deutlich komplexer.
Ich habe das offizielle Whitepaper durchgearbeitet und dessen Funktionsweise getestet, sodass ich in diesem Beitrag darlege, welche Modelle Turnitin tatsächlich einsetzt, wie sie KI sowie von KI umformulierte Texte erkennen und was sie von anderen Systemen unterscheidet.
1. Welchen AI Detector verwendet Turnitin?
Gemäß Turnitins offiziellem Whitepaper (auf dessen Grundlage dieser Artikel basiert) beruht Turnitins AI-Erkennungssystem auf zwei zentralen Deep-Learning-Modellen:
AIW (Kurzform für AI Writing) ist das Modell, das feststellt, ob ein Text von einer AI generiert wurde.
AIR (Kurzform für AI Rewriting) ist ein neueres Modell, das gezielt nach Texten sucht, die von AI-Tools paraphrasiert oder umgeschrieben wurden, um menschlicher zu klingen.
Beide Modelle basieren auf einer transformer-basierten Architektur — derselben Technologie, die modernen AIs wie ChatGPT zugrunde liegt.
Turnitin brachte sein AI-Erkennungstool — AIW-1 — erstmals im April 2023 auf den Markt. Dieses Modell wurde im Dezember 2023 aktualisiert und durch AIW-2 ersetzt. Im Juli 2024 wurde dann AIR-1 ergänzt, um auch subtilere AI-Nutzung zu erkennen, beispielsweise wenn ein Student ein AI-Tool lediglich dazu verwendet, vorhandene Inhalte umzuformulieren.
Gemeinsam unterstützen diese Modelle Lehrkräfte dabei, Texte zu identifizieren, die möglicherweise von einer AI erstellt oder verändert wurden, und ermöglichen so tiefere Einblicke in die Originalität der Arbeiten von Studierenden.
F: Können Einzelpersonen Turnitins AI-Detektoren nutzen?
Die AI-Erkennung von Turnitin ist Teil ihres Originalitätsdienstes, der ausschließlich Institutionen wie Schulen und Hochschulen vorbehalten ist. Zudem sind alle Turnitin-Dienste kostenpflichtig.
Berichte stehen nur Lehrkräften und Administratoren zur Verfügung. Deshalb können Studierende oder einzelne Nutzer Turnitin nicht direkt verwenden oder auf seine AI-Detektoren zugreifen. Allerdings gibt es online einige alternative Tools, darunter von der Community geteilte Discord-Links oder andere AI-Erkennungs-Apps.
2. Wie wurde Turnitins KI-Detektor entwickelt?
Zuerst gab es AIW-1
Turnitins erster KI-Schreibdetektor trug den Namen AIW-1 und wurde im April 2023 eingeführt. Er arbeitete, indem er Texte auf typische Muster von KI-generierten Inhalten untersuchte – etwa eine übermäßig glatte Struktur, fehlende Nuancen oder sich wiederholende Formulierungen.
Wurden in einem Dokument ausreichend dieser Muster gefunden, wurde der Text als vermutlich von KI verfasst markiert.
Eine der Stärken von AIW-1 lag in seiner sehr niedrigen false positive rate – er war also sehr darauf bedacht, menschliche Texte nicht fälschlicherweise als KI-generiert zu deklarieren. Solange mindestens 20% des Dokuments markiert wurden, lag die Wahrscheinlichkeit eines Fehlalarms bei weniger als 1%.
Das stärkte das Vertrauen der Lehrkräfte in die Ergebnisse, ohne dass sie bei kleinen, grenzwertigen Fällen überreagierten.
Dann kam AIW-2 – ein intelligenteres Upgrade
Doch folgendes muss man bedenken: KI-Tools wurden immer ausgefeilter – vor allem jene, die Texte rewrite oder paraphrase. Diese Tools nehmen von einer KI erstellte Sätze und lassen sie durch eine zusätzliche Schicht laufen, um sie menschlicher klingen zu lassen. Das machte die Erkennung erheblich schwieriger.
Darauf reagierte Turnitin mit AIW-2, das im Dezember 2023 auf den Markt kam. Es handelt sich um ein intelligenteres Modell, das mit einer größeren Vielfalt an Schreibbeispielen trainiert wurde:
Standardmäßig von KI generierte Texte (zum Beispiel von ChatGPT)
Echte Schülerarbeiten aus unterschiedlichen Hintergründen und Fachbereichen
Texte, die zunächst von KI erstellt und anschließend von einem AI paraphraser umformuliert wurden
Gemischte Dokumente, die sowohl menschliche als auch KI-Inhalte enthalten
AIW-2 basiert zudem auf einer transformerbasierten Deep-Learning-Architektur, ähnlich wie die Modelle hinter Tools wie GPT-4. Dadurch ist es in der Lage, komplexere Muster in Satzbau, Grammatik und Tonfall zu erkennen – Aspekte, die einfachere Modelle oft übersehen.
📊 Bis Juni 2024 meldete Turnitin, dass AIW-2 bei über 250 million Schülereinreichungen eingesetzt wurde (Turnitin, 2024). Das liefert eine enorme Basis an Trainings- und Testdaten.
Zusammengefasst war AIW-2 ein Quantensprung: Es verbesserte die Erkennungsgenauigkeit, senkte die Anzahl der false positives und machte das System robuster gegenüber umformulierten KI-Inhalten.
Bisher haben wir die Erkennung von KI-Verfassungen im Allgemeinen thematisiert. Doch wie verhält es sich mit Fällen, in denen Schüler versuchen, mask AI text mit Hilfe von paraphrasing tools zu verschleiern? Genau hier setzt Turnitins neuestes Modell – AIR-1 – an.
3. Das AIR-1 Modell: Wie erkennt es AI-Paraphrasierungen
Immer mehr Studierende (und allgemein auch Autoren) nutzen AI-Paraphrasierer — häufig „Textspinner“ genannt — um AI-generierte Inhalte umzuschreiben. Diese Tools erstellen den Text nicht von Grund auf wie ChatGPT, sondern formulieren vorhandene Texte um, um deren Herkunft zu verschleiern.
Aber hier liegt der Clou: Paraphrasierungswerkzeuge hinterlassen andere statistische Fingerabdrücke als vollwertige AI-Schreibmodelle.
Deshalb benötigte Turnitin ein spezialisiertes Modell, um diese Muster zu erkennen — und so wurde AIR-1, kurz für AI Rewriting detection, im Juli 2024 ins Leben gerufen.
Was ist AI-Paraphrasierung und warum ist sie so knifflig?
Paraphrasierungswerkzeuge (oft selbst von AI gesteuert) nehmen Texte, die von einem LLM wie ChatGPT erstellt wurden, und formulieren sie um. Das Ziel? Den Text weniger robotic wirken zu lassen und mehr die ursprüngliche Stimme eines Studenten zu erhalten. Diese Tools bringen keine neuen Ideen hervor — sie stellen lediglich das bereits Vorhandene neu zusammen.
Aus der Perspektive der Erkennung macht das die Sache komplizierter. Zwar ändern sich Struktur und Wortschatz, aber die zugrunde liegende statistische Signatur des AI-Schreibens bleibt häufig bestehen.
Wie AIR-1 funktioniert
Man kann sich AIR-1 wie einen Detektiv vorstellen, der darauf spezialisiert ist, umgeschriebene AI-Inhalte zu entdecken. Es analysiert nicht nur, was gesagt wird — es achtet vor allem darauf, wie es gesagt wird, indem es feine Sprachmuster und Hinweise erkennt, die typisch für paraphrasierte AI-Texte sind. Es betrachtet dabei nicht nur die Wortwahl oder Formulierungen, sondern geht den tieferen Mustern nach, die AI-Paraphrasierer oft hinterlassen. Dazu zählen der Rhythmus des Textes, die Art und Weise, wie Ideen neu strukturiert werden, und sogar Veränderungen in der Satzkomplexität.
So läuft es hinter den Kulissen ab:
Zunächst führt das AIW-2 Modell wie gewohnt seinen Scan durch.
Wenn 20% oder mehr des Dokuments als wahrscheinlich von AI erstellt markiert werden, greift AIR-1 ein.
AIR-1 analysiert die als verdächtig markierten Sätze erneut und sucht nach Hinweisen darauf, dass sie von AI umformuliert wurden.
Wird ein solcher Hinweis gefunden, wird der Satz im Turnitin-AI-Schreibbericht in Lila hervorgehoben.
Wie es in Berichten erscheint
Sobald AIR-1 einen Satz als AI-paraphrasiert identifiziert, wird er zusammen mit der ursprünglichen Markierung von AIW-2 gekennzeichnet. In der Turnitin-Berichtsschnittstelle werden diese Sätze dann meist in Lila hervorgehoben – was darauf hindeutet, dass das System sowohl davon ausgeht, dass der Text von AI generiert als auch von einem anderen AI-Tool umformuliert wurde.
Diese zusätzliche Erkennungsebene hilft Lehrkräften dabei, besser zu verstehen, nicht nur ob AI verwendet wurde, sondern auch wie sie zum Einsatz kam – ob der Student einen Chatbot genutzt hat, um Inhalte zu kopieren und einzufügen, oder ob er versucht hat, dies mit einem Paraphrasierungswerkzeug zu kaschieren.
✳️ AIR-1 scannt nicht das gesamte Dokument. Es betrachtet nur den Text, den AIW-2 bereits als möglicherweise von AI erstellt markiert hat. Und es versucht niemals, den Text, den AIW-2 als menschlich verfasst einstuft, auf Paraphrasierung zu prüfen.
Nachdem wir alle wichtigen Tools – AIW-2 und AIR-1 – kennengelernt haben, widmen wir uns nun der Frage, welche Art von Daten und Training in deren Entwicklung eingeflossen ist.
4. Wie wurden Turnitin KI-Detektoren trainiert und getestet?
Nun, da wir verstehen, was AIW-2 und AIR-1 tatsächlich leisten, ist es berechtigt zu fragen: Wie wissen wir, dass sie zuverlässig sind?
Nach Angaben von Turnitin wurde mit großer Sorgfalt – und unter Einsatz umfangreicher Daten – an der Schulung und Prüfung dieser Modelle gearbeitet, um sicherzustellen, dass sie wie erwartet funktionieren. Lassen Sie uns das in einfachen Worten erklären.
Training der Modelle: Woher stammten die Daten?
Um AIW-2 und AIR-1 beizubringen, KI-verfasste oder paraphrasierte Inhalte zu erkennen, nutzte Turnitin riesige Datensätze – allerdings nicht irgendeinen Text.
Nach Turnitin:
Das AIW-2-Modell wurde mit einer Mischung aus KI-generierten Inhalten und authentischen, von Menschen verfassten wissenschaftlichen Arbeiten trainiert. Dazu gehörten Arbeiten aus einer breiten Palette von Fächern, Ländern und Studentendemographien.
Turnitin bemühte sich gezielt, unterrepräsentierte Gruppen einzubeziehen, wie zum Beispiel Zweitsprachlern und Studierenden aus unterschiedlichen akademischen Hintergründen. Dies hilft, Vorurteile zu reduzieren und macht das Modell fairer und genauer in Bezug auf verschiedene Schreibstile.
Wesentlich ist, dass die Trainingsdaten von AIW-2 auch Beispiele für KI-generierte Texte, die durch Paraphrasierungswerkzeuge verarbeitet wurden, enthielten – was entscheidend dazu beitrug, seine Fähigkeit zur Erkennung von „KI+KI-paraphrasierten“ Inhalten zu verbessern.
Für AIR-1 lag der Schwerpunkt noch gezielter:
Es wurde mit einer breiten Auswahl an KI-paraphrasierten Texten trainiert – ergänzt durch regulär von Menschen verfasste Texte und reine KI-Inhalte.
Dadurch lernte AIR-1, feine Hinweise zu erkennen, die typisch für umformulierte KI-Inhalte sind – Hinweise, die herkömmliche KI-Detektoren häufig übersehen.
Kurz gesagt, diese Modelle wurden nicht einfach mit Beispielen aus dem Internet gefüttert. Sie wurden sorgfältig unter realistischen akademischen Bedingungen entwickelt, um den tatsächlichen Anforderungen von Lehrkräften und Studierenden gerecht zu werden.
Testen der Modelle: Wie misst Turnitin die Genauigkeit?
Beim Testen konzentriert sich Turnitin auf zwei wesentliche Kennzahlen:
Recall – Dieser Wert gibt an, wie viele tatsächlich von KI verfasste Texte korrekt erkannt werden. Ein hoher Recall bedeutet, dass das Modell zuverlässig das erfasst, was es soll.
False Positive Rate (FPR) – Diese Kennzahl zeigt, wie häufig von Menschen verfasste Texte fälschlicherweise als KI-generiert markiert werden. Eine niedrige FPR ist besonders wichtig in akademischen Umgebungen, wo eine Fehlzuweisung schwerwiegende Folgen haben kann.
Turnitin gibt an, dass AIW-2 die falsch-positiven Raten auf Dokumentenebene unter 1% hält, sofern mindestens 20% eines Dokuments als KI-generiert erkannt werden. Daher wird in den KI-Berichten häufig diese 20%-Schwelle genannt – ein sorgfältig festgelegter Grenzwert, der auf umfangreichen Tests basiert.
Warum „Genauigkeit“ allein nicht ausreicht
Bemerkenswerterweise verzichtet Turnitin in seinen Berichten auf den allgemeinen Begriff „Genauigkeit“. Warum?
Weil bei unausgewogenen Datensätzen – etwa wenn der Großteil der Dokumente von Menschen verfasst wurde – selbst ein schlechtes Modell eine Genauigkeit von 99% vortäuschen könnte, indem es pauschal „menschlich“ annimmt. Das wäre irreführend.
Indem Turnitin stattdessen den Fokus auf Recall und FPR legt, erhält man einen realistischeren Einblick in die tatsächliche Leistungsfähigkeit des Erkennungssystems.
Nun, da wir wissen, wie Turnitins Modelle trainiert werden, wollen wir einen genaueren Blick darauf werfen, wie sie das Schreiben eines Studierenden analysieren, sobald es eingereicht wurde. Hier wird es etwas technischer, aber wir erklären es einfach und verständlich.
Wie Turnitins KI-Detektor in Wirklichkeit funktioniert
Zuerst wird der Text in kleine Abschnitte unterteilt
Turnitin nutzt eine Methode, die als segmentierter Fensteransatz bezeichnet wird. Anstatt den gesamten Aufsatz in einem Zug zu lesen, wird der Text in kleine, sich überlappende Abschnitte unterteilt – etwa fünf bis zehn Sätze pro Segment.
Jedes dieser „Fenster“ gleitet durch das Dokument, wobei immer ein Satz nach dem anderen betrachtet wird, sodass letztendlich jeder Satz in mehreren Segmenten analysiert wird. Dadurch erhält das Modell verschiedene Kontexte zur zuverlässigeren Bewertung desselben Satzes.
Anschließend wird jeder Satz hinsichtlich seiner KI-Wahrscheinlichkeit bewertet
Jedes Segment erhält eine Punktzahl zwischen 0 und 1:
Eine Punktzahl nahe 0 bedeutet, dass der Text wahrscheinlich von Menschen verfasst wurde.
Eine Punktzahl nahe 1 deutet darauf hin, dass er vermutlich von KI erzeugt wurde.
Da jeder Satz in mehreren Fenstern auftaucht, berechnet Turnitin für jeden Satz einen gewichteten Durchschnittswert. Dies gleicht eventuelle zufällige Fehlinterpretationen aus und sorgt für ein stabileres Urteil.
Wie bereits erwähnt, werden auch Sätze, die als von KI erzeugt bewertet wurden, hinsichtlich ihrer Paraphrasierung durch KI separat beurteilt.
Anschließend erfolgt eine Bewertung auf Dokumentenebene
Wie entscheidet das System, ob ein ganzes Dokument von KI erstellt wurde?
Nach Angaben von Turnitin wird ein Dokument nur markiert, wenn 20 % oder mehr seiner Sätze oberhalb der KI-Schreibs-Schwelle liegen. Diese 20 %-Regel beruht auf Tests, die gezeigt haben, dass geringere Anteile häufig zu Fehlalarmen führen. So möchte Turnitin vorsichtig vorgehen und Arbeiten nur dann kennzeichnen, wenn ein deutliches Signal für den Einsatz von KI vorliegt.
Mit anderen Worten, ein Aufsatz muss einen erheblichen Anteil an KI-ähnlichem Inhalt aufweisen, bevor er entsprechend gekennzeichnet wird.
Kurztexte werden nicht überprüft
Ein weiterer wichtiger Punkt: Turnitin führt den KI-Detektor nicht für Dokumente aus, die kürzer als 300 Wörter sind. Kurze Texte liefern dem System nämlich nicht genügend Daten, um eine präzise Vorhersage treffen zu können. Je mehr Inhalt vorhanden ist, desto zuverlässiger kann die Analyse erfolgen.
Das fasst zusammen, wie Turnitin KI-Inhalte erkennt.
Wie Turnitins KI-Detektor im Vergleich zu anderen Tools abschneidet
Es gibt eine Vielzahl von KI-Detektoren – einige sind kostenlos, andere kostenpflichtig – doch das System von Turnitin zeichnet sich in einigen wesentlichen Punkten aus:
Speziell für den akademischen Bereich entwickelt: Anders als viele universell einsetzbare Detektoren werden Turnitins Modelle gezielt mit echten Studentenarbeiten aus unterschiedlichen Fächern, Sprachen und Schreibstilen trainiert. Dadurch werden Fehlalarme reduziert und die Zuverlässigkeit im Bildungsbereich erhöht.
Duale Modellstrategie: Während die meisten Detektoren lediglich KI-generierte Texte kennzeichnen, setzt Turnitin zwei Modelle ein – AIW-2 für unveränderte KI-Texte und AIR-1 für umformulierte KI-Texte –, was eine breitere Abdeckung ermöglicht und selbst geschickt verborgene Inhalte aufdeckt.
Transformer-basierte Architektur: Viele Detektoren stützen sich auf einfachere Kennzahlen wie Perplexität oder Burstiness. Dank des Einsatzes fortschrittlicher Transformer-Modelle kann Turnitin subtile Sprachmuster erkennen, wodurch die Erkennung intelligenter und präziser wird.
Skalierbarkeit und Integration: Turnitins Tools sind weltweit in Lernmanagementsysteme integriert und analysieren bereits über 250 Millionen Arbeiten – was bedeutet, dass ihre Modelle sich dank realer Daten kontinuierlich verbessern.
Transparenz und Prüfung: Turnitin veröffentlicht detaillierte Whitepapers und Validierungsstudien, in denen die Leistungsfähigkeit und die Grenzen ihres Systems offen dargelegt werden – etwas, das die meisten kostenlosen Detektoren nicht leisten.
Zusammengefasst: Turnitin ist nicht einfach nur ein weiterer KI-Prüfer. Es handelt sich um ein robustes, forschungsbasiertes System, das den komplexen Anforderungen des Bildungswesens gerecht wird – und nicht nur KI-Nutzung anhand einfacher Regeln kennzeichnet.
Turnitin vs. Andere KI-Erkennungsprogramme
Überlegst du, ob du einfach andere KI-Erkennungsprogramme anstelle von Turnitin nutzen kannst, um deine Arbeit vor der Einreichung zu überprüfen? Die Wahrheit ist: Das System von Turnitin lässt sich nicht problemlos durch populäre Tools wie GPTZero ersetzen.
Turnitin trainiert seine KI-Modelle mit echten Studentenarbeiten aus einer Vielzahl von Fächern und Sprachen, wodurch es perfekt auf akademisches Schreiben abgestimmt ist. Zudem hat es aus der Analyse von über 250 Millionen tatsächlichen Einreichungen gelernt – etwas, das den meisten anderen Detektoren schlichtweg fehlt. Diese praxisnahen Daten erhöhen die Genauigkeit erheblich.
Turnitin geht sogar noch einen Schritt weiter, indem es zwei Modelle einsetzt – eines, um KI-generierte Texte zu erkennen, und ein weiteres, um KI-paraphrasierte Sätze aufzuspüren. Während GPTZero und Quillbot einzelne Satzbereiche hervorheben, können sie nicht die Tiefe und Zuverlässigkeit bieten, die Turnitin auszeichnet.
Grundsätzlich stützen sich viele Detektoren auf einfachere Statistiken wie Perplexität, doch Turnitin basiert auf fortschrittlichen Transformer-Modellen, die feine Sprachmuster erfassen und so eine intelligentere Erkennung ermöglichen.
FAQ
F: Welche KI-Modelle setzt Turnitin ein?
A: Turnitin nutzt zwei Hauptmodelle – AIW (AI Writing) zur Erkennung von direkt KI-generierten Texten und AIR (AI Rewriting) zur Aufdeckung von KI-paraphrasierten Inhalten. Die neuesten Versionen sind AIW-2 und AIR-1, die beide auf fortschrittlichem, transformatorbasiertem Deep Learning beruhen.
F: Wie kann ich verhindern, dass Turnitins KI-Erkennungssysteme meinen Text kennzeichnen?
Falls Sie Bedenken wegen der KI-Erkennung haben, empfiehlt es sich, originelle und gut recherchierte Inhalte in Ihrer eigenen authentischen Stimme zu verfassen. Zudem gibt es Tools, die Ihren Text menschlicher wirken lassen, ohne einen KI-generierten Ton einzufügen.
F: Ist Turnitin genauer als kostenlose Werkzeuge wie ZeroGPT?
A: Ja. Die Modelle von Turnitin sind von Experten geprüft, wurden an Millionen realer akademischer Arbeiten getestet und speziell für studentische Texte optimiert. Im Gegensatz dazu veröffentlichen viele kostenlose Detektoren weder ihre Trainingsdaten noch Angaben zu Fehlalarmen und übersehen oft satzspezifische Details. Tools wie ZeroGPT sind in der Regel nachsichtiger und weniger präzise.
F: Kann Turnitin auch Texte erkennen, die von neueren KIs wie GPT-4 oder Gemini erstellt wurden?
A: Absolut. Ab 2024 ist Turnitins System so konzipiert, dass es Texte identifizieren kann, die von GPT-3, GPT-4, GPT-4o, Gemini, LLaMA und anderen führenden großen Sprachmodellen generiert wurden.
F: Wie genau arbeitet die KI-Erkennung von Turnitin?
A: Laut Turnitin ist die KI-Erkennung sehr präzise. Für Dokumente, bei denen 20% oder mehr des Textes von einer KI erstellt wurden, liegt die Falsch-Positiv-Quote unter 1%.
Fazit
Wir haben den Kern von Turnitins KI-Checker beleuchtet – von der Art und Weise, wie er Arbeiten in ihre Bestandteile aufgliedert, bis hin dazu, wie er auf echten Studentenarbeiten und KI-generierten Inhalten trainiert wird. Da sich die KI ständig weiterentwickelt, tut es auch Turnitin, was sowohl für Lehrkräfte als auch für Studierende eine Herausforderung darstellt. Letztlich geht es nicht darum, jemanden zu ertappen – es geht vielmehr darum, das Vertrauen in die eingereichten Arbeiten zu bewahren. Wenn man versteht, wie das Tool funktioniert, kann es von allen fairer und verantwortungsbewusster genutzt werden.