TurnitinはどのAI検知ツールを使っている?モデル、精度など

Author image
著者  Raj Patel
2025-07-16 19:07:33 6 分間の読み取り

ChatGPTのようなAIライティングツールがあらゆる場所にある中で、Turnitinが独自のAI検出ツールを提供するのは驚くことではありません。 

しかし、あいまいな回答を返す無料ツールとは異なり、Turnitinのシステムはより本格的で、内部構造は非常に複雑です。 

公式ホワイトペーパーを詳しく検証し、実際に動作を確かめたので、この投稿では、Turnitinが実際に使用しているモデル、どのようにしてAIやAIによってパラフレーズされた文章にフラグを立てるのか、そして他のツールと何が違うのかをご紹介します。

Turnitinが使用するAI検出ツール - ファーストスクリーン

1. TurnitinはどのAI検出ツールを使用していますか?

Turnitinの公式ホワイトペーパー(この記事の基となっている情報源)によると、TurnitinのAI検出システムは2種類の主要なディープラーニングモデルに依存しています:

  • AIWAI Writingの略)は、文章がAIによって生成されたかどうかを確認するモデルです。

  • AIRAI Rewritingの略)は、AIツールを使ってより人間らしい表現に言い換えられた文章を検出するための新しいモデルです。

これらのモデルは、ChatGPTなど現代のAIの根底技術であるトランスフォーマーベースのアーキテクチャを用いて構築されています。

Turnitinは2023年4月に最初のAI検出ツールAIW-1をリリースし、そのモデルは2023年12月にAIW-2へ更新・置換されました。さらに、2024年7月には、学生が既存のコンテンツを単に言い換えるためにAIツールを使うといった、より巧妙なAI利用を検出するためにAIR-1が追加されました。

これらのモデルを活用することで、指導者はAIが生成または修正した可能性のあるテキストを見極め、学生の作品のオリジナリティについてより深い理解を得ることができます。

Q: 個人でTurnitinのAI検出ツールを利用できますか?

TurnitinのAI検出機能は、学校や大学などの機関向けのオリジナリティサービスの一部であり、Turnitinの全サービスは有料です.

レポートは指導者と管理者のみがアクセス可能なため、学生や個人の場合、直接TurnitinやそのAI検出ツールを利用することはできません。しかし、オンライン上には、コミュニティで共有されているDiscordのリンクやその他のAI検出アプリなど、代替ツールがいくつか存在します。

2. TurnitinのAI検出システムはどのように開発されたのでしょうか?

まずは、AIW-1の登場から

Turnitinの初代AI文章検出ツールはAIW-1と呼ばれ、2023年4月に登場しました。このツールは、AIが生成する文章に見られるパターン、例えば非常に滑らかな構造、細かいニュアンスの不足、または表現の反復などを検出することで動作していました。

文書内にそうしたパターンが十分に認められた場合、その文章はAIが作成した可能性が高いと判断される仕組みです。

AIW-1の大きな特徴の一つは、非常に低い偽陽性率であったことです。つまり、人間が書いた文章を誤ってAI生成とみなすことがほとんどありませんでした。文書の20%以上にフラグが付くと、偽陽性が発生する確率は1%未満に抑えられていました。

このため、教師たちは小さな疑問の余地があるケースに過剰反応することなく、安心して結果を信頼できました。

そして、より賢いアップグレード——AIW-2の登場

しかし、ここで問題となるのは、AIツール自体が進化していた点です。特に文章を書き直す言い換えるツールは大きく改善されており、AIが生成した文章をさらに人間らしく仕上げるために再加工するため、検出が一層困難になりました。

これに対し、TurnitinはAIW-2で応え、2023年12月にこの新モデルをリリースしました。AIW-2は、幅広い文章例を用いて訓練された、よりスマートなモデルです:

  • 通常のAI生成文章(ChatGPTなどを含む)

  • 多様な背景や科目を持つ学生の実際の文章

  • AI生成後にAIのパラフレーズツールで言い換えられた文章

  • 人間とAIの両方の内容が混在する文書

また、AIW-2はGPT-4のような最新のツールに採用されているトランスフォーマーベースの深層学習アーキテクチャを採用しているため、文章構造、文法、口調など、従来のシンプルなモデルでは捉えきれなかった複雑なパターンを認識することができます。

Turnitin AIW-1 vs AIW-2 Document and Sentence level FPR

📊 2024年6月までに、Turnitinは2億5000万以上の学生の提出物に対してAIW-2を使用していると報告しており、これにより驚異的な量の訓練・テストデータが確保されました。

要するに、AIW-2は検出精度を大幅に向上させ、偽陽性を減少させ、パラフレーズされたAI文章に対しても頑強なシステムとなったのです。

ここまでで、一般的なAI文章の検出について説明しましたが、学生がパラフレーズツールを使ってAI文章を隠す場合はどうなるでしょうか?そんな時に登場するのが、Turnitinの最新モデルAIR-1です。

3. AIR-1モデル:AIパラフレーズをどのように検出するのか

学生をはじめ、作家の間で、AIが生成したコンテンツを書き換えるために、AIパラフレイザー(しばしば「テキストスピナー」とも呼ばれる)がますます使われています。これらのツールは、ChatGPTのようにゼロから文章を作るのではなく、既存のテキストを言い換えてその出所を隠そうとします。

しかし、ここにひとつのひねりがあります: パラフレーズツールは、本格的なAIライティングモデルとは異なる統計的な指紋を残すのです。

そのため、Turnitinはそのパターンを捉えるための専用モデルが必要となり、これがAIR-1、正式にはAI Rewriting detectionの略で、2024年7月に誕生した理由です。

AIパラフレーズとは何か、そしてなぜ難しいのか?

パラフレーズツール(多くの場合、自身もAIを活用しています)は、ChatGPTのようなLLMが書いたテキストを取り、言い換えます。目的は、文章をより人間らしく、学生ならではのオリジナルの声に近づけることです。これらのツールは新しいアイデアを生み出すのではなく、既存の内容を再構成するだけです。

検出の立場から見ると、構造や語彙は変わるかもしれませんが、AIライティング固有の統計的な特徴は残り続けるため、検出が一層難しくなります。

AIR-1の動作の仕組み 

AIR-1は、書き換えられたAIコンテンツを見抜くための探偵のような役割を果たします。それは単に「何が書かれているか」だけでなく、どのように書かれているかに注目し、パラフレーズされたAIテキストに典型的な微妙な言語の手掛かりやパターンを利用して分析します。単語の選択や表現方法だけでなく、AIパラフレイザーが残す深層的なパターン、たとえば文章のリズム、アイデアの再構成の仕方、文の複雑さの変化なども評価します。

舞台裏で行われる処理は以下の通りです:

  • まず、AIW-2モデルが通常通りスキャンを実行します。

  • 文書の20%以上がAIによって作成された可能性があると判定されると、その時点でAIR-1が介入します。

  • AIR-1はフラグが立てられた文を再分析し、AIによるパラフレーズの兆候を探します。

  • もしその兆候が確認されれば、TurnitinのAIライティングレポートにおいて、その文を紫色でハイライトします。

    Turnitin AI writing detection system with both AIW-2 and AIR-1 models

レポート上での表示方法

AIR-1が文をAIによるパラフレーズと判断すると、その文はAIW-2による元の検出結果と合わせて印が付けられます。Turnitinのレポートインターフェースでは、これらの文がしばしば紫色でハイライトされ、システムはその文がAIによって書かれ、さらに別のAIツールでパラフレーズされたと考えていることを示します。

Turnitin AI report sample

この追加の検出レベルにより、教育者はAIが使用されたかどうかだけでなく、どのように使用されたのか — 例えば、学生がチャットボットからコピー&ペーストしたのか、パラフレーズツールを使って隠そうとしたのか — をより正確に理解することができます。

✳️ AIR-1はドキュメント全体をスキャンするわけではありません。既にAIW-2がAI生成の可能性があるとマークしたテキストのみを対象としており、AIW-2が人間の手によるものと判断したテキストに対してパラフレーズ検出を試みることはありません。

これで、主要なツールであるAIW-2とAIR-1について理解したところで、次にこれらのモデルが構築される際に使用されたデータとトレーニングについて見ていきましょう。

4. Turnitin AI検出器はどのように訓練・テストされたのか?

これでAIW-2AIR-1が実際にどんな役割を果たすのかが分かったので、「どうしてその信頼性が保証されているのか?」と疑問に思うのは当然です。

Turnitinによると、これらのモデルが期待通りの動作をするよう、細心の注意と大規模なデータが投入されて訓練とテストが行われました。ここではその概要を分かりやすく説明します。

モデルの訓練:データはどこから得られたのか?

AIが作成した、または言い換えられた文章を見分けられるように、AIW-2とAIR-1は膨大なデータセットを用いて訓練されました — ただし、単なるテキストではなく、厳選されたものです。

Turnitinによると:

  • AIW-2は、AIが生成したコンテンツと実際に人が執筆した学術文章の両方を組み合わせたデータで訓練されました。これには、さまざまな科目、国、学生層からの論文が含まれています。

  • また、Turnitinは第二言語で学ぶ学生や多様な学問バックグラウンドを持つ学生など、十分に代表されていないグループも積極的に取り入れるよう努めました。これにより、バイアスを抑え、さまざまな文体に対して公平かつ正確な識別が可能になっています。

  • さらに、AIW-2の訓練データには、パラフレーズツールを通したAI生成テキストの例も含まれており、これが「AI+パラフレーズ済みAI」コンテンツを検出する能力の向上に大きく貢献しました。

AIR-1は、さらに特化したデータセットを用いて訓練されています:

  • 通常の人間の文章や純粋なAIコンテンツと並び、幅広いAIでパラフレーズされたテキストを使って学習しました。

  • その結果、AIR-1は、言い換えられたAI独特の微妙な手がかりを見抜く力を身につけ、従来の検出器が見逃しがちな微細なサインを捉えることができるようになりました。

つまり、これらのモデルは単にインターネット上の例だけで訓練されたのではなく、実際の教育現場で教育者や学生が遭遇する現実的な学術シーンを再現する形で設計されています。

モデルのテスト:Turnitinはどのように性能を評価しているのか?

テストにあたって、Turnitinは2つの主要な評価指標に注目しています:

  • リコール – 実際にAIが作成したテキストをどれだけ正確に検出できたかを測ります。リコールが高いということは、モデルが本来検出すべき内容をしっかりと捉えていることを意味します。

    Turnitin AIW-1 vs AIW-2 Document and Sentence Level Recall

  • 偽陽性率 (FPR) – 人間が作成したテキストが誤ってAIと判断される頻度を示します。特に学術の場面では、誤ってAIと断定されると深刻な影響を及ぼすため、低いFPRは非常に重要です。

Turnitinによれば、文書の20%がAI生成であると判断された場合、AIW-2は文書全体の偽陽性率を1%未満に抑えることができるとされています。これが、AIレポートにおいてこの20%の基準がよく言及される理由であり、テストに基づいて慎重に設定されたカットオフ値なのです。

Turnitin AIW-1 vs AIW-2 Document and Sentence Level FPR

なぜ「正確性」だけでは不十分なのか

興味深いことに、Turnitinは評価報告において、単に「正確性」という一般的な用語は使用していません。なぜなら、例えばほとんどの文書が人間によって作成されているようなアンバランスなデータセットの場合、どんなに性能の低いモデルでも「常に人間」と判断するだけで99%の正確性が出てしまい、実態を反映しない結果となるからです。

そのため、リコール偽陽性率 (FPR)に着目することで、Turnitinはその検出システムが実際にどれだけ効果的に働いているかを、より正確に示しています。

Turnitinのモデルがどのように訓練されるのかを理解したところで、次は、学生が文章を提出した後、それをどのように解析するのかを詳しく見ていきましょう。ここからは少し技術的な内容になりますが、できるだけ分かりやすく解説します。

TurnitinのAI検出器が実際にどのように動作するか

まず、システムはテキストを小さな部分に分割します

Turnitinは「segmented window approach」と呼ばれる手法を用います。つまり、一度にエッセイ全体を読むのではなく、システムはそれを小さく重なり合うセクションに区切ります — セクションごとに5~10文を想定してください。

これらの「ウィンドウ」は文書内を一文ずつずつ動いていくため、すべての文が複数のセクションで分析されます。これにより、同じ文がさまざまな文脈で評価され、より確かな結果が得られます。

次に、各文のAI生成可能性にスコアを付けます

各セクションには0から1までのスコアが与えられます:

  • スコアが0に近い場合、そのテキストは人間が書いた可能性が高いことを意味します。

  • スコアが1に近い場合、よりAIによって生成された可能性が高いことを示します。

各文は複数のウィンドウに現れるため、Turnitinは文ごとに加重平均スコアを計算します。これにより、偶然の読み違いを補正し、より安定した評価が可能となります。

さらに、既にAI生成と判断された文については、別途AIによるパラフレーズ評価も行います。

Turnitin AIライティング検出の動作プロセス

次に、システムは文書全体を評価します

では、文書全体がAI生成であるかどうかはどのように判断されるのでしょうか?

Turnitinによると、文書は文の20%以上がAIライティングの閾値を超えるスコアとなった場合にのみフラグが立てられます。この20%という基準は偶然のものではなく、より低い割合では誤検出が起こりやすいとのテスト結果に基づいています。つまり、AIの関与が明確な場合にのみ、Turnitinは注意深くフラグを付けるのです。

別の言い方をすれば、論文がAI生成と判断されるには、相当な量のAIっぽい内容が含まれている必要があります。

短い論文はチェック対象外です

もう一つの重要な制限として、Turnitinは300語未満の文書に対してはAI検出を行いません。短い文章ではシステムが十分なデータを得られず、正確な予測をするのが難しいためです。内容が多いほど、解析がより的確になります。

以上が、TurnitinがどのようにAIコンテンツを検出するかに関する説明です。

TurnitinのAI検出器は他のツールと比べてどのように優れているのか

AI検出器は数多く存在し、無料のものもあれば有料のものもありますが、Turnitinのシステムは以下のいくつかの重要な点で際立っています:

  • 学術専用に設計: 多くの一般的な検出器とは異なり、Turnitinのモデルは様々な科目、言語、文体の実際の学生作品を用いて特別に訓練されているため、誤検出が少なく、教育現場での信頼性が高まっています。

  • デュアルモデル方式: 他の多くの検出器が単にAI生成テキストを検出するにとどまる中、Turnitinは2つのモデル—生のAIライティングにはAIW-2、AIによるパラフレーズにはAIR-1—を活用し、幅広い内容をカバーしつつ、巧妙に偽装された文章も見逃しません。

  • トランスフォーマーベースの技術: 一般的な検出器が複雑度やバーストネスなどのシンプルな統計に依存するのに対し、Turnitinは先進のトランスフォーマーモデルを使用して、言語の微妙なパターンを捉え、よりスマートで正確な検出を実現しています。

  • 大規模な導入と統合: Turnitinのツールは世界中の学習管理システムに組み込まれており、すでに2億5千万以上の論文を解析しているため、実際のデータに基づき継続的にモデルが改善されています。

  • 透明性と検証: Turnitinは詳細なホワイトペーパーや検証研究を公開し、システムの性能や限界を明らかにしている点で、無料の検出器にはない信頼感を提供しています。

まとめ: Turnitinは単なるAIチェッカーではなく、単純なルールでAI利用を判断するのではなく、教育現場の複雑なニーズに応えるために設計された、堅牢で研究に基づくシステムです。

Turnitin と他の AI ディテクターの比較

Turnitinの代わりに他の AI ディテクターを使って提出前に作品をチェックできるのかと疑問に思っている方もいるでしょう。実際のところ、TurnitinのシステムはGPTZeroのような人気ツールで代用することは簡単ではありません。

GPTZero ホームページ

Turnitinは、幅広い科目と言語にわたる実際の学生論文を用いてAIモデルを訓練しているため、学術的な文章に特化した精度を持っています。さらに、2億5000万件以上の提出物を分析して学習しているので、他の多くのディテクターにはないリアルなデータが正確性を大いに向上させています。

また、TurnitinはAIが生成した文章を検出するモデルと、AIによる言い換えを見抜く別のモデルという、2つのモデルを組み合わせることでさらに進化を遂げています。GPTZeroやQuillbotが文単位でのハイライト機能を提供するに留まるのに対し、その深みと信頼性はTurnitinに一歩譲りません。

技術的には、多くのディテクターがパープレキシティなどの単純な統計情報に頼っているのに対し、Turnitinは微妙な言語パターンを検出する先進的なトランスフォーマーモデルを採用しており、より高度な検出を実現しています。

よくある質問

FAQ

Q: TurnitinはどのAIモデルを使っているのですか?

A: Turnitinでは主に2種類のモデルを採用しています。1つは、AIW (AI Writing) として直接生成されたAIテキストを検出するモデル、もう1つは、AIR (AI Rewriting) としてAIによる言い換えが行われたコンテンツを識別するモデルです。最新のバージョンはAIW-2とAIR-1で、どちらも先進のTransformerベースのディープラーニング技術を利用しています。

Q: TurnitinのAI検出システムに引っかからない方法はありますか?

AIによる検出が気になる場合は、自分自身のオリジナルの声で、十分に調査された自作の文章を書くのが最善の方法です。また、AIらしさが出ないように工夫されたツールを活用して、文章の質を向上させることも可能です。

Q: Turnitinは、ZeroGPTのような無料ツールよりも正確なのでしょうか?

A: はい、そうです。Turnitinのモデルは査読を受け、何百万もの実際の学術論文でテストされており、特に学生の文章に合わせて最適化されています。一方、多くの無料検出ツールはトレーニングデータや偽陽性率の情報を公開しておらず、細かい文単位の情報を見逃すことが多いです。ZeroGPTのようなツールは、一般的に寛容で正確さに欠ける傾向があります。

Q: TurnitinはGPT-4やGeminiなど、最新のAIによる文章を検出することができますか?

A: もちろんです。2024年現在、TurnitinのシステムはGPT-3、GPT-4、GPT-4o、Gemini、LLaMAなど、主要な大規模言語モデルが生成したテキストを識別できるよう設計されています。

Q: TurnitinのAI検出の正確さはどの程度ですか?

A: Turnitinによれば、彼らのAI検出技術は非常に高精度で、文章の20%以上がAI生成である場合でも、偽陽性率を1%未満に抑えています。

結論

TurnitinのAIチェッカーの詳細な仕組みについて、論文を構成する各要素に分解する方法から、実際の学生の文章とAI生成コンテンツを用いてトレーニングされるプロセスまで、幅広く検証してきました。AIの進化に伴い、Turnitinも変化しており、これは教育者と学生の双方が真剣に取り組むべき重要な課題です。結局のところ、狙いは個人を摘発することではなく、提出される作品に対する信頼を守ることにあります。ツールの仕組みを理解することで、誰もがより公平かつ責任を持って利用できるようになるのです。