¿Qué detector de IA usa Turnitin? Modelos y precisión

Con herramientas de escritura de IA como ChatGPT en todas partes, no es de extrañarse que Turnitin se haya sumado al juego con sus propios detectores de IA.
Sin embargo, a diferencia de esas herramientas gratuitas que ofrecen respuestas imprecisas, el sistema de Turnitin es un poco más riguroso y mucho más complejo en su funcionamiento interno.
Revisé a fondo su libro blanco oficial y probé su funcionamiento, así que en este artículo te explicaré qué modelos utiliza realmente Turnitin, cómo detecta la escritura generada o parafraseada por IA, y qué lo diferencia de los demás.
1. ¿Qué Detector de IA utiliza Turnitin?
Según Turnitin’s official white paper (la fuente en la que se basa este artículo), el sistema de detección de IA de Turnitin se apoya en dos modelos clave de aprendizaje profundo:
AIW (abreviatura de AI Writing) es el modelo que comprueba si un texto fue generado por una IA.
AIR (abreviatura de AI Rewriting) es un modelo más reciente que busca específicamente textos que hayan sido parafraseados o reescritos por herramientas de IA para sonar más humanos.
Ambos se construyen utilizando una arquitectura basada en transformadores —el mismo tipo de tecnología que impulsa la IA moderna, como ChatGPT.
Turnitin lanzó por primera vez su herramienta de detección de IA—AIW-1—en abril de 2023. Ese modelo fue actualizado y reemplazado por AIW-2 en diciembre de 2023. Luego, en julio de 2024, se añadió AIR-1 para detectar usos más sutiles de la IA, como cuando un estudiante utiliza una herramienta de IA solo para reformular contenido existente.
En conjunto, estos modelos ayudan a los instructores a identificar textos que puedan haber sido escritos o modificados por IA, ofreciendo una visión más profunda sobre la originalidad del trabajo de los estudiantes.
Q: ¿Pueden los individuos usar los detectores de IA de Turnitin?
La detección de IA de Turnitin forma parte de su servicio de originalidad, el cual está disponible únicamente para instituciones como escuelas y universidades. Y todo el servicio de Turnitin es de pago.
Los informes solo son accesibles para instructores y administradores. Por lo tanto, si eres estudiante o un particular, no puedes utilizar directamente Turnitin ni sus detectores de IA. Sin embargo, existen algunas herramientas alternativas disponibles en línea, que incluyen enlaces compartidos en Discord por la comunidad u otras aplicaciones de detección de IA.
2. ¿Cómo se desarrolló el detector de IA de Turnitin?
Primero, existió AIW-1
El primer detector de redacción de IA de Turnitin se llamó AIW-1, y se lanzó en abril de 2023. Funcionaba escaneando los textos en busca de patrones que suelen aparecer en escritos generados por IA — elementos como una estructura excesivamente lisa, falta de matices o frases repetitivas.
Si encontraba suficientes de esos patrones en un documento, lo marcaba como probablemente escrito por IA.
Una de las fortalezas de AIW-1 fue tener una tasa de falsos positivos muy baja — lo que significaba que evitaba acusar erróneamente a textos humanos de haber sido generados por IA. Siempre que al menos el 20% del documento estuviera marcado, la probabilidad de una falsa alarma era menos del 1%.
Esto permitía a los profesores confiar en los resultados sin reaccionar desproporcionadamente ante casos marginales.
Luego llegó AIW-2 — Una mejora más inteligente
Sin embargo, la cuestión es la siguiente: las herramientas de IA estaban evolucionando — sobre todo aquellas que reescriben o parafrasean textos. Estas herramientas toman oraciones generadas por IA y las someten a una capa adicional para hacer que suenen más humanas. Esto complicaba aún más la detección.
Por ello, Turnitin respondió con AIW-2, que se lanzó en diciembre de 2023. Se trata de un modelo más inteligente, entrenado con una mayor variedad de ejemplos de redacción:
Texto generado habitualmente por IA (como el de ChatGPT)
Redacciones auténticas de estudiantes de diversos orígenes y asignaturas
Texto que fue generado por IA y luego reformulado por un parafraseador de IA
Documentos mixtos con contenido tanto humano como generado por IA
AIW-2 también se desarrolló sobre una arquitectura de aprendizaje profundo basada en transformers, similar a los modelos que sustentan herramientas como GPT-4. Esto le permite reconocer patrones más complejos en la estructura de las oraciones, la gramática y el tono — aspectos que a menudo pasan desapercibidos en modelos más simples.
📊 Para junio de 2024, Turnitin informó que había utilizado AIW-2 en más de 250 millones de envíos estudiantiles (Turnitin, 2024). Esto le proporcionó una amplia base para entrenar y probar el sistema.
En resumen, AIW-2 supuso un gran avance: mejoró la precisión en la detección, redujo los falsos positivos y reforzó el sistema frente al contenido de IA parafraseado.
Hasta ahora, hemos hablado sobre la detección general de textos generados por IA. Pero, ¿qué sucede cuando los estudiantes intentan ocultar el texto de IA utilizando herramientas de parafraseo? Ahí es donde entra en juego el modelo más reciente de Turnitin — AIR-1.
3. El Modelo AIR-1: ¿Cómo Detecta el Parafraseo de IA?
Cada vez más estudiantes (y escritores, en general) utilizan parafraseadores de IA — a menudo llamados “text spinners” — para reescribir contenido generado por IA. Estas herramientas no crean textos desde cero como ChatGPT; en cambio, reformulan el contenido existente para tratar de ocultar su origen.
Pero aquí está el detalle: las herramientas de parafraseo dejan tras de sí huellas estadísticas diferentes a las de los modelos de escritura de IA más completos.
Así que Turnitin necesitaba un modelo especializado para detectar esos patrones, y fue así como nació AIR-1, abreviatura de detección de reescritura de IA, en julio 2024.
¿Qué es el Parafraseo de IA y por qué resulta complicado?
Las herramientas de parafraseo (a menudo también impulsadas por IA) toman textos escritos por un LLM como ChatGPT y los reformulan. ¿El objetivo? Lograr que suenen menos robóticos y más como la voz original de un estudiante. Estas herramientas no generan ideas nuevas; simplemente remezclan lo ya existente.
Desde el punto de vista de la detección, esto complica las cosas. La estructura y el vocabulario pueden variar, pero la firma estadística subyacente de la escritura de IA usualmente permanece.
Cómo Funciona AIR-1
Imagina a AIR-1 como un detective entrenado para detectar contenido de IA que ha sido reescrito. No solo observa lo que se dice, sino cómo se dice, utilizando sutiles pistas lingüísticas y patrones propios del texto parafraseado por IA. No se fija únicamente en la elección de palabras o en la redacción, sino que analiza patrones más profundos que los parafraseadores de IA tienden a dejar. Esto abarca el ritmo del texto, la forma en que se reestructura la información e incluso los cambios en la complejidad de las oraciones.
Aquí es lo que ocurre detrás de escena:
Primero, el modelo AIW-2 realiza su escaneo habitual.
Si marca el 20% o más del documento como probablemente escrito por IA, entonces interviene AIR-1.
AIR-1 reanaliza las oraciones marcadas y busca señales de que hayan sido parafraseadas por IA.
Si detecta dichas señales, resalta la oración en púrpura en el informe de detección de escritura de IA de Turnitin.
Cómo se Muestra en los Informes
Cuando AIR-1 identifica una oración como parafraseada por IA, la marca junto con la detección original de AIW-2. En la interfaz de informes de Turnitin, estas oraciones suelen resaltarse en púrpura, lo que indica que el sistema considera que han sido escritas por IA y parafraseadas por otra herramienta de IA.
Este nivel adicional de detección ayuda a los educadores a entender mejor no solo si se usó IA, sino también cómo se utilizó — ya sea que el estudiante copiara y pegara de un chatbot o tratara de disfrazarlo mediante una herramienta de parafraseo.
✳️ AIR-1 no escanea todo el documento. Solo analiza aquellos textos que AIW-2 ya marcó como posiblemente generados por IA, y nunca intenta aplicar detección de parafraseo en textos que AIW-2 considera escritos por humanos.
Ahora que conocemos todas las herramientas clave — AIW-2 y AIR-1 — hablemos sobre el tipo de datos y entrenamiento que se emplearon para desarrollarlas.
4. ¿Cómo se entrenaron y evaluaron los detectores de IA de Turnitin?
Ahora que sabemos lo que realmente hacen AIW-2 y AIR-1, es válido preguntarse: ¿cómo comprobamos que son fiables?
Según Turnitin, se dedicó mucho cuidado —y se usaron numerosos datos— para entrenar y evaluar estos modelos y garantizar que funcionen según lo esperado. Vamos a desglosarlo de forma sencilla.
Entrenamiento de los Modelos: ¿De dónde provienen los datos?
Para enseñar a AIW-2 y AIR-1 a identificar contenido escrito o parafraseado por IA, Turnitin utilizó enormes conjuntos de datos —pero no cualquier tipo de texto.
De acuerdo con Turnitin:
El modelo AIW-2 se entrenó con una combinación de contenido generado por IA y escritos académicos reales, realizados por humanos. Esto incluyó trabajos de una variada selección de asignaturas, países y perfiles estudiantiles.
Turnitin se esforzó por incluir a grupos subrepresentados, como los estudiantes que aprenden en un segundo idioma y aquellos de diversos entornos académicos. Esto ayuda a reducir el sesgo y hace que el modelo sea más justo y preciso en distintos estilos de escritura.
Es fundamental destacar que los datos de entrenamiento de AIW-2 también contenían ejemplos de texto generado por IA que se había sometido a herramientas de parafraseo, lo cual fue crucial para mejorar su capacidad de detectar contenido “IA+IA parafraseado”.
Para AIR-1, el énfasis fue aún mayor en lo siguiente:
Se entrenó con una amplia variedad de texto parafraseado por IA, además de escritura humana convencional y contenido completamente generado por IA.
Esto permitió a AIR-1 aprender a detectar pistas sutiles propias de la reformulación por IA —pistas que los detectores tradicionales de IA suelen pasar por alto.
En definitiva, estos modelos no se entrenaron únicamente con ejemplos recogidos de internet. Fueron diseñados meticulosamente utilizando escenarios académicos realistas que reflejan lo que realmente enfrentan educadores y estudiantes.
Evaluación de los Modelos: ¿Cómo mide Turnitin la efectividad?
Cuando se trata de evaluación, Turnitin se centra en dos métricas fundamentales:
Recall – Esta métrica indica cuántos textos realmente escritos por IA se identifican correctamente. Un alto recall significa que el modelo detecta adecuadamente lo que debe.
Tasa de Falsos Positivos (FPR) – Esta métrica muestra la frecuencia con la que el texto escrito por humanos es identificado erróneamente como generado por IA. Contar con una FPR baja es esencial, especialmente en contextos académicos, donde una acusación equivocada puede acarrear serias consecuencias.
Turnitin indica que AIW-2 mantiene la tasa de falsos positivos a nivel de documento por debajo del 1%, siempre que se detecte que al menos un 20% de un documento ha sido generado por IA. Por ello, a menudo se menciona este umbral del 20% en el informe de IA —es un punto de corte cuidadosamente seleccionado basado en las pruebas realizadas.
Por qué “precisión” por sí sola no basta
Curiosamente, Turnitin no utiliza el término “precisión” en sus informes. ¿Por qué ocurre esto?
Porque en conjuntos de datos desbalanceados (por ejemplo, cuando la mayoría de los documentos son escritos por humanos), incluso un modelo muy deficiente podría aparentar tener un 99% de precisión simplemente al asumir siempre “humano”. Eso resultaría engañoso.
En cambio, al centrarse en las métricas de recall y FPR, Turnitin ofrece una visión más realista de cómo funciona su sistema de detección.
Ahora que comprendemos el proceso de entrenamiento de los modelos de Turnitin, echemos un vistazo a cómo analizan la escritura de un estudiante una vez que se entrega. Aquí es donde el proceso se vuelve un poco más técnico, pero lo explicaremos de forma sencilla.
¿Cómo funciona realmente el detector de IA de Turnitin?
Primero, el sistema divide el texto en pequeños fragmentos
Turnitin utiliza un método denominado enfoque de ventana segmentada. Básicamente, en lugar de leer el ensayo completo de una sola vez, el sistema lo separa en secciones pequeñas y superpuestas — piensa en aproximadamente cinco a diez oraciones por segmento.
Cada una de estas “ventanas” recorre el documento una oración a la vez, lo que hace que cada oración sea analizada en varios segmentos. Esto proporciona al modelo diversos contextos para evaluar la misma oración de forma más fiable.
Luego, califica cada oración según la probabilidad de ser generada por IA
Cada segmento recibe una puntuación de 0 a 1:
Una puntuación cercana a 0 indica que el texto es probablemente escrito por humanos.
Una puntuación cercana a 1 sugiere que es más probable que haya sido generado por IA.
Debido a que cada oración aparece en varios segmentos, Turnitin calcula una puntuación promedio ponderada para cada una. Esto ayuda a mitigar posibles errores accidentales y ofrece un juicio más estable.
Además, como se mencionó anteriormente, también se evalúan las oraciones que han sido identificadas como generadas por IA mediante juicios de parafraseo, asignándoles una puntuación aparte.
A continuación, el sistema emite un juicio a nivel de documento
Entonces, ¿cómo decide si un documento completo ha sido generado por IA?
Según Turnitin, un documento se marca solo si el 20% o más de sus oraciones superan el umbral de escritura por IA. Esa regla del 20% no es arbitraria; se basa en pruebas que demostraron que porcentajes menores suelen provocar falsos positivos. De este modo, Turnitin prefiere actuar con cautela y solo marcar el trabajo cuando hay una señal contundente de la intervención de la IA.
En otras palabras, un trabajo debe contener una cantidad significativa de contenido similar al generado por IA antes de ser etiquetado como tal.
Los trabajos cortos no se revisan
Otro límite importante: Turnitin no ejecutará el detector de IA en documentos de menos de 300 palabras. Esto se debe a que los textos breves no proporcionan al sistema suficientes datos para realizar una predicción precisa. Es necesario contar con suficiente contenido: cuantas más palabras haya, mejor será el análisis.
Eso es todo lo relativo a cómo Turnitin detecta el contenido de IA.
Cómo se posiciona el detector de IA de Turnitin frente a otras herramientas
Hay numerosos detectores de IA disponibles—algunos gratuitos, otros de pago—pero el sistema de Turnitin destaca en varios aspectos clave:
Diseñado especialmente para el entorno académico: A diferencia de muchos detectores genéricos, los modelos de Turnitin se entrenan específicamente con ejemplos reales de trabajos estudiantiles en diversas asignaturas, idiomas y estilos de redacción. Esto reduce los falsos positivos y lo hace más confiable en el ámbito educativo.
Enfoque de doble modelo: Mientras que la mayoría de los detectores solo marcan el texto generado por IA, Turnitin utiliza dos modelos—AIW-2 para el contenido generado directamente por IA y AIR-1 para el texto parafraseado por IA—abarcando más terreno y detectando contenido hábilmente camuflado.
Arquitectura basada en transformadores: Muchos detectores se basan en estadísticas simples como la perplejidad o la explosividad. El uso de avanzados modelos de transformadores por parte de Turnitin le permite identificar patrones sutiles en el lenguaje, haciendo la detección más inteligente y precisa.
Escala e integración: Las herramientas de Turnitin están integradas en sistemas de gestión del aprendizaje a nivel mundial, analizando ya más de 250 millones de trabajos—lo que permite que sus modelos se mejoren continuamente con datos del mundo real.
Transparencia y pruebas: Turnitin publica documentos técnicos y estudios de validación detallados, mostrando de forma abierta el rendimiento y las limitaciones de su sistema—algo que la mayoría de los detectores gratuitos no hacen.
En resumen: Turnitin no es simplemente otro comprobador de IA. Es un sistema robusto, respaldado por la investigación, diseñado para satisfacer las complejas exigencias del ámbito educativo, en lugar de simplemente señalar el uso de IA basado en reglas básicas.
Turnitin vs. Otros Detectores de IA
¿Te preguntas si puedes utilizar otros detectores de IA en lugar de Turnitin para revisar tu trabajo antes de enviarlo? La realidad es la siguiente: el sistema de Turnitin no puede ser fácilmente sustituido por herramientas populares como GPTZero.
Turnitin entrena sus modelos de IA utilizando trabajos reales de estudiantes en una amplia variedad de materias e idiomas, por lo que está especialmente calibrado para la escritura académica. Además, ha aprendido analizando más de 250 millones de envíos reales, algo que la mayoría de los otros detectores simplemente no poseen. Estos datos del mundo real mejoran notablemente la precisión.
Turnitin además va un paso más allá al utilizar dos modelos—uno para detectar contenidos generados por IA y otro para identificar oraciones parafraseadas por IA. Mientras que GPTZero y Quillbot ofrecen algunos resaltes a nivel de oración, no alcanzan la profundidad y fiabilidad que proporciona Turnitin.
Técnicamente, muchos detectores se basan en estadísticas más simples, como la perplejidad, pero Turnitin se fundamenta en modelos avanzados de transformadores que captan patrones sutiles del lenguaje, haciendo que su detección sea mucho más inteligente.
Preguntas Frecuentes
Q: ¿Qué modelos de IA utiliza Turnitin?
A: Turnitin utiliza dos modelos principales: AIW (AI Writing), para detectar texto generado directamente por IA, y AIR (AI Rewriting), para identificar contenido parafraseado por IA. Las versiones más recientes son AIW-2 y AIR-1, ambas impulsadas por un avanzado sistema de aprendizaje profundo basado en modelos Transformer.
Q: ¿Cómo puedo evitar ser detectado por los sistemas de IA de Turnitin?
Si te preocupa la detección por IA, lo mejor es redactar contenido original y bien investigado con tu propia voz auténtica. Además, existen herramientas humanizadas que pueden ayudarte a mejorar tu trabajo sin darle un tono que parezca generado por IA.
Q: ¿Es Turnitin más preciso que herramientas gratuitas como ZeroGPT?
A: Sí. Los modelos de Turnitin han sido revisados por expertos, probados en millones de trabajos académicos reales y están especialmente ajustados para la escritura estudiantil. En cambio, muchos detectores gratuitos no comparten sus datos de entrenamiento ni las tasas de falsos positivos, y a menudo pasan por alto detalles a nivel de oración. Herramientas como ZeroGPT suelen ser más permisivas y menos precisas.
Q: ¿Puede Turnitin detectar textos generados por IA más recientes como GPT-4 o Gemini?
A: Absolutamente. Desde 2024, el sistema de Turnitin ha sido diseñado para identificar textos generados por GPT-3, GPT-4, GPT-4o, Gemini, LLaMA y otros de los principales modelos de lenguaje de gran tamaño.
Q: ¿Qué tan precisa es la detección de IA de Turnitin?
A: Según Turnitin, su sistema de detección de IA es bastante preciso. Logran mantener una tasa de falsos positivos por debajo del 1% en documentos donde el 20% o más del contenido es generado por IA.
Conclusión
Hemos abordado en detalle el comprobador de IA de Turnitin—desde la forma en que descompone los trabajos en sus componentes hasta cómo se entrena utilizando textos reales de estudiantes y contenido generado por IA. Con la evolución de la IA, Turnitin también se adapta, un tema con el que tanto educadores como estudiantes deben enfrentarse. Al fin y al cabo, no se trata de descubrir a la gente, sino de preservar la confianza en el trabajo que entregamos. Comprender el funcionamiento de la herramienta ayuda a todos a utilizarla de manera más equitativa y responsable.