19 abril 2024 1154 palabras, 5 min. read

Detectores de IA generativas: ¿son fiables? [Prueba completa 2024]

Por Pierre-Nicolas Schwab Doctor en marketing, director de IntoTheMinds
En este artículo presento los resultados de una prueba realizada con 11 detectore de IA generativas. Entre las herramientas gratuitas emerge un claro ganador. Los resultados son ambivalentes, cuando no directamente malos, para la mitad de los detectores de IA probados.

¿Son de fiar los detectores de IA generativas? Desde la invasión de Internet de la mano del contenido producido por IA generativas (especialmente ChatGPT), detectar este tipo de contenido se ha convertido en una prioridad. En su última actualización de su motor de búsqueda, Google anunció que penalizaría el contenido de poca calidad. Así que probé 11 herramientas gratuitas distintas para detectar IA generativas y encontrar así la más fiable. Tal y como verás en este artículo, los resultados quedan muy lejos de ser homogéneos, y a menudo resultan de lo más decepcionantes.

Contacta con la agencia de investigación de marketing IntoTheMinds

El contenido escrito por IA generativas se ha convertido en la maldición de Internet, lo que ha llevado a algunos a declarar que su contenido es 100% humano. Google ha acabado atrapado en su propio juego: solicitaba contenido «fresco», que fue exactamente lo que pasó cuando ChatGPT empezó a estar disponible al público general. Algunas personas se abalanzaron ante la oportunidad de producir contenido que era original solo en nombre. Tal y como mostré en otro estudio, la tasa de parecido de los textos producidos por ChatGPT es remarcablemente alta. Seguramente ya tuvieras tus sospechas sobre el origen de algún texto, una publicación en una red social, o un comentario que hayas leído. Cuando lo que escribe es una IA generativa, se nota.

Al enfrentarse al mal del contenido generado por IA generativas, han empezado a surgir herramientas para detectar ese contenido. He elegido 11 de ellas y las he probado.

Metodología

Para comprobar la capacidad de varias herramientas para reconocer textos redactados por IA generativas, he preparado una base de datos formada por:

  • 3 textos escritos completamente con Chat GPT4.0 en inglés
  • 3 traducciones franceses de los textos escritas por ChatGPT
  • 3 textos de mi blog escritos completamente por mi persona en francñes
  • 3 traducciones en inglés de los textos que escribí

Al final, tenía 12 textos que distribuí del siguiente modo:

Francés Inglés
Escritos por una IA generativa 3 3
Escritos por un humano 3 3

Después pasé cada uno de los textos por las herramientas enumeradas al final de este artículo.

Solo utilicé la versión gratuita de las diversas herramientas. En el caso de Scribbr y Copyleaks, los textos en francés no pudieron ser analizados.

Los resultados se resumen en la siguiente tabla. Los textos del 1 al 6 fueron generados por ChatGPT 4.0, mientras que los textos del 7 al 12 fueron redactados en francés por mí y posteriormente traducidos al inglés. Debajo del número del texto encontrarás el idioma del mismo entre paréntesis.

Los resultados de las tablas que hay a continuación se corresponden con el porcentaje de texto detectado como redactado por una IA generativa.

Detección de textos redactados por una IA generativa

La siguiente tabla muestra los resultados de las diversas herramientas utilizadas para detectas textos escritos por completo con ChatGPT. El porcentaje indicado se corresponde con la proporción de texto que la herramienta atribuya a una IA generativa. En el caso de Neuralwriter, el porcentaje se corresponde con la confianza de la herramienta al atribuir el contenido a una IA generativa.

Para Copyleaks y Scribbr, no se puede analizar texto en francés en su versión gratuita.

1 (FR) 2 (EN) 3 (FR) 4 (EN) 5 (FR) 6 (EN)
Quillbot 95% 95% 86% 100% 100% 100%
Copyleaks n/a 100% n/a 100% n/a 100%
Smodin 74,60% 50,8% 76,10% 58,40% 79,30% 67,60%
detecting-ai.com 0% 100% 0% 99,77% 0% 100%
freeaitextclassifier 0% 0% 0% 0% 0%
contentatscale humano indeciso humano indeciso humano AI
corrector.app 21,09% 53% 98,60% 100% 73,73% 88,43%
plagiarismdetector.net 0% 0% 0% 0% 0% 0%
plag.fr 46% 10% 81% 24% 61% 9%
scribbr.fr n/a 100% n/a 100% n/a 100%
neuralwriter.com 10% 70% 10% 5% 30% 10%

Scribbr y Copyleaks obtienen los mejores resultados en la versión inglesa, detectando el contenido en inglés creado con ChatGPT 3 veces de las 3 veces presentadas. Detecting-ai.com y Copyleaks lo hacen casi igual de bien en la versión inglesa, pero necesitan ayuda a la hora de analizar contenido escrito en francés.

Si estás buscando un detector de AI que funcione en ambos idiomas, Quillbot ofrece el mejor compromiso para esta prueba.

 Al otro extremo del espectro, plagiarismdetector.net y freetextclassifier no detectan nada y deberían evitar en cualquier idioma.

Otros detectores de AI solo obtuvieron resultados medios y cometieron errores de diversa importancia.

Detectar texto escrito por humanos

La segunda parte de la prueba busca detectar correctamente textos redactados por un humano (en este caso, yo). No se trata de una tarea de IA generativas, por lo que los valores deseados en la siguiente tabla deberían ser 0% en cada columna.

Freeaitextclassifier dio errores y no se pudo realizar la prueba.

He aquí los resultados:

7 (FR) 8 (EN) 9 (FR) 10 (EN) 11 (FR) 12 (EN)
Quillbot 0% 0% 0% 0% 0% 0%
Copyleaks n/a 50% n/a 0% n/a 0%
Smodin 9,70% 9% 1,90% 12,80% 27% 0%
detecting-ai.com 0% 0% 0% 0% 0% 0%
freeaitextclassifier error error error error error error
contentatscale humano humano humano humano humano humano
corrector.app 0% 0% 20,42% 24,27% 9,58% 1,92%
plagiarismdetector.net 0% 0% 0% 0% 0% 0%
plag.fr 3% 13% 6% 11% 6% 5%
scribbr.fr n/a 24% n/a 0% n/a 16%
neuralwriter.com 10% 30% 5% 20% 30% 10%

 

Varias herramientas de detección de IA generativas dan resultados perfectos: Quillbot, detecting-ai.com, contenscale, plagiarismdetector.net. Copyleaks, que solo procesa inglés en su versión gratuita, erró una vez al atribuir el texto 8 a una IA generativa.


Generalmente, las herramientas de detección de IA generativa se equivocan menos con los contenidos escritos por humanos.


Resultados finales

Para determinar el ganador (o ganadores) de esta prueba es necesario, por supuesto, tener en cuenta las dos fases de la misma. No es suficiente con detectar si un texto ha sido escrito con una IA; también es importante que no atribuya un texto escrito por un humano a una IA. Puesto que la prueba es en 2 idioma (francés e inglés), la versión gratuita de la herramienta debe ser capaz de manejar ambos.

Quillbot es el claro ganador de esta prueba. Este detector de IA se comporta de manera perfecta con el contenido escrito por humanos y es casi perfecto cuando el contenido es redactado con ChatGPT (una media de detección del 96% con los 6 textos ofrecidos).

Quiero mencionar a Copyleaks, que solo cometió un error pero identificó correctamente el resto del contenido en inglés. Como recordatorio, la versión de pago es capaz de gestionar el francés.

Todas las demás herramientas cometen errores en mayor o menor medida, pero me he percatado de que, en general, las herramientas de detección de IA generativas se equivocan menos cuando el contenido ha sido escrito por un humano. Resulta paradójico.

Hay dos páginas que deberían evitarse, ya que fallan de manera sistemática: freeaitextclassifier (que además solo funciona en ocasiones) y plagiarismdetector.net.

Lista de herramientas de detección de IA generativas probadas



Posted in Data y IT.

Publique su opinión

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *