19 avril 2024 1255 mots, 6 min. de lecture

Détecteurs d’IA générative : sont-ils fiables ? [Test complet 2024]

Par Pierre-Nicolas Schwab Docteur en marketing, directeur de IntoTheMinds
Dans cet article je vous livre les résultats d'un test que j'ai mené sur 11 détecteurs d'IA générative. Un vainqueur se dégage clairement parmi les outils gratuits. Les résultats sont mitigés, voire franchement mauvais, pour la moitié des détecteur IA testés.

Les détecteurs d’IA générative sont-ils fiables ? Depuis l’invasion sur internet du contenu produit par les IA génératives (ChatGPT en tête), la détection de ce type de contenu est devenue une priorité. Google a en effet annoncé lors de la dernière update de son moteur de recherche qu’il allait pénaliser le contenu de faible qualité. J’ai donc testé 11 outils de détection d’IA générative gratuits afin de déterminer quels sont ceux qui sont les plus fiables. Comme vous allez le voir dans cet article, les résultats sont loin d’être homogènes et souvent très décevants.

Contactez IntoTheMinds, cabinet d’études marketing

Le contenu écrit par les IA génératives est devenu la plaie d’internet, ce qui pousse certains à revendiquer leur contenu comme 100% humain. Google s’est retrouvé piégé à son propre jeu. Il a demandé de privilégier le contenu « frais », et c’est exactement ce qu’il s’est passé quand ChatGPT a été rendu disponible au grand public. Certains se sont rués sur l’occasion pour produire du contenu qui n’avait d’original que le nom. Comme je l’ai montré dans une autre étude, le taux de similarité des textes produits par ChatGPT est très élevé. D’ailleurs, sans doute avez-vous déjà eu des soupçons sur l’origine d’un texte, d’un post sur les réseaux sociaux, ou d’un commentaire en le lisant. Quand c’est écrit par une IA générative, ça se voit.

Face au fléau des contenus générés par les IA génératives, des outils sont donc apparus qui proposent de les détecter. J’en ai sélectionné 11 et les ai testés.

Méthodologie

Pour tester la capacité des différents outils à reconnaître des textes écrits par une IA générative, j’ai préparé un corpus composé de :

  • 3 textes écrits entièrement par Chat GPT4.0 en anglais
  • 3 traductions en français des textes écrits par ChatGPT
  • 3 textes issus de mon blog et écrits entièrement par moi en français
  • 3 traductions en anglais des textes écrits par moi

Au final j’avais donc 12 textes répartis comme suit :

français anglais
Écrit par une IA générative 3 3
Écrit par un humain 3 3

J’ai ensuite passé chaque texte dans les outils dont vous trouverez la liste à la fin de cet article.
Je n’ai utilisé que les versions gratuites des différents outils. Dans le cas de Scribbr et Copyleaks, les textes en français n’ont pas pu être analysés.

Les résultats sont résumés dans le tableau suivant. Les textes 1 à 6 avaient été générés par Chat GPT 4.0. Les textes 7 à 12 avaient été écrits par moi en français puis traduits en anglais. Derrière le numéro du texte vous trouverez entre parenthèses la langue du texte.

Les résultats qui sont rapportés dans les tableaux ci-dessous correspondent au pourcentage de texte détecté comme ayant été écrit par une IA générative.

Détection des textes écrits par une IA générative

Vous trouverez dans le tableau ci-dessous les résultats des différents outils en ce qui concerne la détection de textes entièrement écrits par ChatGPT. Le pourcentage indiqué correspond à la part du texte que l’outil attribue à une IA générative. Dans le cas de Neuralwriter le pourcentage correspond à la confiance de l’outil dans l’attribution du contenu à une IA générative.
Pour Copyleaks et Scribbr la langue française ne peut pas être analysée dans la version gratuite.

1 (FR) 2 (EN) 3 (FR) 4 (EN) 5 (FR) 6 (EN)
Quillbot 95% 95% 86% 100% 100% 100%
Copyleaks n/a 100% n/a 100% n/a 100%
Smodin 74,60% 50,8% 76,10% 58,40% 79,30% 67,60%
detecting-ai.com 0% 100% 0% 99,77% 0% 100%
freeaitextclassifier 0% 0% 0% 0% 0%
contentatscale humain indécis humain indécis humain AI
corrector.app 21,09% 53% 98,60% 100% 73,73% 88,43%
plagiarismdetector.net 0% 0% 0% 0% 0% 0%
plag.fr 46% 10% 81% 24% 61% 9%
scribbr.fr n/a 100% n/a 100% n/a 100%
neuralwriter.com 10% 70% 10% 5% 30% 10%

Sur la version anglaise, c’est Scribbr et Copyleaks qui s’en sortent le mieux en détectant 3 fois sur 3 le contenu anglais créé par ChatGPT. Detecting-ai.com et Copyleaks font quasiment aussi bien sur la version anglaise mais ne sont pas non plus en mesure d’analyser le contenu écrit en français.

Si vous cherchez un détecteur d’IA qui fonctionne dans les 2 langues, le meilleur compromis sur ce test est offert par Quillbot.

A l’autre bout du spectre, plagiarismdetector.net et freetextclassifier ne détectent rien ni l’un ni l’autre et sont donc à proscrire quelle que soit la langue.

Les autres détecteurs d’IA ne s’en sortent que moyennement et font des erreurs plus ou moins importantes.

Détection des textes écrits par un humain

Dans la deuxième partie du test, le but est de détecter correctement des textes écrits par un humain (moi en l’occurrence). Il ne faut donc pas l’attribuer à une IA générative. Les valeurs recherchées dans le tableau ci-dessous sont donc 0% dans chacun des colonnes.

Freeaitextclassifier a renvoyé des erreurs et n’a pu être testé.

Voici les résultats.

7 (FR) 8 (EN) 9 (FR) 10 (EN) 11 (FR) 12 (EN)
Quillbot 0% 0% 0% 0% 0% 0%
Copyleaks n/a 50% n/a 0% n/a 0%
Smodin 9,70% 9% 1,90% 12,80% 27% 0%
detecting-ai.com 0% 0% 0% 0% 0% 0%
freeaitextclassifier erreur erreur erreur erreur erreur erreur
contentatscale humain humain humain humain humain humain
corrector.app 0% 0% 20,42% 24,27% 9,58% 1,92%
plagiarismdetector.net 0% 0% 0% 0% 0% 0%
plag.fr 3% 13% 6% 11% 6% 5%
scribbr.fr n/a 24% n/a 0% n/a 16%
neuralwriter.com 10% 30% 5% 20% 30% 10%

 

Plusieurs outils de détection d’IA générative font un sans-faute : Quillbot, detecting-ai.com, contenscale, plagiarismdetector.net. Copyleaks qui, je le rappelle, ne traite que l’anglais dans sa version gratuite, se trompe une fois en attribuant la moitié du texte 8 à l’IA générative.


En général les outils de détection d’IA générative se trompent moins souvent lorsqu’il s’agit de contenu rédigé par un humain.


Résultats finaux

Pour déterminer le(s) gagnant(s) de ce test il faut bien sûr tenir compte des 2 épreuves. Il ne suffit pas de bien détecter un texte écrit par l’IA. Il faut également ne pas attribuer à l’IA un texte écrit par un humain. Le test étant en 2 langues (français et anglais), il faut en outre que la version gratuite de l’outil puisse gérer les 2 langues.

C’est Quillbot qui gagne haut-la-main ce test. Ce détecteur d’IA réalise un sans-faute sur le contenu rédigé par un humain, et est proche du sans-faute sur le contenu rédigé par ChatGPT (moyenne de 96% de détection sur les 6 textes fournis).

J’attribue une mention spéciale à Copyleaks qui n’a fait qu’une seule erreur mais a correctement identifié les autres contenus en anglais. Pour rappel, la version payante de Copyleaks traite le français.

Tous les autres outils commettent des fautes plus ou moins importantes mais ce que je constate, c’est qu’en général les outils de détection d’IA générative se trompent moins souvent lorsqu’il s’agit de contenu rédigé par un humain. C’est tout à fait paradoxal.

Deux sites sont à proscrire car ils se trompent systématiquement : freeaitextclassifier (qui en plus ne fonctionne pas tout le temps) et plagiarismdetector.net

Liste des outils de détection d’IA générative testés



Publié dans Data et IT.

Donnez votre avis

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *