19 april 2024 1059 woorden, 5 min. gelezen

Generatieve AI-detectoren: zijn ze betrouwbaar? [Volledige test 2024]

Door Pierre-Nicolas Schwab Gepromoveerd in marketing, directeur van IntoTheMinds
In dit artikel vindt u de resultaten van een vergelijkingstest tussen 11 generatieve AI-detectors. Onder de gratis tools komt een duidelijke winnaar naar voren. De helft van de geteste AI-detectors leverde gemengde, zelfs ronduit slechte resultaten op.

Zijn generatieve AI-detectoren betrouwbaar? Sinds het internet wordt overstelpt door inhoud die geproduceerd is door generatieve AI (ChatGPT in het bijzonder), is de detectie van dit soort inhoud een prioriteit geworden. In de laatste update van zijn zoekmachine kondigde Google aan dat het inhoud van lage kwaliteit zou bestraffen. Daarom testte ik 11 gratis generatieve AI-detectietools om na te gaan welke het meest betrouwbaar zijn. Zoals u in dit artikel zult zien, zijn de resultaten verre van uniform en vaak heel teleurstellend.

Neem contact op met het marktonderzoeksbureau IntoTheMinds

Inhoud geschreven door generatieve AI’s is een plaag op het internet geworden, wat sommigen ertoe aanzet te beweren dat hun inhoud 100% menselijk is. Google heeft zichzelf in de val laten lopen. Het riep op tot ‘verse’ inhoud, en dat is precies wat er gebeurde toen ChatGPT beschikbaar werd gesteld voor het grote publiek. Sommige mensen grepen de kans om inhoud te produceren die alleen in naam origineel was. Zoals ik in een eerder onderzoek al aantoonde, is de gelijkenis tussen de teksten die door ChatGPT zijn gemaakt erg hoog. Wellicht had u zelf al eens vermoedens over de herkomst van een tekst, een post op sociale netwerken of een commentaar. Het valt op wanneer een tekst afkomstig is van een generatieve AI.

Als reactie op de plaag van inhoud gegenereerd door generatieve AI, zijn er hulpmiddelen ontstaan om deze te detecteren. Ik heb er 11 geselecteerd en getest.

Methode

Om het vermogen van de verschillende tools te testen om teksten te herkennen die geschreven zijn door generatieve AI, heb ik een corpus samengesteld bestaande uit:

  • 3 teksten volledig geschreven door ChatGPT4.0 in het Engels
  • 3 Franse vertalingen van teksten geschreven door ChatGPT
  • 3 teksten van mijn blog volledig door mij geschreven in het Frans
  • 3 Engelse vertalingen van teksten die ik heb geschreven

Uiteindelijk had ik 12 teksten die als volgt verdeeld waren:

Frans Engels
Geschreven door een generatieve AI 3 3
Geschreven door een mens 3 3

Vervolgens heb ik elke tekst laten controleren door de tools onderaan dit artikel.
Ik gebruikte daarbij alleen de gratis versies van de tools. In het geval van Scribbr en Copyleaks konden de Franse teksten daarom niet geanalyseerd worden.

De resultaten worden in de onderstaande tabel samengevat. Teksten 1 tot 6 werden gegenereerd door Chat GPT 4.0. Teksten 7 tot 12 zijn door mij in het Frans geschreven en vervolgens in het Engels vertaald. Achter het tekstnummer vindt u tussen haakjes de taal van de tekst.

De resultaten in de onderstaande tabellen komen overeen met het percentage tekst dat gedetecteerd werd als geschreven door een generatieve AI.

Detectie van teksten geschreven door generatieve AI

De onderstaande tabel geeft de resultaten weer van de verschillende tools wat betreft het detecteren van teksten die volledig door ChatGPT zijn geschreven. Het aangegeven percentage komt overeen met het deel van de tekst dat de tool toeschrijft aan een generatieve AI. In het geval van Neuralwriter komt het percentage overeen met het vertrouwen dat de tool heeft in het toeschrijven van de inhoud aan een generatieve AI.
Voor Copyleaks en Scribbr kan de Franse taal niet worden geanalyseerd in de gratis versie.

1 (FR) 2 (EN) 3 (FR) 4 (EN) 5 (FR) 6 (EN)
Quillbot 95% 95% 86% 100% 100% 100%
Copyleaks n/a 100% n/a 100% n/a 100%
Smodin 74,60% 50,8% 76,10% 58,40% 79,30% 67,60%
detecting-ai.com 0% 100% 0% 99,77% 0% 100%
freeaitextclassifier 0% 0% 0% 0% 0%
contentatscale menselijk onbeslist menselijk onbeslist menselijk AI
corrector.app 21,09% 53% 98,60% 100% 73,73% 88,43%
plagiarismdetector.net 0% 0% 0% 0% 0% 0%
plag.fr 46% 10% 81% 24% 61% 9%
scribbr.fr n/a 100% n/a 100% n/a 100%
neuralwriter.com 10% 70% 10% 5% 30% 10%

Bij de Engelse versie scoren Scribbr en Copyleaks het beste en detecteren ze 3 op 3 keer de Engelse inhoud die werd geschreven door ChatGPT. Detecting-ai.com en Copyleaks doen het bijna net zo goed bij de Engelse versie, maar ze kunnen geen inhoud analyseren die in het Frans is geschreven.

Als u op zoek bent naar een AI-detector die in beide talen werkt, is Quillbot het beste compromis in deze test.

Aan de andere kant van het spectrum detecteren plagiarismdetector.net en freeaitextclassifier niets, deze moeten dus in elke taal worden vermeden.

Andere AI-detectors presteren matig en maken fouten van verschillende grootte.

Detectie van teksten geschreven door een mens

In het tweede deel van de test was het de bedoeling dat teksten die door een mens (in dit geval mijzelf) zijn geschreven, als dusdanig worden gedetecteerd. Ze mogen dus niet worden toegeschreven aan een generatieve AI. De gezochte waarden in de onderstaande tabel zijn daarom 0% in elk van de kolommen.

Freeaitextclassifier gaf fouten aan en kon niet worden getest.

Dit zijn de resultaten :

7 (FR) 8 (EN) 9 (FR) 10 (EN) 11 (FR) 12 (EN)
Quillbot 0% 0% 0% 0% 0% 0%
Copyleaks n/a 50% n/a 0% n/a 0%
Smodin 9,70% 9% 1,90% 12,80% 27% 0%
detecting-ai.com 0% 0% 0% 0% 0% 0%
freeaitextclassifier fout fout fout fout fout fout
contentatscale menselijk menselijk menselijk menselijk menselijk menselijk
corrector.app 0% 0% 20,42% 24,27% 9,58% 1,92%
plagiarismdetector.net 0% 0% 0% 0% 0% 0%
plag.fr 3% 13% 6% 11% 6% 5%
scribbr.fr n/a 24% n/a 0% n/a 16%
neuralwriter.com 10% 30% 5% 20% 30% 10%

 

Verschillende generatieve AI-detectietools zijn foutloos: Quillbot, detecting-ai.com, contentatscale, plagiarismdetector.net. Copyleaks, dat alleen Engels verwerkt in zijn gratis versie, gaat één keer in de fout door de helft van tekst 8 toe te schrijven aan generatieve AI.


Over het algemeen maken generatieve AI-detectietools minder fouten als het gaat om inhoud die door een mens is geschreven.


Eindresultaten

Om de winnaar(s) te bepalen, moeten we vanzelfsprekend rekening houden met beide tests. Het is niet voldoende dat een door AI geschreven tekst correct wordt gedetecteerd. Het is ook belangrijk dat teksten die door een mens zijn geschreven niet aan AI worden toegewezen. Aangezien de test in 2 talen verliep (Frans en Engels), moet de gratis versie van de tool met beide talen overweg kunnen.

Quillbot is de duidelijke winnaar van deze test. Deze AI-detector presteerde foutloos op inhoud geschreven door een mens, en was bijna foutloos op inhoud geschreven door ChatGPT (gemiddelde van 96% detectie op de 6 verstrekte teksten).

Ik wil graag een speciale vermelding geven aan Copyleaks, dat slechts één fout maakte, maar de andere Engelse inhoud correct identificeerde. Ter herinnering, de betaalde versie van Copyleaks kan ook met Frans overweg.

Alle andere tools maken in meer of mindere mate fouten, maar wat opvalt is dat generatieve AI-detectietools over het algemeen minder fouten maken als het gaat om inhoud die door een mens is geschreven. Dit lijkt eerder paradoxaal.

Twee sites zijn te vermijden omdat ze systematisch fout zijn: freeaitextclassifier (dat bovendien niet altijd werkt) en plagiarismdetector.net.

Lijst van geteste generatieve AI-detectietools



Posted in Data en IT.

Plaats uw mening

Je e-mailadres zal niet getoond worden. Vereiste velden zijn gemarkeerd met *