16 febrero 2023 2326 palabras, 10 min. read

ChatGPT: 1000 textos analizados con hasta un 75,3% de parecido

Por Pierre-Nicolas Schwab Doctor en marketing, director de IntoTheMinds
¿Son únicas todas las respuestas generadas por ChatGPT? ¿O estamos sobrestimando su capacidad de producir textos distintos? Esa es la pregunta que me hice tras analizar 1000 textos generados por ChatGPT. Comparé el parecido entre 1.000.000 pares de textos generados […]

¿Son únicas todas las respuestas generadas por ChatGPT? ¿O estamos sobrestimando su capacidad de producir textos distintos? Esa es la pregunta que me hice tras analizar 1000 textos generados por ChatGPT. Comparé el parecido entre 1.000.000 pares de textos generados por esta inteligencia artificial en respuesta a esta pregunta, y los resultados son sorprendentes y suponen un reto a la promesa del OpenAI. Descubre en este artículo los resultados de nuestro análisis en profundidad y lo que significa para el futuro de la generación de textos. Para mantenerte al día de mis análisis, te invito a considerar suscribirte a nuestras novedades semanales y a seguirme en LinkedIn.

ChatGPT: todos los resultados en 30 segundos

  • ChatGPT produce respuestas bastante parecidas cuando le haces varias veces la misma pregunta. De media, el parecido varía entre el 70 y el 75%.
  • Sea cual sea la pregunta, se producen «accidentes», generando respuestas bastante distintas de las otras. El parecido mínimo medido es del 40%.
  • ChatGPT tiene una capacidad fascinante de producir respuestas parecidas a preguntas distintas. El parecido medio entre respuestas de ChatGPT a preguntas diferentes es del 60,93%.
  • La longitud de las respuestas propuestas por ChatGPT para la misma pregunta varía ampliamente. Los 1000 textos producidos muestran variaciones máximas de +176% y -70%.

Resumen

  1. Metodología
  2. Descubre el nivel de consistencia de ChatGPT: el parecido de sus respuestas ante la misma pregunta
  3. La fascinante habilidad de ChatGPT de producir respuestas parecidas a preguntas diferentes
  4. Extra: ¿tienen siempre la misma longitud los textos producidos por ChatGPT?
  5. Apéndices

 


Metodología: leer primer para comprender los resultados consiguientes

El objetivo de esta investigación es estudiar lo distintas que son las respuestas ofrecidas por ChatGPT entre ellas. Se trata de un proyecto de investigación complejo que tuve que dividir en varios experimentos. Hoy te presento los resultados del primero; suscríbete a para seguir las novedades y no perderte el resto.

Generación del cuerpo de investigación

En este primer experimento, le pedí a ChatGPT que escribiese un artículo sobre un tema concreto (ver ejemplo a continuación). Se propuso un guion para estructurar las respuestas. Se definían veinte temáticas (ver Listado al final del artículo), y la solicitud que se le hacía a ChatGPT fue siempre la misma. Lo único que cambió fue la palabra clave entre comillas.

question asked to chatGPT

Quería imponer un plan concreto para cubrir las necesidades de los creadores de contenido que, cuando buscan posicionarse con palabras clave genéricas, adoptan una estructura que acostumbra a ser la misma. Para esta primera prueba, seguí un plan muy básico. En el segundo experimento se retira por lógica las indicaciones relacionadas con el plan del artículo para observar así cómo reacciona ChatGPT.

Esta estructura también me permitiría comparar artículos redactados sin la participación de una inteligencia artificial para este blog. Por ejemplo, aquí hay un artículo dedicado al marketing de activación.

regenerate response with chatGPT

Cada respuesta se generó 50 veces, una tras otra, sin interrupción. Cuando el proceso de regeneración se vio interrumpido por un problema técnico, el trabajo se inició partiendo de cero.

Aquí hay un ejemplo de respuesta obtiene a la pregunta anterior.

response chatGPT on activation marketing

Preparación de los datos y procesamiento

El procesamiento y análisis de los datos se realizó con Anatella. La visualización de esos datos se hizo con Tableau.
Este proyecto no podría haberse realizado sin Anatella. Este ETL fue fundamental como mínimo por 2 aspectos:

  • Para calcular parecidos de manera fácil y especialmente rápida (44 segundos para calcular el parecido entre 1 millones de parejas de textos)
  • Para pivotar los datos y poder importarlos a Tableau (usando Tableau se pueden gestionar un máximo de 700 columnas, pero mi matriz de parecidos de mayor tamaño tenía 1000 líneas y 1000 columnas)

Para más información sobre preparación de datos, te remito al final de este artículo, donde explico los pasos necesarios para llevar a cabo dicha preparación.


Descubrir lo consistente que es ChatGPT: el parecido de sus respuestas ante la misma pregunta

Para empezar, el objetivo era comparar las respuestas a la misma pregunta. El parecido de los textos producidos se midió gracias al método Dice, del que ya he hablado aquí. Así que comparé las 50 iteraciones de cada una de las 20 preguntas.

Obtuvimos 20 matrices de 50×50 que puedes ver más abajo. El color ofrece una idea de la tasa de parecido; cuando más claro es, menor parecido. No quise llenar el gráfico con detalles innecesarios ya que pretendía ofrecer únicamente un resumen «visual» del conjunto.

20 matrices of 50 iterations each : comparing similarity of texts produced by ChatGPT

Análisis de parecido de las respuestas de ChatGPT a 20 preguntas regeneradas 50 veces cada una. Cada cuadrado corresponde a una pregunta. Contiene 50 líneas y 50 columnas, y cada línea y cada columna se corresponde con una iteración.

Así puedes ver a nivel visual que las diferencias son bastante pronunciadas. Para algunas series, las iteraciones son similares, mientras que para otras hay variaciones bastante marcadas.

De media, ChatGPT produce respuestas parecidas cuando le haces la misma pregunta varias veces. Concretamente, el coeficiente de parecido más pequeño es de 0,40 (pregunta M), y el más alto es de 0,86 (pregunta I). La dispersión de coeficientes de parecido se representa en el gráfico que hay a continuación. También se puede leer un parecido medio para cada serie. Como verás, todos los valores se sitúan entre 0,7 y 0,75.

spread of similarity scores of texts produced by ChatGPT

¿Podemos observar el «desvío» progresivo de las respuestas a medida que avanzan las iteraciones? O, en otras palabras, ¿produce ChatGPT, a medida que van pasando iteraciones, respuestas cada vez más y más alejadas del primer texto que ofrece?

Para dar respuesta a esta pregunta es suficiente con realizar un mapa de calor entre las 50 iteraciones de las 20 series. No existe un patrón concreto en los datos, lo que señala que cada respuesta de ChatGPT se regenera sin considerar las anteriores. La tasa media de parecido es de 73,17%.

Al aislar una serie y comparar cada iteración con la primera respuesta, podemos ver que el parecido no disminuye. En el gráfico siguiente aislé las series A, B, y C, y calculé el parecido de cada respuesta producida por ChatGPT en comparación con el primero de los textos. El gráfico empieza, lógicamente, en la iteración 2, puesto que el punto de comparación es el texto inicial (iteración 1).

how similar are texts produced by ChatGPT accross 50 iterations

¿Qué podemos aprender de este análisis?

He aquí algunas lecciones que pueden aprenderse de este primer análisis:

  • Cuando le haces la misma pregunta varias veces a ChatGPT, no esperes recibir respuestas básicamente distintas. Todas se estructuran de manera bastante parecida, algo normal puesto que las «mecánicas» algorítmicas que hay detrás de ChatGPT forman frases basándose en la siguiente palabra más probable. Así que, lógicamente, encontramos estructuras de frases parecidas entre una iteración y la siguiente.
  • Esta investigación mide de manera objetiva la tasa de parecido entre respuestas. En el nivel mínimo, la tasa de parecido es del 40%, mientras que en el máximo es de 86%. De media, se encuentra en el 73%.

Dos textos producidos por ChatGPT sobre diferentes temas pueden ser parecidos hasta en un 50% o 2/3 partes.


La fascinante capacidad de ChatGPT de producir respuestas parecidas a preguntas distintas

Nuestra metodología se basó en preguntas idénticas en las que solo cambiaba la temática de la pregunta. Partiendo de ahí, se presenta la opción de comprar las respuestas a preguntas diferentes.

He aquí un ejemplo concreto. ¿Con qué parecido escribe ChatGPT textos sobre marketing de activación (temática A) respecto a los de astroturfing (temática B)? El ejercicio es parecido al realizado en la primera parte de este artículo; la diferencia yace en la agregación que tuvo que hacerse de los puntos relacionados a la misma pregunta (de la serie A a la T). Para llevar a cabo esta operación, la preparación de datos en Anatella demostró ser imprescindible ya que fue necesario comprar series entre sí. Me saltaré los aspectos técnicos e iré directo a hablar de los detalles. Para eso estás aquí, ¿verdad? ?

similarity of answers provided by ChatGPT to different questions

El mapa de calor que hay más arribe te permite visualizar el parecido entre los textos producidos para cada pregunta. Recuerda que cada letra (de la A a la T) representa una pregunta diferente. La temática difiere entre sets, pero la presentación es la misma (definición – ejemplos – conclusiones – referencias). Es razonable pensar que el parecido entre textos que tratan distintos temas sería bajo, pero n oes así. El parecido mínimo se encuentra en el 54,38%, y el máximo en el 66,90%. La media de parecido es del 60,93%, lo que significa que, en nuestro experimento, dos textos producidos por ChatGPT sobre temáticas diferentes pueden tener entre un 50% y 2/3 partes parecidas.

¿Qué podemos aprender de este análisis?

La lección principal de este análisis es que ChatGPT puede producir respuestas parecidas a preguntas diferentes. El siguiente experimento es una oportunidad para ampliar la comprensión del funcionamiento del algoritmo al no imponer un diseño y ver si ese diseño impuesto tiene algo que ver con los resultados.


Extra: ¿los textos que produce ChatGPT tienen siempre la misma longitud?

Para finalizar esta investigación, propongo explorar la variación en la longitud de los textos producidos por ChatGPT. Puesto que se le impone una planificación, los textos deberían tener todos una longitud equivalente. Pero, una vez más, no es así.

variation of lenth of texts produced by ChatGPT

Empecemos echando un vistazo a la Serie A, las 50 iteraciones de textos producidas por ChatGPT sobre marketing de activación. El texto medio es de 237 palabras, pero entre una iteración y la siguiente, la longitud puede sufrir una variación dramática. Entre la iteración 16 y la 17, por ejemplo, el texto producido por ChatGPT desciende en 122 palabras, pasando de 328 a 206.

Se puede observar la misma variación en las 20 temáticas (ver gráfico a continuación). No he querido cargar demasiado la visualización, pero aquí tienes las variaciones máximas:

  • +200 palabras entre la iteración 9 y la 10 para el tema I («Net Promoter Score»)
  • 232 palabras entre la iteración 22 y la 23 para el tema M («Celebrity marketing»)

Teniendo en cuenta la totalidad de 1000 textos producidos, las variaciones máximas relativas fueron de:

  • +176%
  • -70%

percentage variation of texts produced by chatGPT ; 20 series of 50 texts analyzed

¿Qué podemos aprender de este análisis?

ChatGPT produce respuestas que varían ampliamente, al menos en cuanto a longitud. Los 1000 textos producidos muestran variaciones máximas de +176% y -70%. La longitud de los textos tiene, así, una alta fluctuación. En el siguiente experimento regeneraré todo este corpus imponiendo el número de palabras, lo que me permitirá investigar las instrucciones en relación con la dispersión de los resultados alrededor del objetivo.

Anexos

El procedimiento de la preparación de datos de Anatella

Para empezar, Anatella es un software ETL (Extraer – Transformar – Cargar) que te permite trabajar los datos antes de volver a inyectarlos en otro software. Es mi ETL preferido por varias razones:

Primero, porque es extremadamente rápido (comprueba un benchmark aquí).
Segundo, propone un rango de herramientas mucho más amplio que sus competidores, por lo que facilita hacer frente a problemas complejos.
El editor (Timi) es muy reactivo e incluso me ofrece una característica personalizada para dar una respuesta fácil a una necesidad específica (calcular el parecido entre un gran número de parejas de textos – ver flujo 2 a continuación)

Se crearon tres flujos de preparación de datos concretos en Anatella.

flux de préparation des données chatGPT sous anatella

Flujo 1: computo de parecidos dentro de una serie

El primer flujo es sencillo pero bastante redundante. Las siguientes cajas (hay 50) computan el parecido entre la iteración n y la iteración 1. Las primeras 2 cajas nos permiten computar el parecido de una iteración respecto a la anterior.

Flujo 2: computación de parecidos entre cada pareja de textos

Para este flujo debo darle las gracias a Frank Vanden Berghen por ofrecerme una funcionalidad hecha a medida. Ya he hablado en profundidad de las cualidades de Anatella, y la velocidad de ejecución es una ventaja que tiene sobre los demás ETL. El reto aquí era calcular con rapidez el parecido entre cada pareja de textos. Sabiendo que había 50 iteraciones para cada una de las 20 preguntas, esto representaba 1000²=1.000.000 posibilidades. Deja que destaque de nuevo la velocidad extrema del proceso, puesto que el cálculo de un millón de parecidos solo llevó 44 segundos.

La función de «desaplanar» de Anatella demostró ser muy útil en este ejercicio. Al inyectar los datos en Tableau, estos deben ser «desaplanados», pero Tableau solo puede hacerlo hasta un máximo de 700 columnas. Puesto que la matriz tiene una longitud de 1000 columnas, visualizar los datos solo era posible preparándolos fuera de Tableau.

Flujo 3: cálculo del parecido entre las series

El último flujo genera una matriz entre series, por lo que es una matriz de 20×20. La función de «grupo por» antes de exportar a Excel nos permite obtener valores de parecido medios.

Lista de temas

Aquí tienes la lista de temas que presentamos a ChatGPT.

Referencia Temática
A Activation marketing
B Astroturfing
C Gender marketing
D Marketing as a service
E Marketing automation
F Emoji marketing
G Reactive marketing
H Street marketing
I Net Promoter Score
J Customer experience
K Customer Lifetime Value
L Brand safety
M Celebrity marketing
N Buzz marketing
O call to action
P Newsjacking
Q Microblogging
R Social CRM
S Social media planning
T churn rate

 



Posted in Data y IT, Investigación.

Publique su opinión

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *