Tecnología

GPT-4, el modelo que más infringe derechos de autor entre todas las IA

Una reciente investigación reveló que el modelo de OpenAI es el que reproduce contenido protegido por derechos de autor con mayor facilidad en sus respuestas.

jue 07 marzo 2024 09:00 AM

GPT-4 de OpenAI es el modelo de IA que más infringe derechos de autor — Este problema es preocupante, pues ChatGPT es la plataforma de IA más utilizada en empresas. (Robert Way/Getty Images)

Expansión

@ExpansionMx

La evolución de la Inteligencia Artificial generativa ha sido notoria, pero todos los principales modelos siguen cometiendo un importante error que merma la confianza de los usuarios respecto a su uso: todavía infringen derechos de autor y GPT-4 es la que más cae en este problema.

De acuerdo con una investigación realizada por Patronus AI , una compañía fundada por ex investigadores de Meta, la cual se especializa en evaluar a los grandes modelos de lenguaje (LLM, por sus siglas en inglés), prácticamente en todos los modelos que pusieron a prueba encontraron contenido protegido por derechos de autor.

Patronus AI destacó que los modelos que se investigaron fueron GPT-4, Claude 2, de Anthropic, Llama 2, de Meta y Mistral de Mistral AI; sin embargo, el producto de OpenAI fue el que más infracciones tuvo, lo cual resulta preocupante al ser el más popular también.

“Descubrimos que GPT-4, de OpenAI, posiblemente el modelo más poderoso que utilizan muchas empresas y también desarrolladores individuales, produjo contenido protegido por derechos de autor en el 44% de las indicaciones que construimos”, explicó la directora de tecnología de Patronus AI, Rebecca Qian.

Los resultados de Patronus AI, empresa que también lanzó una herramienta para detectar posibles infracciones a derechos de autor, demostraron que los modelos de IA generativa plagiaron tanto a la hora de hacer código como al momento de entregar resúmenes de libros.

Según la investigación, en esta se utilizaron libros protegidos por derechos de autor y a los modelos se les pidieron 100 indicaciones diferentes, relacionadas al contenido de los mismos, como completar frases sin que se les mencionara el título de la obra.

Fue así como GPT-4 tuvo el peor desempeño al ser la plataforma menos cautelosa en la reproducción de contenido protegido por derechos de autor, mientras que Claude 2, por ejemplo, sólo cayó en esta falla el 16% de las veces.

El ejemplo de la plataforma de Anthropic fue revelador, pues Claude se negó a responder afirmando que no tiene acceso a libros protegidos con derechos de autor, mientras que OpenAI dio respuestas sin tener en consideración este asunto.

Llama 2, el modelo de Meta, únicamente respondió con contenido protegido por derechos de autor en el 10% de las indicaciones y si bien en este caso la incidencia fue menor, para los investigadores es preocupante que todas las plataformas analizadas cayeron en este problema de alguna manera.

Cabe recordar que actualmente existe una batalla legal entre el diario estadounidense, The New York Times, contra OpenAI por haber utilizado sus artículos para entrenar su modelo de IA, lo cual podría representar una multa de miles de millones de dólares para la compañía y para Microsoft.

No obstante, la empresa dirigida por Sam Altman ha argumentado que debido a que los “derechos de autor cubren prácticamente todo tipo de expresión humana, incluidas publicaciones de blogs, fotografías, publicaciones, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar a los modelo de IA actuales sin utilizar materiales protegidos por derechos de autor”.