Abierta la batalla legal del ‘copyright’ en el entrenamiento de la IA generativa

OpenAI, Meta y Google han sido demandadas por vulnerar los derechos de autor. Getty Images emprende acciones contra Stable Diffusion y AMI denuncia a Google por ‘vampirizar’ sus contenidos

Marimar Jiménez

Madrid - 17 jul 2023 - 05:15CEST

Compartir en Whatsapp

Compartir en Facebook

Compartir en Twitter

Añadir Cinco Días en Google

Logo de ChatGPT en una ilustración.DADO RUVIC (REUTERS)

Los creadores de contenido y las empresas tecnológicas vuelven a declararse la guerra. Esta vez por culpa de las inteligencias artificiales generativas, como el archiconocido robot conversacional ChatGPT, capaz de aprender y generar respuestas a través del análisis de grandes bases de datos y ‘corpus’ de documentos en internet.

La semana pasada la actriz y comediante estadounidense Sarah Silverman y los escritores Paul Tremblay y Mona Awad, demandaron a OpenAI, el creador de ChatGPT, y al gigante tecnológico Meta, por infringir sus derechos de autor en el entrenamiento de sus IA generativas. En el primer caso, alegaron que, sin el consentimiento de los autores, “sus materiales protegidos con derechos de autor fueron ingeridos y utilizados para entrenar a ChatGPT”. En el segundo, argumentaron básicamente lo mismo pero, en este caso, se referían al sistema LLaMA, el modelo de lenguaje lanzado por la empresa de Mark Zuckerberg a principios de año para investigadores y académicos.

La pasada semana también saltó a los medios una demanda colectiva en EE UU contra Google. El gigante de internet fue acusado de haber estado “robando en secreto todo lo creado y compartido en internet por cientos de millones de estadounidenses” para entrenar sus productos de inteligencia artificial, como su chatbot Bard, que la semana pasada se lanzó en España. La demanda, que busca medidas cautelares en forma de una congelación temporal del acceso comercial y el desarrollo comercial de las herramientas de IA generativas de Google, además de una compensación económica, asegura que Google vulneró la privacidad y los derechos de autor.

También el pasado viernes, la Asociación de Medios de Información (AMI) denunció en España que Google “vampiriza” los contenidos de los medios con su inteligencia artificial. La patronal de la prensa aseguró que la compañía hace un uso masivo de los contenidos de los medios españoles sin citar siquiera sus fuentes de información.

Y los casos no paran. El pasado enero fue Getty Images, la conocida agencia de fotografía, quien demandó en el Alto Tribunal de Justicia de Londres a Stability AI, la empresa detrás de la IA generativa Stable Diffusion, por infracción del copyright. Según denunció, esta inteligencia artificial había utilizado para su entrenamiento millones de imágenes protegidas sin su permiso.

“Ya se han han producido varias demandas en este sentido y no serán las únicas que se presenten, pues así como la privacidad en la UE es un valor esencial, en EE UU la protección de la propiedad intelectual es una cuestión de estado. Los creadores y los titulares de derechos de propiedad intelectual tienen lobbys poderosos y abogados especializados, con lo que esto es solo el principio de una batalla legal que acabará el algún género de regulación”, asegura Paloma Llaneza, abogada especialista en el ámbito tecnológico.

Problemas de prueba

En su opinión, este tipo de procesos tiene el mismo problema que cualquier otro: quien alega que se han vulnerado sus derechos tiene que probarlo. “Pero en el caso de la IA, en general, y las generativas, en particular, los datos de entrenamiento no quedan en ninguna parte. No hay una base de datos clásica que se pueda desvelar judicialmente detrás de su funcionamiento. Así que los demandantes tendrán que inferir del funcionamiento de las IAs y probar en un juicio que sus obras han sido utilizadas para el entrenamiento. Lo siguiente es determinar si entrenar una IA con material protegido es una infracción de los derechos de sus titulares”, continúa.

Para Borja Adsuara, abogado especializado en propiedad intelectual, los casos abiertos en EE UU son “muy interesantes porque, por primera vez, los jueces se van a tener que pronunciar sobre este tema. Y al ser un sistema de código abierto, aunque no haya una ley que regule específicamente el tema, si logran que un juez les dé la razón sentarán un precedente que se podrá aplicar a casos similares”.

Pero advierte que estos casos afrontarán múltiples dificultades. Para empezar, mucha gente sostiene que la obra que se genera con la IA es un plagio o una obra derivada, pero no cree que sea así, pues para ello haría falta que en esa obra sea reconocible la obra preexistente. “Y lo que hace la IA no es eso. Lo que hace es basarse en millones de obras para entrenar una herramienta; igual que si lo hace un humano. Si un escritor lee muchísimos libros para después escribir los suyos propios y encontrar su estilo, sería absurdo obligarles a remunerar a todos esos autores que ha leído para aprender e inspirarse. El aprendizaje de una máquina es muy parecido al aprendizaje humano, y no es lo mismo la inspiración o el entrenamiento que el plagio o la obra derivada”.

En lo que sí ve que pueden prosperar las demandas es en que se termine obligando a las empresas de IA generativas, que ganan dinero con estas herramientas, a que pidan autorización a los titulares de los derechos de las obras y contenidos y se les remunere, “aunque sólo sea para entrenar a sus IA y lo que salga al final no se parezca en nada a esas obras”, porque según el artículo 17 de la Ley de Propiedad Intelectual corresponde al autor el ejercicio exclusivo de los derechos de explotación de su obra en cualquier forma”.

Lista Robinson y canon a las empresas de IA

Adsuara admite, no obstante, que es muy complicado demostrar que una obra ha sido usada para entrenar una máquina, de ahí que las entidades de gestión de derechos de autor quieran imponer la obligación de citar las fuentes utilizadas por una IA para entrenarse, algo ya incluido en el Reglamento de Inteligencia Artificial, aún por aprobar. “Pero esto no es un trabajo de fin de grado, donde hay un bibliografía; aquí hablamos de millones de fuentes y poner un resumen es muy difícil”, continúa el abogado.

Por ello, las soluciones que se barajan en la industria editorial son múltiples. Se plantea crear una especie de Lista Robinson, “donde te apuntes para prohibir que las IA utilicen tus obras o fondo editorial, pero aquí surge también el problema de prueba”, y se habla ya de imponer un canon a las empresas de estas herramientas, que sería abonado a las entidades de gestión. “Algo parecido al famoso canon por copia privada”, dice Adsuara, que, sin embargo, prefiere buscar modelos de negocio donde todos ganen, las empresas de IA, las editoriales y los autores.

“Yo no lo veo como un riesgo sino como una oportunidad de reivindicar el valor de la autoría. Actualmente, la IA generativa nos está haciendo cuestionar la información que ofrece, porque puede ofrecer un resumen estupendo de una materia, pero no sabemos de dónde ha tomado los datos y, por tanto, qué grado de fiabilidad tiene. Por eso creo que esto es bueno para el mundo editorial. Ambas partes deben sentarse y negociar pues es clave hacer valer el concepto de autor y el de autoridad [en una materia], que sin duda darán un valor a las IA generativas”.

Un ejemplo de lo que plantea Adsuara es la alianza sellada hace unos días por Associated Press con los creadores de algoritmos como Dall E o ChatGPT, OpenAI, que permitirá que la agencia de noticias norteamericana utilice la tecnología y los productos de OpenAI, a cambio de que los algoritmos de OpenAI puedan, pagando, ser entrenados con el gigantesco archivo de textos de noticias generado por la agencia desde el año 1985, según recoge en su blog Enrique Dans, profesor del IE Business School.

“En un escenario en el que resulte cada vez más complejo obtener datos para entrenar algoritmos, acuerdos como este pueden llegar a tener un valor importante, dado que reutilizar constantemente los mismos repositorios posee, obviamente, muchas limitaciones”, señala Dans, quien afirma que tiene la impresión de que pronto se verán cada vez más noticias como esta.

Obras de creación humana y generadas por IA

Hay otro aspecto clave relacionado con la propiedad intelectual y la inteligencia artificial generativa que, todo apunta, va a originar también conflictos legales. Y es que hay personas que opinan que lo que se crea con inteligencia artificial no es una obra de creación humana y otros opinan que depende. “En España, a falta aún de una regulación específica de la inteligencia artificial generativa, si se plantea una demanda de este tipo el juez deberá determinar, con la ley de propiedad intelectual en mano, si lo que se genera con la IA generativa es una obra susceptible de ser protegida por propiedad intelectual, o no, “puesto que lo que regula esta ley son las creaciones humanas”, señala Borja Adsuara. Pero, como añade, la propiedad intelectual trata de proteger la creatividad humana, “y nadie niega que una película de dibujos animados hecha por ordenador -y no a mano como las hacía antiguamente Walt Disney- sea una obra susceptible de ser protegida”.

Adsuara cree que no va a haber una regla general en este tema y que habrá que ir caso por caso para ver si una obra es digna de protección o no. “Yo creo que no se puede meter todo en el mismo saco; habrá creaciones que serán totalmente automáticas, y otras en las que un artista utilice inteligencia artificial como una herramienta más. Igual que puede utilizar otras herramientas informáticas”.

Sigue toda la información de Cinco Días en Facebook, Twitter y Linkedin, o en nuestra newsletter Agenda de Cinco Días