Los Youtubers se alzan contra la inteligencia artificial: demanda colectiva a OpenAI por usar sus vídeos sin permiso
Según el ‘New York Times’, el equipo de la tecnológica transcribió más de un millón de horas de vídeo de la plataforma para entrenar a sus modelos de lenguaje
La carrera por el desarrollo de la inteligencia artificial es intensa. Las grandes tecnológicas están embarcadas en una guerra por ver quién tiene el mejor modelo de lenguaje del mercado; con miles de millones de dólares en juego, la competencia es feroz. Aunque el dicho asegura que todo vale en el amor y en la guerra, no todo el mundo está de acuerdo con él, especialmente, si se está en el lado de los perjudicados por su aplicación. A comienzos de este mes, un youtuber llamado David Millette interpuso una demanda colectiva en California contra OpenAI en nombre de todos los creadores de conten...
Para seguir leyendo este artículo de Cinco Días necesitas una suscripción Premium de EL PAÍS
La carrera por el desarrollo de la inteligencia artificial es intensa. Las grandes tecnológicas están embarcadas en una guerra por ver quién tiene el mejor modelo de lenguaje del mercado; con miles de millones de dólares en juego, la competencia es feroz. Aunque el dicho asegura que todo vale en el amor y en la guerra, no todo el mundo está de acuerdo con él, especialmente, si se está en el lado de los perjudicados por su aplicación. A comienzos de este mes, un youtuber llamado David Millette interpuso una demanda colectiva en California contra OpenAI en nombre de todos los creadores de contenido de Youtube en Estados Unidos. El motivo: el posible uso ilícito por parte de la firma creadora de ChatGPT del contenido que estas personas suben a la plataforma de vídeos.
La calidad y fiabilidad de las respuestas que dan los modelos de lenguaje lo son todo. Nadie quiere usar una IA cuyas respuestas no se ajusten a lo que se pida o que sean completamente incorrectas y, mucho menos, nadie querría pagar por algo así. La calidad de las respuestas depende de varios parámetros, pero más allá de cómo se formule la pregunta y lo capada que esté la IA por sus propios desarrolladores o distribuidores, hay uno fundamental. La calidad del entrenamiento que ha tenido ese modelo de lenguaje. Como norma general, cuantos más datos y más variedad ha usado para entrenar, mejor será su capacidad y calidad de respuesta.
En este sentido, el problema que enfrentan los desarrolladores es que a medida que los modelos de lenguaje se vuelven más sofisticados, van necesitando más datos, y aunque sí que existen repositorios de contenido libre de derechos de autor tanto en formato escrito como en audiovisual, no son suficientes por sí solos. Tampoco se puede usar contenido generado por otras IA porque terminan por colapsar. Las IA necesitan humanos para mejorar y el contenido humano tiene derechos de autor. Respecto al papel que puede jugar en su entrenamiento el contenido audiovisual en concreto, según recopila el escrito presentado ante el juzgado californiano, compartido por The Hollywood Reporter, los vídeos son una fuente valiosa para la IA porque en ellos se introducen numerosos ejemplos de lenguaje natural.
En 2022, OpenAI lanzó una herramienta de reconocimiento de habla llamada Whisper. Este modelo, que es capaz de transcribir audio a texto, se entrenó con 680.000 horas de vídeos recogidos a lo largo y ancho de la red. Los números no cuadran. “Uno de los mayores sitios web de contenido audiovisual, VoxPopuli, contiene 400.000 horas de vídeo cuyo copyright está sin etiquetar, y ello teniendo en cuenta que los vídeos están en diferentes idiomas. Libriheavy, uno de los sitios más grandes de vídeo libre de derecho de autor, tiene 50.000 horas de discursos en inglés. Solo hay unos pocos sitios cuyo contenido puede ser usado para entrenar los modelos. Como queda patente, la suma de los vídeos en los dos más potentes sigue quedándose 200.000 horas corto frente al entrenamiento declarado en Whisper”, reza el texto.
Si se analizan los números de Youtube, el hecho de que OpenAI desee acceder a su contenido tiene todo el sentido del mundo. Según la página especializada Globalmediainsight, cada día se suben a Youtube 720.000 horas de vídeo de media. En un artículo publicado a comienzos de abril, el New York Times afirmaba que, efectivamente, Whisper era capaz de transcribir el audio de los vídeos de Youtube, y que un equipo de OpenAI transcribió más de un millón de horas de vídeo procedentes de la plataforma. En ese mismo artículo, el New York Times daba otra clave del asunto, ¿por qué Google, la dueña de Youtube, no hizo nada al respecto cuando detectó esta práctica por parte de OpenAI? Porque según el citado medio, hizo exactamente lo mismo para entrenar su propio modelo de lenguaje.
Teniendo en cuenta las informaciones publicadas por el New York Times, Millette cree que hay cientos de youtubers afectados. Según el Hollywood Reporter, ya se habrían sumado a la demanda varios artistas, autores de tutoriales y sitios de noticias. Basándose en que según los términos y condiciones de Youtube los creadores de contenido tienen derechos sobre los vídeos que suben a la plataforma y de que no proporcionaron ningún tipo de permiso a OpenAI ni recibieron ninguna compensación o retribución a cambio, acusan a la empresa de ChatGPT de enriquecerse ilícitamente a su costa y de haber violado las leyes de competencia de California. Por ello, los youtubers exigen una indemnización.
Queda por ver el recorrido de esta demanda colectiva, así como sus potenciales implicaciones en el caso de seguir avanzando. Muchas de estas acciones colectivas en Estados Unidos terminan con acuerdos monetarios entre la empresa demandada y los demandantes. Según los términos y condiciones de Youtube, cuando cualquier usuario sube un vídeo “conservas todos los derechos de propiedad sobre tu contenido. Lo que te pertenece sigue siendo tuyo”, sin embargo, se dan varias concesiones de forma obligatoria y gratuita tanto a Youtube como a los usuarios de la plataforma. “Al subir contenido al servicio, otorgas a YouTube una licencia mundial, no exclusiva, gratuita y libre de regalías, transferible y con derecho de sublicencia para usar dicho contenido (incluyendo para reproducirlo, distribuirlo, modificarlo, transformarlo, mostrarlo, comunicarlo al público y representarlo) con el fin de operar, promocionar y mejorar el servicio”, escriben. Los tribunales tienen una oportunidad de dirimir que es lo que vale y lo que no en la guerra por la supremacía de la IA, al menos, en el frente de la propiedad intelectual y el entrenamiento de modelos.
Sigue toda la información de Cinco Días en Facebook, X y Linkedin, o en nuestra newsletter Agenda de Cinco Días