Basura entra, basura sale: sabotear tu propio contenido para frustrar el entrenamiento de la IA

En su continuo esfuerzo por satisfacer el colosal apetito de ChatGPT por contenidos con los que «entrenar» sus algoritmos, OpenAI sigue anunciando importantes acuerdos de licencia con socios que van desde gigantes editoriales tradicionales como Time y The Atlantic hasta plataformas de contenido generado por los usuarios como Reddit y Stack Overflow (y su sitio hermano Stack Exchange, al que nos referiremos indistintamente). El ritmo de estos acuerdos se ha acelerado a raíz de las demandas presentadas contra OpenAI por medios como The New York Times, The Chicago Tribune e incluso el autorde Juego de Tronos, George R. R. Martin, que argumentan que OpenAI se basa en la infracción de los derechos de autor para entrenar sus «modelos» de IA.

Aunque la estrategia proactiva de OpenAI de garantizar acuerdos de licencia demuestra un reconocimiento formal de las preocupaciones sobre los derechos de autor, también pone de relieve una tensión creciente entre los creadores de contenido generado por los usuarios y las plataformas que utilizan este contenido para entrenar a la IA. Mientras OpenAI navega por estas aguas legales con acuerdos contractuales, la respuesta de la comunidad de usuarios revela una serie de preocupaciones que van más allá de las formalidades legales. Este cambio, de la negociación de acuerdos corporativos a la reacción de la comunidad, pone de relieve la compleja interacción entre el avance tecnológico y los derechos de los usuarios.

Como no pueden vencerlos, por así decirlo, OpenAI se une a ellos, con los puños llenos de dinero.

No todos los usuarios de estas plataformas de negociación están satisfechos con estos avances. Algunos usuarios de Stack Overflow, un refugio para programadores con decenas de millones de mensajes detallados generados por los usuarios y llenos de código, consejos y ánimos, han recurrido al sabotaje como forma de rebelión, intentando borrar o «revisar» maliciosamente sus publicaciones anteriores para incluir errores y fallos intencionados.

En otras palabras, si entra basura, sale basura.

Los disturbios de los telares mecánicos

Estos esfuerzos desesperados por envenenar el pozo recuerdan a los disturbios que se produjeron hace 200 años, instigados por la introducción de un proceso de fabricación avanzado y automatizado que dio un vuelco a las nociones tradicionales de productividad. (Gracias a arstechnica y al usuario mdrejhon).

A principios del siglo XIX, la adopción del telar mecánico provocó disturbios en el noroeste de Inglaterra, ya que los artesanos cualificados que trabajaban con telares manuales fueron desplazados por la nueva tecnología. Conocidos como los disturbios del telar mecánico, los conflictos civiles incluyeron la destrucción de los telares mecánicos recién instalados y la activación del ejército para sofocar los disturbios. Los expertos tejedores manuales pasaron de ganar dieciséis chelines al día a dieciséis chelines a la semana, mientras que los operadores de los nuevos telares mecánicos se convirtieron en la élite tecnológica dominante.

Marco para el análisis jurídico

Al igual que las tarjetas perforadas «programadas» utilizadas por los telares mecánicos para automatizar la producción de patrones tejidos complejos, que a su vez inspiraron el progenitor de todos los ordenadores modernos, el motor analítico de Babbage, los algoritmos de IA de GPT y otros similares están reescribiendo nuestra comprensión de lo que significa ser el creador, autor o diseñador de cualquier contenido concreto, incluyendo lo que significa «poseer» ese contenido o tener el derecho legal de controlar cómo se utiliza o si dicho uso se atribuye al autor original.

Pero, al igual que las tarjetas perforadas cumplían una función, el uso de conjuntos de datos amplios en el entrenamiento de la IA ofrece importantes ventajas. Por ejemplo, al analizar grandes cantidades de información diversa, los modelos de IA como ChatGPT pueden generar respuestas más precisas, relevantes y adecuadas al contexto. Esta capacidad mejora la experiencia del usuario, haciendo que los asistentes digitales sean más útiles e interactivos en diversas aplicaciones. Además, la mejora continua de la capacidad de la IA para procesar y comprender conjuntos de datos complejos impulsa la innovación en todos los sectores, lo que da lugar a soluciones tecnológicas más inteligentes y eficientes que benefician a la sociedad en general.

Ley de derechos de autor, condiciones del servicio y contenido generado por los usuarios

Según la ley de derechos de autor de EE. UU., el autor de «cualquier obra original fijada en un medio tangible» es automáticamente titular de los derechos de autor. Esto incluye las publicaciones y los comentarios realizados por los usuarios en plataformas como Reddit y Stack Exchange. Los usuarios conservan los derechos de autor sobre su contenido y conceden a la plataforma una licencia, en lugar de transferirle la propiedad.

Al escuchar que los usuarios de Reddit y Stack Exchange son propietarios de los derechos de autor de sus contribuciones, sería comprensible que concluyeras que los usuarios cuentan con protección legal contra el uso o mal uso de dichas contribuciones sin su consentimiento. El problema es que los acuerdos de condiciones de servicio, que son obligatorios y no negociables, y que todos los usuarios aceptan como condición para utilizar cualquiera de los dos sitios web, otorgan a las plataformas una licencia extremadamente amplia sobre el contenido de los usuarios, lo que les da carta blanca para hacer básicamente lo que quieran con el contenido de los usuarios, incluyendo en algunos casos impedirles por la fuerza que lo eliminen o editen a posteriori.

Los términos de Reddit otorgan a la plataforma una amplia licencia para utilizar, reproducir y modificar el contenido de los usuarios: «Al enviar contenido a Reddit, nos concedes una licencia mundial, libre de derechos de autor, sublicenciable y transferible para utilizar, almacenar, mostrar, reproducir, modificar y crear obras derivadas».

Stack Exchange también conserva una licencia completa sobre las aportaciones de los usuarios, quienes conceden «una licencia perpetua, irrevocable, libre de derechos, sublicenciable y transferible para utilizar, reproducir, distribuir, preparar obras derivadas, mostrar y ejecutar el contenido».

Quejas de los usuarios y rechazo de la plataforma

Los usuarios de Reddit han expresado su frustración por el uso de su contenido para entrenar ChatGPT sin su consentimiento explícito, y uno de ellos ha comentado que «esto solo me da ganas de eliminar todas mis publicaciones y dejar de usar Reddit».

Los usuarios de Stack Exchange han expresado un descontento similar en términos que evocan el sabotaje de las nuevas tecnologías durante los disturbios contra los telares mecánicos. Los mensajes de protesta no son suficientes, afirma el usuario Bongle. En su lugar, sugiere que los usuarios editen sus publicaciones anteriores para que sean «sutilmente incorrectas», introduciendo deliberadamente errores y fallos en el código.

Estas quejas ponen de manifiesto una grave desconexión entre los permisos legales otorgados por los términos del servicio y las expectativas de los usuarios. Esta disparidad puede dar lugar a un escrutinio legal y a demandas de mecanismos de consentimiento más explícitos.

Respuestas de la plataforma

Hay que reconocer que los términos de servicio de Reddit otorgan a los usuarios la última palabra sobre si se eliminan sus contribuciones anteriores: «Cuando los usuarios de Reddit eliminan sus publicaciones u otro contenido, el sitio lo elimina en todas partes, sin que queden restos fantasmagóricos en lugares inesperados».

Stack Overflow, por el contrario, «no permite eliminar preguntas que tienen respuestas aceptadas y muchos votos positivos, ya que ello supondría una pérdida de conocimiento para la comunidad», y advierte además que el contenido «potencialmente útil» «no debe eliminarse salvo en circunstancias extraordinarias».

¿Qué hay del uso legítimo?

Como se mencionó anteriormente, antes de la serie de acuerdos de alto perfil de OpenAI, la empresa estaba más acostumbrada a ser demandada por empresas de contenido que a firmar acuerdos de licencia de ocho o nueve cifras con ellas. En estas demandas, sin la doble protección de los acuerdos de licencia con empresas que a su vez conceden de forma irrevocable casi todos los derechos imaginables sobre el contenido de sus usuarios, el destino de OpenAI probablemente vendrá determinado por la aplicación por parte de los tribunales de la doctrina del uso legítimo en virtud de la ley de derechos de autor al nuevo contexto del entrenamiento de la inteligencia artificial. Tales decisiones tendrán que tener en cuenta la sentencia del Tribunal Supremo de los Estados Unidos de 2021 en el caso Google LLC contra Oracle America, Inc., en la que el Tribunal consideró que el uso masivo por parte de Google de más de 11 000 líneas de código Java de Oracle en el sistema operativo móvil Android de Google era lo suficientemente transformador como para considerarse uso legítimo.

Si este análisis transformador y de uso legítimo puede aplicarse para justificar el voraz apetito de OpenAI por el contenido de entrenamiento es el tema de la próxima Parte II de esta publicación.

Echa un vistazo a nuestras áreas de práctica