Basura dentro, basura fuera: Sabotear tu propio contenido para frustrar el entrenamiento de la IA

En sus continuos esfuerzos por satisfacer el colosal apetito de ChatGPT por contenidos con los que "entrenar" sus algoritmos, OpenAI sigue anunciando importantes acuerdos de licencia con socios que van desde incondicionales de la edición tradicional como Time y The Atlantic hasta plataformas de contenidos generados por usuarios como Reddit y Stack Overflow (y su sitio hermano Stack Exchange, a los que nos referiremos indistintamente). El ritmo de estos acuerdos se ha acelerado a raíz de las demandas contra OpenAI presentadas por medios como The New York Times, The Chicago Tribune e incluso el autor deJuegos de Tronos George R.R. Martin, argumentando que OpenAI se basa en la infracción de derechos de autor para entrenar sus "modelos" de IA.

Aunque la estrategia proactiva de OpenAI de conseguir acuerdos de licencia demuestra un reconocimiento formal de los problemas de derechos de autor, también subraya una tensión creciente entre los creadores de contenidos generados por los usuarios y las plataformas que utilizan estos contenidos para entrenar la IA. Mientras OpenAI navega por estas aguas legales con acuerdos contractuales, la respuesta de la comunidad de usuarios revela un espectro de preocupaciones que van más allá de las formalidades legales. Este paso de la negociación corporativa a la reacción de la comunidad pone de manifiesto la compleja interacción entre el avance tecnológico y los derechos de los usuarios.

Como no pueden vencerlos, por así decirlo, OpenAI se une a ellos en su lugar, con puñados de dinero a punto.

No todos los usuarios de estas plataformas de creación de acuerdos están satisfechos con esta evolución. Algunos usuarios de Stack Overflow, un paraíso para los programadores con decenas de millones de mensajes detallados, generados por los usuarios y llenos de código, consejos y ánimos, han adoptado el sabotaje como forma de rebelarse intentando borrar o "revisar" maliciosamente sus mensajes anteriores para incluir errores y fallos intencionados.

En otras palabras, basura dentro, basura fuera.

Los disturbios del telar mecánico

Estos esfuerzos desesperados por envenenar el pozo recuerdan un brote de disturbios de hace 200 años instigado por la introducción de un proceso de fabricación avanzado y automatizado que puso patas arriba las nociones tradicionales de productividad. (Sugerencia de arstechnica y usuario mdrejhon).

En los albores del siglo XIX, la adopción del telar mecánico provocó disturbios en el noroeste de Inglaterra, ya que los artesanos cualificados que trabajaban en telares manuales se vieron desplazados por la nueva tecnología. Conocidos como los Disturbios del Telar Eléctrico, los disturbios civiles incluyeron la destrucción de telares eléctricos recién instalados y la activación del ejército para sofocar los disturbios. Los tejedores de telares manuales pasaron de ganar dieciséis chelines al día a dieciséis chelines a la semana, ya que los operadores de los nuevos telares mecánicos se convirtieron en la élite tecnológica ascendente.

Marco para el análisis jurídico

Al igual que las tarjetas perforadas "programadas" que se utilizaban en los telares mecánicos para automatizar la producción de complejos tejidos, que a su vez inspiraron al progenitor de todos los ordenadores modernos, la máquina analítica de Babbage, los algoritmos de IA de GPT y sus similares están llamados a reescribir nuestra comprensión de lo que significa ser el creador, autor o diseñador de un contenido concreto, incluido lo que significa ser "propietario" de ese contenido o tener el derecho legal a controlar cómo se utiliza o si ese uso se atribuye al autor original.

Pero al igual que las tarjetas perforadas servían para algo, el uso de amplios conjuntos de datos en el entrenamiento de la IA ofrece importantes ventajas. Por ejemplo, al analizar grandes cantidades de información diversa, los modelos de IA como ChatGPT pueden generar respuestas más precisas, relevantes y adecuadas al contexto. Esta capacidad mejora la experiencia del usuario, haciendo que los asistentes digitales sean más útiles e interactivos en diversas aplicaciones. Además, la mejora continua de la capacidad de la IA para procesar y comprender conjuntos de datos complejos impulsa la innovación en todos los sectores, dando lugar a soluciones tecnológicas más inteligentes y eficientes que benefician a la sociedad en general.

Ley de propiedad intelectual, condiciones de servicio y contenidos generados por los usuarios

Según la legislación estadounidense sobre derechos de autor, el autor de "cualquier obra original fijada en un soporte tangible" es automáticamente titular de los derechos de autor. Esto incluye las publicaciones y comentarios realizados por los usuarios en plataformas como Reddit y Stack Exchange. Los usuarios conservan los derechos de autor de sus contenidos, concediendo a la plataforma una licencia en lugar de transferir la propiedad.

Al oír que los usuarios de Reddit y Stack Exchange son propietarios de los derechos de autor de sus contribuciones, se les podría perdonar que concluyeran que los usuarios tienen protección legal contra el uso o mal uso de esas contribuciones sin el consentimiento de los usuarios. El problema es que los términos de los acuerdos de servicio, que son obligatorios y no negociables, y que todos los usuarios aceptan como condición para utilizar cualquiera de los dos sitios web, conceden a las plataformas una licencia extremadamente amplia sobre el contenido de los usuarios, dando contractualmente a las plataformas carta blanca para hacer esencialmente lo que quieran con el contenido de los usuarios, incluyendo en algunos casos impedir por la fuerza que los usuarios lo borren o editen después.

Las condiciones de Reddit conceden a la plataforma una amplia licencia para utilizar, reproducir y modificar los contenidos de los usuarios: "Al enviar contenido a Reddit, nos concedes una licencia mundial, libre de regalías, sublicenciable y transferible para usar, almacenar, mostrar, reproducir, modificar y crear trabajos derivados".

Stack Exchange también conserva una licencia completa sobre los envíos de los usuarios, a los que concede "una licencia perpetua, irrevocable, libre de regalías, sublicenciable y transferible para utilizar, reproducir, distribuir, preparar trabajos derivados, mostrar y ejecutar el contenido".

Quejas de los usuarios y reacción de las plataformas

Los usuarios de Reddit han expresado su frustración por el hecho de que sus contenidos se utilicen para entrenar a ChatGPT sin su consentimiento explícito, y uno de ellos comentó que "todo esto lo único que hace es darme ganas de eliminar todas mis publicaciones y dejar de utilizar Reddit."

Los usuarios de Stack Exchange han expresado un descontento similar en términos que evocan el sabotaje de las nuevas tecnologías por parte de los Power Loom Riots. Los mensajes de protesta no son suficientes, dice el usuario Bongle. En su lugar, sugiere a los usuarios que editen sus mensajes anteriores para que sean "sutilmente erróneos", introduciendo a propósito errores y fallos en el código.

Estas quejas ponen de manifiesto una grave desconexión entre los permisos legales concedidos por las condiciones de servicio y las expectativas de los usuarios. Esta disparidad puede invitar al escrutinio legal y a la exigencia de mecanismos de consentimiento más explícitos.

Plataforma de respuestas

En su haber, las condiciones de servicio de Reddit dan a los usuarios la última palabra sobre si se eliminan sus contribuciones pasadas: "Cuando los usuarios de Reddit eliminan sus posts u otros contenidos, el sitio los borra en todas partes, sin que queden restos fantasmales en lugares inesperados".

Stack Overflow, por el contrario, "no permite eliminar preguntas que tienen respuestas aceptadas y muchos upvotes porque eliminaría conocimiento de la comunidad", advirtiendo además de que el contenido "potencialmente útil" "no debe eliminarse salvo en circunstancias extraordinarias".

¿Y el uso legítimo?

Como ya se ha dicho, antes de la avalancha de acuerdos de gran repercusión, OpenAI estaba más acostumbrada a ser demandada por empresas de contenidos que a firmar acuerdos de licencia de ocho o nueve cifras con ellas. En estos pleitos, sin la doble protección de los acuerdos de licencia con empresas que a su vez conceden licencias irrevocables sobre casi todos los derechos imaginables de los contenidos de sus usuarios, el destino de OpenAI probablemente vendrá determinado por la aplicación que hagan los tribunales de la doctrina del uso justo según la ley de derechos de autor al novedoso contexto del entrenamiento de la inteligencia artificial. Tales decisiones tendrán que tener en cuenta la decisión del Tribunal Supremo de EE.UU. de 2021 en el caso Google LLC contra Oracle America, Inc. en el que el Tribunal consideró que el uso al por mayor por parte de Google de más de 11.000 líneas de código Java de Oracle en el sistema operativo móvil Android de Google era lo suficientemente transformador como para calificarlo de uso justo.

La cuestión de si este análisis de uso justo y transformador puede aplicarse para justificar el voraz apetito de OpenAI por los contenidos de formación es el tema de una próxima Parte II de este artículo.