El FBI, en la caza de la web archivada que incomoda a los medios
Las autoridades estadounidenses quieren identificar al fundador de Archive Today, servicio que permite burlar los muros de pago de los medios
El FBI se ha puesto en marcha para desenmascarar al fundador anónimo de Archive Today, un servicio que permite saltar los muros de pago de los medios de comunicación. Un nuevo episodio del conflicto entre los propietarios de contenido y las plataformas que aseguran su preservación, ahora contaminado por el entrenamiento de los modelos de inteligencia artificial.
La citación federal reclama al registrador de dominios Tucows información exhaustiva sobre el titular del dominio web: nombre del cliente, direcciones, registros de llamadas y mensajes, información de pago, direcciones IP, y "cualquier otra información identificativa". Todo en el marco de una "investigación criminal federal" que no especifica el delito, aunque la vulneración de derechos de autor es la apuesta más probable después de que el consorcio de medios News/Media Alliance lograra el pasado julio el cierre del servicio similar 12ft.io. Tucows tiene hasta el 29 de noviembre para atender a las exigencias de las autoridades, pero el operador anónimo –se habla de "Denis Petrov" de Praga y también de "Masha Rabinovich" de Berlín– sigue funcionando con normalidad a través de sus dominios espejo (archive.is, archive.ph, archive.vn) e incluso un servicio cifrado Tor.
Mientras Archive Today preserva cientos de millones de páginas web con un presupuesto testimonial, los grandes conglomerados mediáticos movilizan a las autoridades para perseguir un archivo que, entre otras cosas, documenta cómo ellos mismos modifican o borran noticias sin dejar rastro. Pero el negocio es el negocio, y los muros de pago son sagrados en tiempos de lectores menguantes y clics robados por los resúmenes realizados con IA.
Los grandes conjuntos de datos que entrenan la IA comercial
Si Archive Today incomoda a los medios por motivos económicos directos, Common Crawl lo hace de una manera más sutil y masiva. Este servicio californiano sin ánimo de lucro fundado por Gil Elbaz lleva desde 2007 recorriendo la web con exploraciones mensuales de 2.000 a 5.000 millones de páginas que duran un par de semanas y ocupan entre 250 y 460 terabytes cada una. De esta forma ha generado un archivo de 9,5 petabytes que pone gratuitamente a disposición pública. Pero esta generosidad aparentemente filantrópica ha tenido un efecto colateral lucrativo: se ha convertido en la materia prima para entrenar a la mayoría de los grandes modelos de lenguaje (LLM) de la IA.
Según The Atlantic, OpenAI y Anthropic dieron a Common Crawl 250.000 dólares cada una en 2023, el año en que sus modelos GPT-4 y Claude escalaban comercialmente. No hace falta ser demasiado perspicaz para saber el motivo: entre el 60% y el 82% del contenido con el que se entrenó GPT-3 provenía de Common Crawl. Modelos como Llama de Meta, T5 de Google, Bloom y decenas de otros beben del mismo pozo.
Desde el punto de vista de los propietarios de contenido, la clave del problema es cómo funciona Common Crawl: cada operación de rastreo captura el código HTML completo de las páginas, incluyendo el texto que luego los muros de pago esconden mediante JavaScript. Así se abre una "puerta trasera" involuntaria para acceder a contenido restringido de cientos de publicaciones, desde el New York Times hasta el ARA. La organización dice respetar los archivos de blogaje nofollow y robots.txt que los propietarios de webs pueden incluir para evitar ser explorados, pero los editores han exigido sin éxito la eliminación del contenido ya archivado. Common Crawl les responde que el formato técnico complica esa supresión, pero parece una excusa. Desde mediados de 2023, el servicio presume en la portada de su web de su papel en el entrenamiento de modelos de IA, asegurando que el 82% de los tokens (unidades de datos) de GPT-3 provienen de su archivo.
El universo de los archivos web
Archive Today, que vive del micromecenazgo –800 dólares semanales, unos 36.000 euros anuales–, contiene 700 terabytes y unos 500 millones de páginas almacenadas desde el 2012. Su arquitectura captura cada página de forma completa: crea una versión HTML funcional con enlaces vivos y una captura de pantalla estática, con un máximo de pantalla estática.
Pero Archive Today es diminuto si lo comparamos con los 99 petabytes del Internet Archive –con 745 nodos, 28.000 discos y cuatro centros de datos–. Con su Wayback Machine, que preserva más de un billón de páginas web desde 1995, es la referencia de los archivos web: institucional, transparente y con categoría de repositorio legal.
Efectos sobre el catalán en la IA
Un aspecto colateral de estos archivos con grandes volúmenes de texto es el lingüístico. El ecosistema está dominado por el inglés, que representa a casi la mitad de Common Crawl; alemán, ruso, japonés, chino, francés y español tienen cada uno menos del 6%, y el catalán está prácticamente invisible. De los 90 idiomas con los que OpenAI entrenó a GPT-3, el 92,7% era contenido en inglés y sólo un 0,017% en catalán. De ahí la importancia del Proyecto Aina, liderado por la Generalitat y el Barcelona Supercomputing Center: en sus modelos Salamandra, el inglés representa menos del 40% del contenido de entrenamiento y el catalán multiplica por 100 su peso respecto al de GPT-3 y alcanza casi un 2%.
Entre la persecución legal y la preservación abierta
La campaña de criminalización de los archivos digitales tiene un nuevo episodio destacable: Google ha eliminado de sus resultados de búsqueda 749 millones de enlaces en la web Anna's Archive –sucesora de Z-Library después de que el gobierno de EE.UU. le incautara sus dominios en el 2022–. La web ofrecía 51 millones de libros y cerca de 100 millones de artículos académicos.
Curiosamente, ese mismo Google que excluye masivamente libros pirateados de los resultados de búsqueda pertenece a Alphabet, la matriz de Google DeepMind, que ha entrenado sus modelos Gemini con datos de Common Crawl. Anna's Archive ha admitido abiertamente que ha proporcionado acceso abierto a 30 desarrolladores de LLM para entrenarlos con su "archivo ilegal de libros", pero a diferencia de OpenAI o Meta -que fue acusada de haber pirateado 81,7 TB de libros para entrenar su modelo Llama- no recibe donaciones estrategas. El sitio sigue operativo con tres dominios sin alojar contenido pirateado, sólo enlaces: una zona gris legal defendida con el argumento de que "preservar y alojar estos ficheros es moralmente correcto".
El debate de fondo es si preservar la web abierta es un bien público o un delito cuando incomoda intereses comerciales. Los medios argumentan pérdida de suscripciones y de ingresos publicitarios; los archiveros defienden la preservación histórica, la verificación de hechos y el acceso a la información. Pero cuando el FBI se dedica a perseguir operadores anónimos de archivos mientras OpenAI y Anthropic –valoradas en decenas de miles de millones– entrenan sus modelos con contenido explorado industrialmente sin compensar a los creadores, la diferencia de trato hace pensar. Quizás la clave no es quien archiva, sino quien tiene dinero suficiente para hacerlo con donaciones estratégicas. El marketing tecnológico llama "democratizar el acceso al conocimiento". Los abogados de los medios lo llaman "robo". Quizás la respuesta está archivada en algún servidor de la nube, esperando que alguien la filtre con las instrucciones oportunas.