| Tech

El Internet Archive a los 30: ¿puede el banco de memoria de la web resistir la era de la IA?

Tres décadas después de que Brewster Kahle fundara el Internet Archive para preservar el registro digital de la humanidad, la organización sin fines de lucro detrás de la Wayback Machine enfrenta temores por el scraping de IA, tensiones con publishers y crecientes costos de almacenamiento que amenazan el futuro de la web abierta.

El Internet Archive a los 30: ¿puede el banco de memoria de la web resistir la era de la IA? Brewster Kahle en el archivo físico en Richmond, California, en 2020. [Foto: Internet Archive]

Si pudieras viajar en el tiempo a 1996 con una memoria USB de 2 TB, podrías almacenar toda la World Wide Web. Claro que ese tipo de almacenamiento no existía en los años 90, así que para Internet Archive nunca ha sido tan sencillo.

Este sitio web sin ánimo de lucro, que se lanzó hace tres décadas, pasó de hacer copias de la web en cintas magnéticas a almacenar más de un billón de páginas de la historia de internet en centros de datos de todo el mundo. Gracias a su Wayback Machine, cualquiera puede ver cómo era una página web antiguamente, lo que significa que puedes navegar por sitios web antiguos de GeoCities, ver el Código de Conducta original de Google (cuando todavía decía “No seas malvado”) o leer los indicadores de cambio climático de la EPA antes de que la administración Trump los eliminara.

Todo esto se suma a la vasta colección de otros recursos digitales del Archivo, desde grabaciones de conciertos en directo y libros electrónicos de dominio público hasta tesoros de juegos de DOS olvidados. Aproximadamente dos millones de personas acceden a los recursos del sitio cada día. “Lo queremos todo”, afirma Brewster Kahle, fundador y presidente de Internet Archive. “Queremos todas las obras públicas de la humanidad. Si no las tenemos, las queremos”.

Si bien Internet Archive no ha cambiado fundamentalmente a lo largo de los años, internet se está transformando de maneras que ponen en peligro la misión de la organización sin fines de lucro. Las editoriales web han comenzado a bloquear la Wayback Machine por temor a que las empresas de IA estén extrayendo el material. Una batalla legal con las editoriales de libros terminó con el Archivo pagando una indemnización y eliminando más de 500,000 libros de su colección. Mientras tanto, el costo de almacenar la huella digital de la humanidad sigue aumentando, ya que la demanda de los centros de datos de IA eleva los precios del almacenamiento y la memoria.

Todo esto hace que Kahle añore cómo eran las cosas para Internet Archive antes de que las editoriales, los gigantes tecnológicos y el sistema legal se interpusieran en su camino.

“Tenemos que seguir intentando que una biblioteca funcione, aunque sea un momento muy difícil para las bibliotecas”, concluye. El Internet Archive no es solo una forma de acceder a páginas web antiguas, por importante que sea. Es también un repositorio de información y cultura al que cualquiera puede acceder, descargar y utilizar libremente. En un mundo donde el contenido digital se licencia cada vez más en lugar de poseerse, esto en sí mismo parece algo que merece la pena preservar.

Cómo empezó

El fundador de Internet Archive, Brewster Kahle (abajo al centro), con otras personas. [Foto: Archivo de Internet]

Kahle llevaba soñando con algo como el Internet Archive mucho antes de que se convirtiera en realidad. A principios de la década de 1980, estudió inteligencia artificial en el MIT y se convirtió en ingeniero jefe de supercomputadoras en Thinking Machines. El internet aún no existía, pero recuerda haber imaginado que estas supercomputadoras algún día pondrían materiales de referencia al alcance de todos.

“Para mí, allá por 1980, la idea era intentar construir aquello que ya habíamos prometido: la Biblioteca del Congreso en tu escritorio”, afirma.

La verdadera revelación, sin embargo, llegó en 1995, cuando Kahle visitaba las oficinas de AltaVista, uno de los primeros motores de búsqueda de internet. Si bien los primeros trabajos en internet se habían centrado en protocolos descentralizados, AltaVista había creado algo útil al proporcionar un centro de todo el conocimiento de internet. Kahle se dio cuenta de que la misma tecnología de rastreo podría ayudar a crear copias completas de páginas web con fines de archivo, algo que AltaVista no estaba interesada en hacer.

“Pensé que la clave era asegurar la preservación del legado de la humanidad, así que nos pusimos a recopilarlo”, afirma.

Kahle invirtió parte de su propio dinero para fundar Internet Archive —había vendido un sistema de publicación web pionero llamado WAIS a AOL por acciones valoradas en 15 millones de dólares, tras separarlo de su trabajo en Thinking Machines— y recibió ayuda de algunos inversionistas externos.

Pero el verdadero trabajo pesado provino de Alexa Internet, la empresa de análisis de tráfico con fines de lucro que fundó al mismo tiempo que Internet Archive. Por cada página web que Alexa rastreaba, donaba una copia al Internet Archive, y Kahle se aseguró de que este acuerdo se mantuviera incluso después de que Amazon adquiriera Alexa por 250 millones de dólares en 1999. Amazon contribuyó discretamente a la Wayback Machine durante más de 20 años, hasta que cerró Alexa Internet en 2021. (El nombre Alexa, inspirado en la Biblioteca de Alejandría, perdura como el nombre del asistente virtual de Amazon).

“Admiro profundamente a Amazon”, dice Kahle. “Podrían haber encontrado la manera de rescindir ese contrato, pero no lo hicieron. Así que, en realidad, le proporcionaron Internet Archive, cuando era una organización sin ánimo de lucro muy joven, un valioso conjunto de contenidos”.

La técnica de escaneo Lan Zhu digitaliza un manuscrito en Internet Archive. [Foto: Internet Archive]

Gestionando el Archivo

La Wayback Machine era rudimentaria al principio, basándose en automatizaciones sencillas para capturar el código de cada página web, conservando su contenido y apariencia en ese momento. Con el tiempo, se ha vuelto cada vez más sofisticada, con nuevos motores de rastreo diseñados para capturar la creciente complejidad de la web moderna.

Actualmente, la Wayback Machine toma instantáneas de aproximadamente 1,000 millones de URL al día. Mantiene copias de más de un billón de páginas web y almacena 100 terabytes de datos nuevos diariamente.

Aun así, Kahle afirma que la Wayback Machine representa solo alrededor del 60% de los datos de Internet Archive. El resto proviene de sus vastas colecciones digitales, que incluyen programas de radio, podcasts, aplicaciones móviles descatalogadas, juegos de DOS, software en CD-ROM, investigaciones científicas de acceso público, escaneos de revistas antiguas, programas de televisión clásicos, antiguas emisiones de noticias por cable, documentos escaneados de microfichas y mucho más. Ambas partes del Internet Archive comparten los mismos recursos informáticos.

A pesar de la magnitud de su operación, la gestión del Archivo es, sorprendentemente, una labor humana. Si bien el sitio cuenta con decenas de miles de procesos automatizados para archivar la web, sus recursos son limitados y, a menudo, necesita establecer prioridades, explica Mark Graham, director de Wayback Machine.

“Parte de mi trabajo diario consiste en prestar atención a este proceso, mediante conversaciones y analizando qué estamos archivando y qué no”, comenta Graham.

Graham recuerda un ejemplo reciente en el que el Departamento de Estado reveló sus planes de eliminar sus publicaciones en X anteriores al regreso de Donald Trump a la presidencia. Rápidamente puso en marcha un proyecto con su equipo y logró salvar más de dos millones de publicaciones, cientos de miles de las cuales han desaparecido desde entonces de sus URL originales. El equipo de Graham también ha realizado copias de emergencia de publicaciones en línea cuyo cierre es inminente, como hizo recientemente con un importante sitio de videojuegos (que prefirió no identificar).

“Recibimos notificaciones casi a diario sobre ciertas propiedades web que van a ser cerradas”, afirma Graham. “A menudo recibimos avisos con semanas o meses de antelación, pero a veces no”.

Internet Archive no realiza todo el trabajo por sí solo. Colabora con más de 1,400 organizaciones, incluyendo bibliotecas, universidades y museos, que ayudan a decidir qué vale la pena conservar en cada momento. Además, ofrece un servicio de pago llamado Archive-It para aquellas organizaciones que desean mantener sus propias colecciones digitales. Los usuarios individuales también pueden archivar páginas manualmente mediante un formulario web o una extensión del navegador, e incluso subir archivos a las colecciones digitales de Internet Archive.

“Es una combinación equilibrada de diferentes metodologías, motivaciones y mecanismos de acción”, afirma Graham.

Estación de escaneo de películas en Internet Archive. [Foto: Internet Archive]

Amenazas al archivo

Durante la mayor parte de su existencia, Internet Archive funcionó sin mayores problemas. Esto ha comenzado a cambiar en los últimos años.

Para la Wayback Machine, archivar la propia web se ha vuelto más difícil. El Internet Archive no guarda los artículos de pago, por lo que le falta gran parte del contenido de las principales editoriales.

“Cada vez es más difícil archivar correctamente la web pública, porque cada vez hay más contenido no público”, afirma Graham.

Algunas de esas editoriales también han empezado a bloquear el Internet Archive para evitar que las empresas de IA extraigan su contenido. Nieman Lab informó en enero de que 241 sitios web de noticias bloquean explícitamente al menos uno de los robots de rastreo del Internet Archive, la mayoría propiedad del conglomerado periodístico USA Today Co. El periódico francés Le Monde también ha bloqueado el sitio, mientras que The Guardian ha filtrado sus artículos de la interfaz principal de Wayback Machine. Reddit también empezó a bloquear Internet Archive el año pasado.

Graham afirma que Internet Archive emplea diversas tácticas para evitar que las IA extraigan contenido, pero reconoce que esto requiere una atención y mantenimiento casi constantes.

Jack Cushman, director del Laboratorio de Innovación de la Biblioteca de Harvard, afirma que las editoriales podrían ser bastante indiferentes al trabajo de los archivistas, al menos en comparación con la amenaza más inmediata de que la IA reutilice el contenido o sobrecargue sus servidores. (El laboratorio de Cushman ha desarrollado su propia herramienta de archivado, llamada Perma.cc, que ofrece a particulares e instituciones).

“En resumen, nos cierran las puertas, impidiéndonos el acceso, cuando en realidad no les importamos”, dice Cushman.

Mientras tanto, la IA representa una amenaza de otra índole: la demanda de los centros de datos de IA está elevando el costo del almacenamiento. Kahle afirma que, como resultado, los costos de los discos duros del Internet Archive ya se han triplicado o cuadruplicado.

“Vamos a tener que empezar a ser muy ingeniosos en la forma de archivar y continuar archivando”, añade.

Y a medida que aumenta el costo del almacenamiento, una proporción cada vez mayor del contenido que la gente consume en línea son videos en plataformas como YouTube y TikTok, que ocupan más espacio que las imágenes estáticas y el texto. Esto significa que Internet Archive debe ser aún más selectivo con lo que guarda. Su colección de YouTube solo cuenta con millones de páginas, frente a más de un billón de páginas web en total.

“Hay otros casos en los que la cantidad de material en una plataforma o servicio es tan grande que no tenemos la capacidad suficiente”, afirma Graham.

Más allá del ámbito del archivo web, las colecciones digitales de Internet Archive se han convertido en una fuente de problemas legales. En 2020, varias editoriales demandaron al grupo después de que comenzara a prestar digitalizaciones de libros físicos como respuesta a la pandemia de COVID-19. Esto derivó en un acuerdo extrajudicial cuyos términos no se han revelado y en la eliminación de 500,000 libros de la colección de Internet Archive. El grupo también llegó a un acuerdo en una demanda aparte presentada por una discográfica por su colección de discos de 78 rpm digitalizados, aunque estos siguen estando disponibles.

Cushman señala que estas demandas han puesto de manifiesto los riesgos, aunque bienintencionados, que asumen los archivistas con material protegido por derechos de autor. Si bien Internet Archive generalmente ha evitado asuntos que pudieran molestar a los titulares de derechos de autor, esto ha comenzado a cambiar en los últimos años.

“Se han involucrado en ciertos temas —sobre todo con la pandemia— que realmente enfurecieron a algunas personas con grandes recursos económicos y abogados influyentes”, afirma. “Esto hace que la estructura sea un poco más inestable, algo que creo que nadie hubiera deseado”.

Kahle y el Internet Archive consideran que estas demandas representan un grave perjuicio para su misión, ya que impulsan aún más el consumo de contenido hacia un modelo de licencias y vigilancia, en lugar de la propiedad.

“Estados Unidos se ha enfrascado en un ciclo de litigios, cuando en los años 90 estaba interesado en la innovación y en un sistema con muchos ganadores”, declara Kahle.

Internet Archive sigue siendo un recurso indispensable, afirma Cushman, considerado entre los archivistas como una especie de monolito benévolo. Su funcionamiento tiene un toque lúdico —por ejemplo, al ofrecer una colección jugable de consolas portátiles LCD— que nadie más ofrece. Sin embargo, sus desafíos también le hacen desear que hubiera más organizaciones intentando hacer cosas similares.

“Es diferente a todo lo que tenemos”, dice Cushman. “Así que creo que lo vemos con una mezcla de gratitud, por la suerte que tenemos de que haya sucedido, y también con cierta aprensión, porque solo existe uno”.

Internet Archive
Sede de Internet Archive en San Francisco, California. [Foto: Internet Archive]

Mirando hacia el futuro

Kahle dedicó su vida a digitalizar el conocimiento mundial e incluso a utilizar la IA para hacerlo más accesible. Ahora, ese futuro finalmente se está materializando, pero, irónicamente, de una manera que se concentra en torno a un puñado de empresas tecnológicas, conglomerados mediáticos y gigantes editoriales con gran financiación. Como joven ingeniero, esa posibilidad nunca estuvo entre sus planes.

“No predije los monopolios”, dijo.

Kahle sigue viendo la IA como una oportunidad para organizar los vastos datos de Internet Archive. Los investigadores ya la utilizan, por ejemplo, para interpretar los puntos clave de los noticieros rusos, e Internet Archive ha recurrido a la IA para digitalizar y traducir más contenido.

Pero, según él, estas oportunidades se dan cada vez más fuera de Estados Unidos, donde existe mayor seguridad jurídica sobre qué pueden recopilar y digitalizar las bibliotecas. La Comisión Europea, por ejemplo, impulsa el concepto de IA para el bien público, promoviendo herramientas que abordan desafíos específicos como el cambio climático y la atención médica. Internet Archive Europe, un grupo independiente del que Kahle es miembro de la junta directiva, ha respaldado una herramienta de código abierto llamada ClimateGPT que aplica modelos lingüísticos complejos a la investigación climática.

“Podría haber cientos de organizaciones innovadoras que conquistaran todo tipo de nichos si contaran con las mismas políticas en Estados Unidos que teníamos en la década de 1990, cuando permitimos el desarrollo de los motores de búsqueda”, afirma Kahle.

Aun así, Kahle afirma no estar desanimado, porque, fundamentalmente, la gente quiere que sus obras sean leídas y preservadas. También desean información de calidad y de fácil acceso, razón por la cual Internet Archive se utiliza ahora más que nunca.

Si bien Internet Archive nació de la idea de centralizar el conocimiento mundial, últimamente ha estado patrocinando conferencias sobre cómo descentralizar nuevamente la web. Aún es pronto, pero confía en que esto dé lugar a nuevos modelos de negocio que permitan recuperar lo que parecía posible hace 30 años.

“Construyamos sistemas que apoyen a las comunidades”, dice Kahle. “Creemos herramientas para la participación. Construyamos la biblioteca de la democracia a partir de todas las obras que pueden y deben compartirse, para que todos construyamos sobre un patrimonio común de información”.

Author

  • Jared Newman

    ha sido periodista independiente de tecnología durante más de 15 años y colabora regularmente con Fast Company, PCWorld y TechHive. Su boletín informativo Cord Cutter Weekly cuenta con más de 30,000 suscriptores, y su boletín de asesoría tecnológica Advisorator es leído por casi 10,000 personas cada semana. Jared tiene una maestría en periodismo de la Universidad de Nueva York y se especializa en hacer que temas tecnológicos complejos sean fáciles de entender, desde transmisión y corte de cable hasta aplicaciones ingeniosas y trucos tecnológicos útiles. Vive en Cincinnati, OH.

    View all posts

Author

  • Jared Newman

    ha sido periodista independiente de tecnología durante más de 15 años y colabora regularmente con Fast Company, PCWorld y TechHive. Su boletín informativo Cord Cutter Weekly cuenta con más de 30,000 suscriptores, y su boletín de asesoría tecnológica Advisorator es leído por casi 10,000 personas cada semana. Jared tiene una maestría en periodismo de la Universidad de Nueva York y se especializa en hacer que temas tecnológicos complejos sean fáciles de entender, desde transmisión y corte de cable hasta aplicaciones ingeniosas y trucos tecnológicos útiles. Vive en Cincinnati, OH.

    View all posts

Sobre el autor

ha sido periodista independiente de tecnología durante más de 15 años y colabora regularmente con Fast Company, PCWorld y TechHive. Su boletín informativo Cord Cutter Weekly cuenta con más de 30,000 suscriptores, y su boletín de asesoría tecnológica Advisorator es leído por casi 10,000 personas cada semana. Jared tiene una maestría en periodismo de la Universidad de Nueva York y se especializa en hacer que temas tecnológicos complejos sean fáciles de entender, desde transmisión y corte de cable hasta aplicaciones ingeniosas y trucos tecnológicos útiles. Vive en Cincinnati, OH.