ADVERTISEMENT

| Tech

¿El scraping gratuito llega a su fin? La IA tendría que pagar por el contenido que retoma

Cloudflare toma una postura sobre los rastreadores de IA, lo que podría permitir a los editores finalmente hacer las paces con los bots que recopilan su contenido.

¿El scraping gratuito llega a su fin? La IA tendría que pagar por el contenido que retoma [Fuente Foto: Freepik]

Desde la llegada de los chatbots de Inteligencia Artificial (IA), parece que los medios de comunicación pierden en una guerra de desgaste. Los chatbots ganan popularidad, y cuanto más se usa la IA para obtener respuestas en lugar de resultados de búsqueda, menos visitas reciben los sitios web que las ofrecen. Incluso Google, cuyo modelo de negocio depende de la monetización de las búsquedas,  profundiza en la IA, y los datos del sector muestran que los bots están en auge.

Sin embargo, las acciones suelen inspirar reacciones. Las demandas aumentan a medida que más empresas de medios se enfrentan a los gigantes de la IA por derechos de autor, lo que podría ser decisivo, a pesar de las recientes sentencias. Y los editores refuerzan las defensas de sus sitios web contra los rastreadores de IA, y ahora los bloquean más que nunca.

Y ahora podríamos haber llegado a un punto de inflexión: Cloudflare, un importante proveedor de infraestructura de Internet, ha tomado una postura firme en el conflicto. En un anuncio diseñado para maximizar el impacto, la compañía anunció que comenzaría a bloquear los scrapers de IA por defecto en los sitios web que administra. Si eres operador de un sitio en la red de Cloudflare, ahora deberás permitir activamente que los bots de IA indexen tu contenido. Si no lo haces, serán bloqueados.

Influencia en la nube

Cloudflare gestiona aproximadamente el 20% del tráfico de Internet, por lo que las implicaciones de este cambio son significativas. Y también lo es la oportunidad de negocio: con el anuncio, Cloudflare también lanza un mercado para el tráfico de bots. En lugar de bloquear completamente los bots de IA, los propietarios de sitios web podrán cobrarles una tarifa de acceso a través del nuevo programa de Pago por Rastreo (Pay Per Crawl), que consiste básicamente en un sistema de micropagos. Algunas startups, como TollBit y ScalePost, operan sistemas similares, pero si se considera la escala de Cloudflare, es posible que se haya convertido instantáneamente en su mayor competidor.

Cloudflare es una red de entrega de contenido (CDN), una parte crucial, aunque en gran medida invisible, de Internet para la mayoría de los usuarios. Una CDN almacena el contenido en caché para mantenerlo más cerca de los usuarios finales, lo que generalmente acelera el tráfico web. También gestiona muchos otros servicios relacionados, como la prevención de ataques de denegación de servicio distribuido (DDoS), la habilitación de conexiones seguras y el alojamiento de sitios web. Sin embargo, principalmente actúa como intermediario entre los visitantes del sitio web y sus servidores, optimizan la entrega y garantizan la seguridad.

La manera en que los bots de IA interactúan con los sitios web suele gestionarse mediante el Protocolo de Exclusión de Robots (robots.txt) de cada sitio, pero se trata principalmente de un sistema de honor que depende de que los bots se identifiquen con precisión y sigan las normas, que suelen interpretar con liberalidad.

La resistencia contra la IA

La influencia de Cloudflare no es una regulación per se, pero podría dotar a esa norma de cierta fuerza de facto. La empresa afirma que “identifica y distingue a los rastreadores de IA mediante su sofisticado sistema de detección de bots“. Si esto significa que Cloudflare puede detectar, rastrear e incluso sancionar a los actores maliciosos que ignoran o eluden el protocolo, podría significar que la situación cambia.

Sin embargo, existe la preocupante realidad del otro 80% de Internet. Otros gigantes de las CDN, como Akamai, tendrían que sumarse para tener un impacto real, pero incluso eso solo representaría aproximadamente la mitad de la actividad web. Y gran parte del resto de internet no está motivada para actuar: Google, Meta y Microsoft operan gran parte de la infraestructura que sustenta sus negocios masivos y escalables, y se dedican a desarrollar modelos de IA, por lo que les interesa maximizar la actividad de los rastreadores de IA.

Aun así, la resistencia es real. El anuncio de Cloudflare fue cuidadosamente planificado: el comunicado de prensa incluye citas de docenas de ejecutivos de medios, desde Time hasta Dotdash Meredith, e incluso plataformas tecnológicas basadas en contenido como Quora. Aunque algunos en el grupo son empresas de medios que están demandando a empresas de IA, da la sensación de que los demás están aprovechando este momento para expresar su indignación ante lo que consideran un robo a gran escala del sustento de su industria.

Esa indignación está alimentando un nuevo consenso, que se refleja en los numerosos acuerdos de licencia de contenido que los editores han firmado con empresas de IA en los últimos dos años: que el resumen de IA debería requerir algún tipo de compensación.

Monetizando el Internet de los bots

Las noticias sobre Cloudflare brindan a los editores una base más sólida no solo para defenderse de los bots de IA, sino también para aprovechar ese consenso y convertir la creciente actividad robótica en una oportunidad. Una estrategia integral contra el creciente “Internet de los bots” debe incluir tres elementos:

  1. Bloquea o introduce un pago para el scraping de IA: Identificar bots es conceptualmente sencillo, pero presenta desafíos prácticos porque se multiplican y a veces enmascaran lo que son.
  2. Desarrolla para bots: Los editores deben crear una buena experiencia de usuario, y esto también aplica a los bots, siempre y cuando paguen para ingresar. Deben tener acceso en tiempo real a información precisa y presentada de manera simple para generar los mejores resúmenes posibles, con citas correctas.
  3. Crea experiencias de IA con tu marca: Dales a las personas que visitan tu sitio un motivo para quedarse. Volver a ChatGPT para cada consulta no es ideal para nadie.

El tercer elemento es importante porque, si bien los editores se ven amenazados por bots de IA sin escrúpulos, no pueden negar que la gente todavía quiere usarlos. Las respuestas de IA eliminan la fricción y están cambiando las expectativas en torno a las búsquedas, incluso en la búsqueda en el sitio web. Los editores no solo deberían reconocerlo, sino aprovecharlo para retener a su público en su propio sitio.

Separar el tráfico de los bots de IA

Esto depende de poder separar el tráfico de bots del tráfico humano. Y si Cloudflare es, de hecho, la primera CDN en dar este paso, existe la esperanza de que los editores no tengan que esperar una sentencia judicial favorable ni nuevas regulaciones para obtener la fuerza necesaria.

Sin embargo, el gobierno aún puede desempeñar un papel. La sofisticada detección de bots de Cloudflare tendría un efecto aún mayor si fuera ilegal que los bots ocultaran su verdadera naturaleza e intentaran hacerse pasar por humanos.

Una regla como esta sería sencilla y fomentaría firmemente un ecosistema de información más justo, donde los editores puedan empezar a diseñar las experiencias adecuadas para las audiencias adecuadas. Si el futuro de los sitios web es ofrecer la mejor experiencia a un bot, al menos deberían tener claro qué es. 

Author

Author

Sobre el autor

ADVERTISEMENT

ADVERTISEMENT