‘La IA no puede alimentarse del periodismo y llamarlo innovación’, por David Lahoz

11 jun

Durante años, los medios de comunicación aceptaron a regañadientes una especie de pacto no escrito con las grandes plataformas digitales. Los buscadores indexaban sus contenidos, las redes sociales los distribuían, los agregadores los empaquetaban y, a cambio, los medios recibían tráfico. El trato nunca fue perfectamente equilibrado, pero al menos conservaba una lógica reconocible: alguien descubría una información en una plataforma y acababa visitando el lugar donde esa información se había producido.

¿Qué pasa cuando la IAG rompe esta lógica?

El cambio no está solo en que un modelo pueda resumir una noticia, responder una pregunta o contextualizar un acontecimiento. El cambio profundo es que la IA se está convirtiendo en una nueva interfaz de acceso a la información. Ya no buscamos necesariamente una página; preguntamos a un sistema. No nos dedicamos a comparar diez enlaces; recibimos una síntesis. No navegamos hasta la fuente; muchas veces consumimos una respuesta que nos parece suficiente.

Y aquí aparece el conflicto central: buena parte de esas respuestas se sostienen sobre contenidos producidos por terceros. Entre ellos, contenidos periodísticos. Contenidos que tienen coste, estructura editorial, responsabilidad legal, criterio profesional y, sobre todo, valor.

La pregunta, por tanto, no es si la IA va a transformar el negocio de los medios. Eso ya está ocurriendo. La pregunta es bastante más directa: si los sistemas de IA se benefician del trabajo editorial para entrenar modelos, contextualizar respuestas y mejorar la experiencia del usuario, ¿por qué los propietarios de esos contenidos no están siendo compensados de forma justa?

La vieja excusa de la web abierta

Durante la primera etapa de la IA generativa, buena parte de la industria tecnológica se ha refugiado en una idea cómoda: la web estaba ahí. Era accesible. Era pública. Podía rastrearse. Por tanto, podía usarse.

El problema es que “accesible” no significa “libre de derechos”, y mucho menos “gratis para cualquier explotación comercial”. Un artículo abierto en una web puede estar disponible para que lo lea una persona, para que lo enlace otro medio o para que lo indexe un buscador. Eso no implica automáticamente que pueda ser utilizado para entrenar un modelo, generar respuestas sustitutivas, mejorar un producto de pago o sostener una nueva capa de monetización.

La diferencia no es menor. Un buscador tradicional era, con todos sus problemas, una máquina de derivar tráfico. Una IA conversacional puede convertirse en una máquina de absorber intención. Si pregunto qué ha pasado en una negociación política, cómo afecta una nueva regulación a mi empresa o cuáles son las conclusiones de un informe sectorial, una respuesta bien sintetizada puede eliminar mi necesidad de visitar la fuente original.

Ahí es donde el modelo anterior deja de servir. La cita, el enlace y la promesa de visibilidad ya no bastan. Sobre todo, si la respuesta generada por IA satisface la necesidad informativa dentro de la propia plataforma.

Los medios ya han cobrado demasiadas veces en “exposición”. Y la exposición, como modelo de nómina, tiene algunas limitaciones conocidas.

No todos los usos son iguales

Uno de los errores habituales en este debate es meterlo todo en la misma caja. No es lo mismo usar contenidos para entrenar un modelo que consultarlos en tiempo real para responder a una pregunta. No es lo mismo mostrar un titular y un enlace que generar una respuesta completa que sustituya la lectura. No es igual una respuesta sin monetización directa que una respuesta acompañada de publicidad o integrada en un producto de suscripción.

Si queremos una discusión seria, hay que separar al menos cuatro capas.

La primera es el entrenamiento. Los modelos han aprendido a partir de enormes volúmenes de contenido, entre ellos contenido periodístico. Aquí la atribución pieza a pieza es compleja, pero la complejidad técnica no convierte el contenido en irrelevante. Puede tener sentido un modelo de licencia agregada, colectiva o por corpus, especialmente para contenidos profesionales y archivos editoriales.

La segunda es la recuperación en tiempo real. Cuando un sistema consulta información actualizada para dar una respuesta más precisa, la relación con la fuente es mucho más directa. Ahí sí pueden medirse usos, categorías, fuentes consultadas, presencia visible y clics derivados.

La tercera es la sustitución de tráfico. Si una respuesta generativa resuelve la consulta sin visita posterior al medio, no estamos ante simple descubrimiento. Estamos ante una transferencia de valor desde el productor original hacia la nueva interfaz.

La cuarta es la monetización. Si una respuesta de IA usa contenido editorial y alrededor de esa respuesta hay publicidad, afiliación, suscripción o cualquier forma de ingreso comercial, resulta difícil defender que el propietario del contenido no participe en ese valor.

No hace falta diseñar un sistema perfecto desde el primer día. La industria publicitaria lleva décadas atribuyendo conversiones entre múltiples puntos de contacto con modelos bastante menos perfectos de lo que nos gusta admitir. Si hemos sido capaces de inventar métricas para medir una impresión vista durante milisegundos en un entorno programático, quizá también podamos imaginar una forma razonable de medir cuándo un contenido editorial contribuye a una respuesta generada por IA.

El bloqueo no es estrategia, pero sí es poder

Ante la falta de compensación, muchos editores se plantean bloquear el acceso de bots de IA a sus contenidos. Es una reacción lógica. En Europa, además, existe base jurídica para reservar derechos frente a la minería de textos y datos mediante mecanismos adecuados, incluidos medios legibles por máquina para contenidos disponibles en línea.

Ahora bien, bloquear no es una decisión neutra. Si un medio cierra completamente el acceso automatizado, puede proteger su contenido frente a ciertos usos, pero también puede perder visibilidad en las nuevas interfaces donde cada vez más usuarios empiezan sus consultas. El riesgo es pasar de “me usan sin pagar” a “dejo de existir donde se está moviendo la atención”.

Por eso la respuesta no debería ser bloquear o abrir. La respuesta debería ser diseñar una política de acceso.

Los editores necesitan pasar de una lógica binaria a una lógica granular. Permitir descubrimiento no debería implicar permitir entrenamiento. Permitir titular, autor, fecha, enlace y un resumen breve no debería implicar permitir una respuesta completa. Diferenciar el uso en una experiencia no monetizada de una monetizada no debería ser una barrera técnica inalcanzable. Dar acceso a actualidad básica no debería implicar regalar archivo histórico, análisis propio, bases de datos o investigaciones.

La idea importante, en mi opinión, es esta: no todos los contenidos deben tener la misma política. Una noticia de servicio público puede necesitar máxima difusión. Una exclusiva puede requerir máximo control. Un archivo histórico puede ser tratado como un producto de valor añadido. Un análisis especializado puede formar parte de una API licenciada. El dato local puede tener poco volumen global y mucho valor contextual.

La defensa del contenido no pasa por levantar un muro sin puertas. Pasa por instalar puertas con permisos, condiciones, registro de entrada y precio.

Los medios también tienen sus deberes

Dicho esto, los editores tampoco pueden limitarse a esperar que la industria tecnológica reconozca espontáneamente el valor del periodismo. La generosidad corporativa suele tener un presupuesto muy inferior al de desarrollo de negocio.

Los medios tienen que convertir su contenido en un activo negociable. Eso significa ordenar archivos, mejorar metadatos, crear taxonomías, diferenciar tipos de uso, preparar APIs, definir licencias, monitorizar bots, documentar infracciones y construir propuestas comerciales concretas.

No basta con decir: “pagadnos”. Hay que poder decir: “Esto es lo que puedes usar para descubrimiento, esto para respuestas breves, esto para productos de pago, esto para entrenamiento y esto no puedes usarlo sin una licencia específica”.

También hace falta acción colectiva. Los grandes grupos editoriales podrán negociar acuerdos bilaterales. Algunos ya lo están haciendo. Pero si el mercado se resuelve solo mediante acuerdos privados entre grandes plataformas y grandes medios, el resultado será una nueva concentración. Los grandes obtendrán licencias, los medianos negociarán como puedan y los pequeños quedarán convertidos en materia prima barata o invisible.

Los medios locales y especializados necesitan consorcios, estándares comunes y capacidad de auditoría. La información local, por ejemplo, tiene un valor enorme para responder bien sobre municipios, servicios públicos, regulación territorial, movilidad, cultura, política próxima o sucesos. Pero ningún medio local aislado negocia en igualdad de condiciones con una gran plataforma global. La asimetría no se corrige con buena voluntad; se corrige con escala, reglas y capacidad de presión.

De páginas a infraestructura de confianza

El escenario más probable no será una gran solución universal. Lo más probable es una convivencia desigual: acuerdos selectivos, litigios, bloqueos parciales, reservas de derechos, APIs licenciadas, productos propios de IA, consorcios editoriales y más regulación. El mercado avanzará a trompicones, como suele hacer cuando una tecnología llega antes que sus reglas.

A medio plazo, una parte del tráfico informativo se perderá. Muchas consultas que antes generaban visitas acabarán resueltas dentro de interfaces conversacionales. Esto afectará especialmente al contenido más genérico, resumible y orientado a capturar tráfico de baja profundidad. Los medios que dependían de volumen lo tendrán más difícil.

Pero a largo plazo también puede abrirse una oportunidad. En un internet cada vez más lleno de contenido sintético, reciclado y optimizado para agradar a modelos, las fuentes verificadas pueden ganar valor. La IA necesitará información fiable, actualizada, trazable y editorialmente responsable si quiere diferenciarse por confianza. Y ahí los medios tienen algo que las plataformas no pueden fabricar fácilmente: criterio editorial, marca, archivo, proximidad, autoría y responsabilidad pública.

La condición es que ese valor no permanezca invisible. Debe ser protegible, licenciable y difícil de sustituir.

La batalla, por tanto, ya no es solo por el tráfico. Es por decidir si el periodismo será una fuente visible y compensada dentro de la economía de las respuestas o una capa invisible que sostiene el sistema mientras otros controlan la interfaz, los datos del usuario y la monetización.

La IA generativa no funciona solo con GPUs, modelos y centros de datos. También funciona con años de trabajo editorial acumulado. La diferencia es que las GPUs o los centros de datos tienen factura, contrato y proveedor. El periodismo, demasiadas veces, aparece tratado como si fuera un residuo gratuito de la web abierta.

Y ese es el problema de fondo. Una economía de respuestas que se alimenta de información fiable pero no contribuye a financiarla puede parecer muy eficiente a corto plazo. A largo plazo, se parece bastante a construir un restaurante de estrella mientras se deja morir a quienes cultivan y te proporcionan los ingredientes de mayor calidad.

David Lahoz, socio fundador de Naurus.eco

Naurus.ecoMetaAlphabet

David Lahoz