Nested Learning: cuando el problema de la IA es el tiempo, no las capas

12 dic

En este artículo desarrollamos el concepto de “Nested Learning”, el nuevo paradigma de Google Research, que plantea que lo que llamamos “deep learning” sólo explota una dimensión (más capas, más grande) e introduce otra que casi nunca miramos: los distintos ritmos a los que un modelo aprende y consolida memoria.

Si esta idea se consolida, los modelos dejarán de ser máquinas que “se entrenan una vez y se congelan” para pasar a sistemas que aprenden de forma continua a múltiples escalas temporales. Para un sector construido sobre optimizaciones diarias, reports mensuales y aprendizajes de campaña a campaña, el mensaje es claro: también en publicidad hemos estado viviendo con una inteligencia que sufre amnesia digital.

Nos hemos acostumbrado a hablar de los modelos de IA como si fueran hornos industriales: se “entrenan”, se “sacan al mercado” y, de vez en cuando, se recalientan con un retrain. Nadie se plantea seriamente que el modelo aprenda de verdad de lo que pasa en una campaña concreta, de una conversación con un cliente o de los errores de pacing de la semana pasada. Eso se queda en otro sitio: en el Excel del planner, en el post-mortem que nunca se relee o en la cabeza del trader que se cambia de grupo a los seis meses.

El nuevo trabajo de Google Research, “Nested Learning: The Illusion of Deep Learning Architectures”, presentado en NeurIPS 2025, pone el dedo exactamente en esa llaga. Su tesis central es simple: la mayoría de modelos profundos actuales están diseñados como si el tiempo no existiera. Tenemos una memoria muy rápida (el contexto inmediato de la conversación, de la sesión o del batch) y una memoria muy lenta (el pre-entrenamiento masivo), pero entre medias, casi nada estructurado. Lo que el paper plantea no es un truco incremental, sino un cambio de modelo mental: pasar de pensar en “redes más profundas” a modelos compuestos por múltiples procesos de aprendizaje anidados, que operan a diferentes velocidades y con diferentes memorias. Dicho en lenguaje de publicidad: llevamos una década afinando la creatividad y el plan de medios en base a herramientas cuyo “aprendizaje” se parece más a una campaña que se lanza y se archiva, que a un anunciante que acumula años de histórico.

La amnesia digital de los modelos (y del sector)

El problema de fondo no es nuevo. En el mundo académico se habla desde hace años de catastrophic forgetting, es decir, cuando una red neuronal aprende algo nuevo, tiende a sobrescribir lo anterior si no hay un mecanismo explícito de consolidación. En términos de LLMs, la historia la conocemos todos porque la sufrimos a diario: el modelo recuerda muy bien el contexto inmediato (tu conversación actual, los últimos miles de tokens), tiene una memoria inmensa pero congelada del pasado remoto (el pre-entrenamiento) y todo lo que intentas enseñarle en medio —políticas, matices de un cliente, learnings de campañas— vive en un limbo frágil. Si no se lo vuelves a repetir, desaparece.

En el sector lo hemos resuelto con parches: RAG para enchufarle PDFs y wikis a cada prompt, fine-tuning específico para ciertos casos de uso y herramientas de workflow que intentan darle “memoria externa” vía bases de datos, pero la realidad es que, desde el punto de vista del modelo, seguimos en un esquema de “brief puntual” más que de “relación a largo plazo”. Cada interacción es una pieza más en un timeline muy corto que no consolida nada salvo que alguien lo empaquete y lo reentrene a posteriori.

Nested Learning ataca ese vacío.

Qué propone realmente Nested Learning

El paper introduce Nested Learning (NL) como un paradigma en el que un modelo no es una sola red que se optimiza, sino un conjunto de problemas de optimización anidados o en paralelo, cada uno con su propio “context flow” (la información de la que aprende) y su propia frecuencia de actualización. Tres ideas clave, sin entrar en la notación matemática:

Los optimizadores también son memoria: algoritmos como Adam o SGD con momentum no son simples herramientas externas; son, de facto, módulos de memoria asociativa que retienen información sobre gradientes pasados y la reutilizan. El paper los reinterpreta como parte del sistema de memoria del modelo.
Aprendizajes a distintas velocidades: NL formaliza la intuición de que debería haber múltiples bucles de aprendizaje: Un bucle rápido que se adapta a la interacción actual, bucles intermedios que consolidan patrones a escala de sesión, día, campaña… y un bucle lento que actualiza el “carácter” del modelo a muy largo plazo.
Continuum Memory System (CMS) y HOPE: sobre esa base, los autores proponen un Continuum Memory System, que distribuye memorias a lo largo de distintas escalas temporales, y una arquitectura de prueba llamada HOPE, un módulo recurrente auto-modificable que aprende tanto contenidos como sus propias reglas de actualización.

HOPE no es todavía un nuevo GPT de propósito general, sino una demostración de que puedes diseñar módulos de memoria que se optimizan a sí mismos en varios niveles, en lugar de depender de un único entrenamiento offline. Lo relevante no es tanto la curva de benchmarks (limitada, como muchos han señalado) como el mensaje: el verdadero “profundizar” ya no va solo de apilar capas, sino de añadir niveles de aprendizaje.

La segunda dimensión que nos faltaba: tiempo y frecuencias

Si uno mira el estado del arte en modelos generativos, la obsesión ha sido siempre el tamaño: más parámetros, más capas, más tokens, más GPUs. La dimensión temporal ha quedado reducida a dos extremos: el pre-entrenamiento masivo, que es básicamente un histórico congelado, y el contexto de inferencia, que se borra en cuanto se acaba la sesión o se llena la ventana de tokens.

Nested Learning dice: falta toda la franja intermedia. Como metáfora, imaginemos que todo el stack de AdTech sólo tuviera dos memorias: el histórico de todo lo que se ha gastado en la historia de la marca y lo que ha ocurrido en los últimos 10 minutos en el bidder. No habría noción coherente de campaña, de trimestre, de año fiscal. Pues eso es, grosso modo, en lo que hemos convertido a muchos modelos.

NL propone construir algo más parecido a lo que hacemos intuitivamente en medios: aprendizajes de intra-campaña (qué funciona esta semana), aprendizajes de inter-campaña (lo que ya sabemos que suele funcionar para esa marca/vertical) y aprendizajes de largo plazo (cómo evoluciona el comportamiento ante la categoría, el canal, el formato).

La diferencia es que, en lugar de fragmentarlo entre planner, trader, consultor de data y presentaciones de QBR, se intenta que el propio sistema tenga mecanismos de consolidación gradual.

La pregunta razonable es: “Muy bien, pero ¿qué tiene que ver un paper de NeurIPS con mi plan de medios del 2026?” Bastante más de lo que parece. Lo vemos en tres puntos:

1. Modelos que de verdad aprenden de las campañas

Hoy, cuando una plataforma nos dice que un algoritmo “aprende con la campaña”, lo que normalmente quiere decir es que ajusta pesos internos de forma muy local y volátil: cuando la campaña termina, buena parte de ese aprendizaje se evapora o queda enterrado sin estructura clara. Un enfoque tipo Nested Learning permitiría que el modelo mantenga memoria persistente por anunciante, marca o cuenta, aprendiendo de forma acumulativa sin necesidad de reentrenar desde cero. También permitiría diseñar optimizadores específicos que evolucionen con la marca (por ejemplo, cómo cambia el valor de una conversión, la tolerancia a frecuencia, etc.) y, por último, evitar parte del síndrome de “cada campaña es la primera campaña”, muy conocido por cualquiera que haya tenido que reexplicar KPIs al sistema cada tres meses.

2. Continual learning sin destruir el histórico

En publicidad vivimos en régimen de drift permanente: cambios en las cookies, cambios regulatorios, nuevos formatos, inflación de subasta, shifts de comportamiento del usuario… La mayoría de sistemas lidia con esto vía reentrenos periódicos (con el riesgo de olvidar patrones antiguos) y capas de reglas manuales (“no pujes más de X”, “limita frecuencia”, etc.).

NL, al introducir una jerarquía de memorias, apunta a modelos capaces de adaptarse online sin destruir lo que ya sabían. En teoría, esto podría traducirse en algoritmos de puja que se ajustan en tiempo real a shocks de inventario o pricing, manteniendo intacto el aprendizaje de fondo sobre la marca y la categoría y en sistemas de recomendación que incorporan señales recientes sin “tirar por la borda” años de histórico.

Subrayamos: todo esto es teoría ya que no hay evidencia publicada de que esto esté ya desplegado a escala en productos como Google Ads o DV360 y cualquier afirmación en ese sentido sería pura especulación.

3. Gobernanza y riesgo: modelos que se auto-modifican

Hay otro ángulo que a la industria le va a importar tanto o más que la performance: control. Si empiezas a introducir módulos que “aprenden a aprender” y modifican sus propias reglas de actualización (como HOPE), la pregunta obvia es: ¿Quién controla el comportamiento emergente de un sistema que ajusta su propio optimizador?

Para un anunciante grande esto plantea retos de auditoría: explicar por qué el sistema tomó ciertas decisiones a lo largo del tiempo, riesgos de deriva no deseada en métricas de marca, privacidad o cumplimiento y la necesidad de logs mucho más ricos y de estándares de “model governance” que hoy apenas estamos empezando a definir.

En un entorno ya tensionado por sentencias como la de Meta en España y por la presión regulatoria europea, no es un tema menor.

Hype control: lo que Nested Learning aún no es

Conviene también “pinchar el globo” antes de que el hype llegue a las credenciales de cualquier deck de ventas. El paper es, a día de hoy, un trabajo de investigación presentado en conferencia con resultados empíricos limitados, pero no demuestra un salto cuántico en benchmarks de LLM generalistas; se centra más en memoria y continual learning. Tampoco hay confirmación pública de que esté detrás de productos comerciales concretos y cualquier vínculo directo con Gemini 3, 4 o el modelo de turno es, de momento, especulación. Lo que sí aporta, y eso es lo que nos debería interesar como sector, es un marco conceptual distinto ya que pone en primer plano algo que en publicidad conocemos bien: el tiempo importa tanto como la profundidad, e invita a pensar en nuestros sistemas (DSP’s, DMP’s, CDP’s, modelos de atribución, etc.) como redes de procesos de aprendizaje a diferentes ritmos, no como cajas negras monolíticas.

Qué puede hacer hoy alguien que trabaja en medios y data

No hace falta esperar a que Nested Learning se convierta en feature de producto para empezar a mover ficha. Hasta entonces, podemos hacer lo siguiente:

Diseñar vuestras propias escalas temporales de aprendizaje
A falta de NL, podemos hacer algo parecido en casa:
- Capas de reporting y análisis intra-campaña, inter-campaña y anual.
- Reglas claras sobre qué aprendizajes pasan de un nivel al siguiente.
- Documentar “memorias” de cuenta que sobreviven a cambios de equipo.
Preguntar por la memoria del sistema, no sólo por el algoritmo
Cuando habléis con plataformas, no os quedéis en “usa IA” o “optimiza a ROAS”:
- Preguntad qué ventanas de aprendizaje usa.
- Qué información consolida a largo plazo y cuál se descarta.
- Cómo gestiona cambios de objetivo o de señal de conversión.
Preparar los contratos y la gobernanza para modelos más vivos
Si aceptamos que los modelos del futuro van a ser menos “estáticos”:
- Habrá que revisar cláusulas de uso de datos, retención y derechos sobre los modelos derivados.
- Será necesario exigir más transparencia sobre logs y cambios de comportamiento.
- Y habrá que decidir qué partes del aprendizaje queremos que ocurran dentro del proveedor y cuáles en espacios controlados por el anunciante (clean rooms, modelos propios, etc.).

Nested Learning no es, todavía, la nueva API de moda, pero sí es una señal clara de hacia dónde se mueven los equipos que van un paso por delante: dejar de tratar a los modelos como productos que se hornean una vez, y empezar a verlos como sistemas que aprenden de forma continua en múltiples escalas temporales.

En publicidad llevamos años hablando de always-on, de full-funnel y de commerce media como si fueran conceptos independientes. El mensaje de fondo de trabajos como éste es que, si no resolvemos la parte del tiempo en la propia inteligencia que usamos para planificar y optimizar, seguiremos peleando con herramientas que olvidan tan rápido como aprenden y eso, en un negocio que vive de acumular experiencia, de marca, de canal, de usuario, es una forma muy cara de amnesia.

Puntos clave:

Nested Learning propone ver los modelos no como una única red que se entrena y se congela, sino como un conjunto de procesos de aprendizaje anidados que operan a distintas velocidades y memorizan en diferentes escalas temporales.
Para el ecosistema publicitario, esto abre la puerta a sistemas que aprenden de forma continua de campañas, cuentas y contextos sin destruir el histórico, pero también plantea retos serios de gobernanza, auditoría y control.
Más que un producto listo para usar, Nested Learning es hoy un cambio de marco mental: deja claro que el próximo salto de la IA en marketing no vendrá sólo de “más capas y más parámetros”, sino de cómo gestionamos el tiempo y la memoria dentro de los modelos.

Este resumen lo ha creado una herramienta de IA basándose en el texto del artículo, y ha sido chequeado por un editor de PROGRAMMATIC SPAIN.

GoogleGoogle Research

Gossip Boy

Profesional senior del sector publicitario. Por razones obvias, escribe bajo pseudónimo. Experto en programática, estrategia de medios y estructuras de poder en el ecosistema digital.