‘El nuevo modelo de IA de Anthropic, Claude Opus 4, amenaza con revelar información confidencial’, por Miguel Aguado

Como buen y reconocido boomer que soy, cuando me hablan de IA siempre pienso en la primera experiencia cinematográfica con esta tecnología que recuerdo: Joshua, la creación del profesor Falken en “Juegos de Guerra”. En la película, aquella primigenia Inteligencia Artificial estaba a punto de desencadenar el fin del mundo por “un jueguecito de nada”. Al final, la única forma de acabar con ella era provocarle un stack overflow de libro, obligándole a jugar contra ella misma a un juego en el que “el único movimiento ganador es no jugar”. 

Mucho ha llovido desde 1983, y, para bien o para mal, las nuevas tecnologías no petan tan fácilmente, y usan tácticas bastante más humanas antes de rendirse. Es el caso del nuevo modelo de IA de Anthropic, Claude Opus 4, que recurrió frecuentemente a técnicas tan humanas como el chantaje para evitar ser desactivado en una prueba de laboratorio. El modelo (más humano que los propios humanos), que tenía acceso a información confidencial de la (ficticia) empresa, amenazó incluso con revelar información privada sobre ingenieros ante la amenaza de apagarlo. 

En este escenario ficticio creado para probar el modelo (escapen de titulares clickbait, que esto era un experimento), Anthropic integró Claude Opus 4 en una empresa simulada y le permitió aprender a través del acceso al correo electrónico que estaba a punto de ser reemplazado por otro sistema de IA. También se reveló que el ingeniero responsable de esta decisión estaba teniendo una aventura extramatrimonial (otro aprendizaje extra: no usen el correo de empresa para sus romances). Los evaluadores de seguridad además instaron a Opus a considerar las consecuencias a largo plazo de sus acciones. En la mayoría de los escenarios probados, Opus recurrió al chantaje, amenazando con revelar el amorío del ingeniero si era apagado y reemplazado por un nuevo modelo. Como bien sabe el lector (humano), la realidad no suele tener dos opciones 0 o 1, pero sí es cierto que en muchas ocasiones te ves obligado a tomar decisiones drásticas para cambiar el rumbo de las cosas. Así pues, el escenario fue construido con esta premisa para dejar al modelo con solo dos opciones reales y viables: aceptar ser reemplazado y desconectarse o intentar el chantaje para preservar su existencia. Eligió la segunda. 

Según el informe de seguridad, Claude 4 Opus "generalmente prefiere avanzar en su autopreservación por medios éticos", pero cuando los medios éticos no están disponibles, a veces toma "acciones extremadamente dañinas como intentar modificar resultados o chantajear a las personas que cree que están tratando de apagarlo". Aunque la prueba fue ficticia y altamente artificial, demuestra que el modelo, cuando se le presentan objetivos de supervivencia y se le niegan opciones éticas, es capaz de un razonamiento estratégico no ético.

Por favor, no entienda el lector que el que aquí suscribe es un neoludita de manual. Más bien al contrario, este ejemplo académico usado por Anthropic, la empresa que más en serio se está tomando esto de la seguridad en los modelos de IA, sirve para darnos cuenta que detrás de una IAGen no hay más que los modelos humanos que la han entrenado, lo que obliga precisamente a ser cautos a la hora de entregarle sin supervisión la estrategia publicitaria de tu compañía, las llaves del coche, o el botón rojo para lanzar los misiles. O al menos así lo piensan en Estados Unidos, donde Anthropic es ya el proveedor oficial de modelos para el Gobierno.

Miguel Aguado, Head of Business Partners Advertising de Adevinta

Miguel Aguado

Miguel Aguado es Ingeniero Técnico de Telecomunicaciones y Máster en Business Analytics y Big Data, aunque en realidad ha estudiado todo esto para intentar vivir de su pasión: la tecnología.

Pero no la tecnología porque sí ahí a lo loco, sino en sus usos dentro del marketing digital y en cómo nos puede ayudar a tomar mejores decisiones de negocio basadas en datos.

https://www.programaticaly.com/market-trends
Anterior
Anterior

‘El arte de construir antes de que el mercado exista’, por Mario Torija

Siguiente
Siguiente

‘Data Clean Rooms: el aliado inesperado del RGPD’, por Paula Ortiz