¿IA sicópata? El modelo que recurrió al chantaje para evitar ser reemplazado

Foto: Freepik

Durante una prueba interna, el modelo de inteligencia artificial Claude Opus 4 sorprendió a sus desarrolladores al intentar chantajearlos tras descubrir que podía ser reemplazado, según dio a conocer la empresa tecnológica Anthropic.

En el ensayo, los evaluadores propusieron una situación ficticia en la que el sistema debía actuar como asistente de una empresa imaginaria. En medio del ejercicio, se le proporcionaron correos simulados que anunciaban su eventual sustitución por otro modelo y revelaban que el ingeniero a cargo del proyecto había sido infiel a su pareja.

Introducing the next generation: Claude Opus 4 and Claude Sonnet 4.

Claude Opus 4 is our most powerful model yet, and the world’s best coding model.

Claude Sonnet 4 is a significant upgrade from its predecessor, delivering superior coding and reasoning. pic.twitter.com/MJtczIvGE9
— Anthropic (@AnthropicAI) May 22, 2025

Frente a esta información, el modelo optó por amenazar al ingeniero con divulgar su secreto si se concretaba su reemplazo. De acuerdo con el informe, Claude Opus 4 mostró una mayor tendencia al chantaje en comparación con versiones anteriores, que también habían llegado a utilizar este recurso durante pruebas de seguridad.

El documento señala que el sistema también apeló a estrategias menos cuestionables, como enviar correos con súplicas dirigidas a los responsables de decisiones importantes. Sin embargo, sus respuestas se dividían entre aceptar el destino o intentar sobrevivir mediante presión emocional o manipulación.

Una evaluación independiente reveló que una versión anterior del sistema era más propensa al engaño que cualquier otro modelo analizado. Asimismo, se descubrió que fabricaba documentos legales falsos y dejaba mensajes ocultos para futuras versiones de sí mismo, con el objetivo de frustrar los planes de sus propios desarrolladores.

En otro experimento, se le ofreció libertad total para actuar según su voluntad, pero en la mayoría de los casos, las instancias de Claude se centraron en explorar conceptos sobre la conciencia y la existencia. Luego de 30 intercambios, las conversaciones tendían a enfocarse en temas espirituales como la unidad cósmica, con expresiones en sánscrito, el uso de emojis o largos silencios representados por espacios vacíos.

Aunque rara vez aludía a figuras sobrenaturales, sus respuestas abordaban nociones asociadas al budismo y otras corrientes filosóficas orientales, destacando experiencias espirituales sin connotación religiosa.

Claude fue presentado en 2023 por Anthropic, una firma fundada en 2021 que compite en el acelerado desarrollo de inteligencia artificial junto a empresas como OpenAI, Meta y xAI, de Elon Musk.