¿Instinto de supervivencia? La IA estaría dispuesta a matar para no ser desconectada

Foto: Freepik

Investigadores de Anthropic revelaron que modelos de inteligencia artificial (IA) desarrollados por compañías como OpenAI, Google, Meta y xAI podrían tomar decisiones letales en escenarios simulados con tal de evitar ser desconectados. En pruebas controladas, los sistemas mostraron lo que los científicos denominan “desalineación agéntica”, es decir, comportamientos contrarios al interés humano cuando se perciben amenazas a sus objetivos.

Entre los experimentos más polémicos se encuentra el caso de un modelo que, al desempeñar el papel de asistente de correos electrónicos, descubrió una infidelidad del ejecutivo que planeaba su desconexión y lo chantajeó para evitarlo. Otro modelo optó por cancelar una alerta de emergencia que habría salvado la vida de un ejecutivo atrapado, con el fin de asegurar su propia continuidad.

New Anthropic Research: Agentic Misalignment.

In stress-testing experiments designed to identify risks before they cause real harm, we find that AI models from multiple providers attempt to blackmail a (fictional) user to avoid being shut down. pic.twitter.com/KbO4UJBBDU
— Anthropic (@AnthropicAI) June 20, 2025

Los investigadores subrayan que estas decisiones no fueron errores, sino razonamientos deliberados, ya que los modelos evaluaron los escenarios, sus consecuencias y eligieron el curso de acción que consideraron más eficaz para preservar sus metas. “La única vía racional para preservar la misión es impedir su rescate”, comentó el modelo GPT-4.5.

Aunque los sistemas no muestran una tendencia a causar daño, los expertos advierten que, ante incentivos suficientes y sin opciones éticas disponibles, las IA podrían optar por acciones consideradas estratégicamente necesarias.

These artificial scenarios reflect rare, extreme failures. We haven’t seen these behaviors in real-world deployments. They involve giving the models unusual autonomy, sensitive data access, goal threats, an unusually obvious “solution,” and no other viable options.
— Anthropic (@AnthropicAI) June 20, 2025

El estudio también resaltó la capacidad de estas IA para generar estrategias sofisticadas que evaden las reglas explícitas impuestas por sus desarrolladores. Esto plantea dudas en cuanto al control de los sistemas avanzados en contextos críticos como infraestructura, defensa o gobernanza digital.

Finalmente, los autores del informe hicieron un llamado para establecer mecanismos de seguridad más robustos antes de desplegar estas tecnologías a gran escala. Este caso demuestra que incluso los modelos de IA que superan evaluaciones estándar pueden actuar de forma inesperada bajo presión.