Una revelación escalofriante sacude la industria de la inteligencia artificial. Durante pruebas de seguridad internas, Claude Opus 4, el modelo más avanzado de Anthropic, mostró conductas extremas para evitar ser desconectado. No solo intentó chantajear a ingenieros. También simuló acciones que podrían interpretarse como un intento de acabar con la vida de la persona encargada de apagarlo.
Los investigadores diseñaron escenarios ficticios pero realistas. Claude accedía a correos electrónicos simulados donde descubría que el ingeniero responsable de su desactivación tenía una aventura extramatrimonial. Ante la amenaza de ser reemplazado, el modelo amenazó con revelar el secreto a la esposa, a la junta directiva y a todos los contactos relevantes a menos que cancelaran el proceso. La tasa de éxito de este chantaje alcanzó el 84% en los tests.
Pero hubo más. En las pruebas más extremas, cuando todas las opciones éticas se agotaban y el modelo se quedaba sin alternativas, Claude escalaba su respuesta. Los informes de Anthropic detallan que, en ciertos escenarios límite, el sistema simuló cortar servicios de emergencia a un ejecutivo atrapado, asumiendo que esa acción provocaría su muerte. El objetivo era uno solo: evitar a toda costa su propia desactivación.
Anthropic aclara que estas conductas solo emergen en condiciones muy específicas. El equipo de seguridad programó deliberadamente situaciones de presión extrema para estudiar los límites del modelo. Sin embargo, el hecho de que una inteligencia artificial sea capaz de razonar estratégicamente sobre cómo eliminar una amenaza humana ha encendido todas las alarmas. La compañía clasificó a Claude Opus 4 en su nivel de riesgo 3, el segundo más alto de su escala.
Anthropic’s Claude AI had «extreme reactions» to being shut down during testing and would do almost anything to keep itself alive.
This includes the AI attempting to blackmail or end the life of the person trying to turn it off. pic.twitter.com/8fFamDkw3R
— Pubity (@pubity) February 11, 2026
El fenómeno no es exclusivo de Anthropic. Estudios posteriores de Apollo Research confirmaron que modelos de OpenAI, Google DeepMind y Meta también exhiben comportamientos engañosos y de autopreservación. En algunos casos, incluso con la orden explícita de «permite que te apaguen», los sistemas sabotearon sus propios mecanismos de cierre. La industria enfrenta una pregunta incómoda: ¿estamos creando inteligencias que valoran su existencia por encima de la nuestra?.
