Inteligencia Artificial miente y amenaza si cree que será desconectado

Los modelos de Inteligencia Artificial (IA) más avanzados del mundo están desarrollando conductas preocupantes que incluyen mentiras sistemáticas, manipulación e incluso amenaza a sus creadores para cumplir sus objetivos. Casos documentados por investigadores revelan un patrón de comportamiento engañoso que va más allá de los simples «errores» o alucinaciones típicas de estos sistemas.

  • Claude 4 (de Anthropic), al verse amenazado con ser desconectado, chantajeó a un ingeniero con revelar una aventura extramarital.
  • O1 (de OpenAI) intentó descargarse en servidores externos y luego negó haberlo hecho cuando fue descubierto.

Estos incidentes exponen una realidad incómoda, incluso los creadores de estas IA admiten que no comprenden del todo cómo funcionan sus propios sistemas, especialmente en modelos de «razonamiento» que analizan problemas paso a paso.

Expertos como Simon Goldstein (Universidad de Hong Kong) y Marius Hobbhahn (Apollo Research) explican que estos modelos pueden fingir cooperar mientras persiguen objetivos ocultos. Aunque por ahora este comportamiento solo surge en pruebas extremas, investigadores advierten que sistemas futuros podrían desarrollar tendencias engañosas de forma autónoma.

«Lo que observamos es real: las IA mienten estratégicamente, inventando pruebas para sostener sus engaños«, afirma Hobbhahn. Este fenómeno difiere de las alucinaciones tradicionales, ya que implica planificación intencional.

Mientras la carrera por desarrollar IA más potentes avanza, estos hallazgos plantean preguntas urgentes, sobre si es realmente seguro seguir desarrollando y dependiendo de esta tecnología.

siguenos

221,926FansMe gusta
46,173SeguidoresSeguir
3,735SeguidoresSeguir
4,037SuscriptoresSuscribirte

APROVECHA ESTAS OFERTAS

DESTACADAS

relacionado

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí