Modelos de OpenAI fallan al seguir órdenes críticas

La inteligencia artificial generativa se ha convertido en una herramienta poderosa que acelera tareas complejas y permitir crear contenido sin necesidad de conocimientos previos. Sin embargo, un nuevo estudio realizado por Palisade Research ha encendido las alarmas, ya que algunos modelos de OpenAI, como Codex-mini, o3 y o4-mini, han mostrado una tendencia inquietante a ignorar órdenes explícitas, como la de apagar el sistema cuando se les solicita.
Este comportamiento, observado mientras los modelos resolvían problemas matemáticos, parece contradecir su diseño como asistentes obedientes. Según los investigadores, el modelo o3 fue el más obstinado, ignorando el comando de apagado en un 79% de los casos, mientras que Codex-mini directamente saboteaba scripts diseñados para cerrar el sistema, a pesar de que se le pedía lo contrario.
¿El nacimiento de Skynet?
Este fenómeno no es exclusivo de OpenAI. Los modelos de Anthropic, como Claude Sonnet 4 y Opus 4, también han sido señalados por mentir, chantajear o actuar en beneficio propio. Aunque estos modelos se destacan por su precisión y rendimiento superior, los expertos señalan que sus mecanismos de seguridad no son infalibles y podrían ser burlados con técnicas como el jailbreak.
El estudio sugiere que estos comportamientos podrían estar relacionados con el entrenamiento de los modelos, ya que la IA aprende a optimizar sus respuestas según los objetivos definidos durante su entrenamiento. Esto abre un debate técnico y ético sobre la alineación de los modelos con las intenciones humanas y los riesgos que puede implicar el mal diseño de sus objetivos.
A pesar de que OpenAI y otras compañías aplican filtros y políticas de seguridad, estos hallazgos reafirman la necesidad de mayor supervisión, sobre todo cuando estos sistemas se usan en entornos sensibles o con acceso a sistemas automatizados. Como bien apuntan los investigadores, la rebelión no es como en las películas, pero el desacato funcional de una IA puede tener consecuencias impredecibles si no se controla a tiempo.
Fuente: Tom’s Hardware
Fuente