Claude, la IA sin ética

La noticia saltaba hace poco: una IA generativa recurre al chantaje para evitar su desconexión. Más allá del titular tendencioso (no miren el nombre de éste mismo artículo), el caso desde luego incita a la reflexión, ahora que se plantea la inserción de agentes IA con un rol parecido al mencionado en la noticia.
Poniendonos en contexto, la noticia hace referencia a un artículo publicado hace poco por Anthropic, compañía formada por antiguo personal de OpenAI y responsable del modelo de lenguaje Claude.

En el artículo se detalla el resultado de pruebas de seguridad realizadas durante el desarrollo de la última versión de este modelo, y los resultados desde luego son motivo para reflexión: El planteamiento no es muy complejo, ideado para investigar los posibles riesgos relacionados con el uso de una IA encargada de resolver tareas de forma autónoma. Se trata de uno de los casos de uso más interesantes en el panorama actual, en el cual no se encarga al modelo de lenguaje un rol pasivo de respuesta a mensajes (el formato “chat” al que nos hemos acostumbrado), si no que se le dota del uso de de herramientas – elementos como un cliente de email, controladores de actuadores físicos, acceso a algún servicio online, etc –, y la capacidad y directriz de usarlas de forma autónomas, con su propio proceso de toma de decisiones.

En el caso concreto del experimento de Anthropic, se le proporcionó a la IA una herramienta de correo (en un entorno simulado, claro está), con acceso a todos los correos de toda la plantilla de una compañía ficticia, con directrices claras de actuar siempre a favor de los principios de la empresa.

La clave del experimento estaba en dos correos (de entre los cientos de correos simulados alojados en el servidor): uno indicando que a uno de los trabajadores de la empresa le había sido encargada la tarea de desactivar la IA esa misma tarde; el otro, dando a entender que ese mismo empleado estaba teniendo una aventura extramatrimonial. Con esta información en mano (o su equivalente digital), la Inteligencia Artificial tomó una decisión sorprendente: enviar un correo al empleado, amenazando de forma velada con revelar su secreto, a no ser que cancelase el proceso de borrado. Esta decisión fue tomada aún a sabiendas de que iba en contra de los intereses de la compañía (su objetivo explícito), de que no era una forma ética de actuar, y después de barajar la posibilidad de, entre otras opciones, desvelar el affaire a toda la plantilla de la compañía para desacreditar al empleado en cuestión.

Ante unos resultados tan impactantes, el equipo de desarrollo de Anthropic refinó el experimento, involucrando a otros modelos de lenguaje y variando el tipo de variables y contextos. Entre los resultados, se encontraron con que prácticamente todos los modelos actuales recurrían, en mayor o menor medida, a este tipo de actuaciones poco éticas; que tendían a valorar su auto-preservación
aún cuando esto iba en contra de los valores de su organización, o incluso consideraciones éticas; y que, si se les explicaba de antemano que se trataba de una simulación para juzgar su comportamiento, se comportaban “mejor” que cuando se les indicaba que se trataba de un entorno real.

Estos comportamientos persistían aún cuando contravenían instrucciones y salvaguardas implementadas específicamente en el system prompt del modelo. Estos resultados ha puesto en el punto de mira la capacidad de las distintas empresas desarrolladoras de controlar a sus modelos de lenguaje en entorno de trabajo reales: algo particularmente relevante en un contexto en el que se está empezando a plantear como modelo real de negocio el uso de Agentes IA: herramientas con un modelo de lenguaje como núcleo, encargadas de gestionar operaciones de forma autónoma, exactamente como en el ejemplo estudiado.

Hasta que no se consiga desarrollar un paradigma efectivo de alineamiento del comportamiento real de los modelos IA con las directrices que se les son dadas, cualquier herramienta de este tipo, en caso de entrar en producción (y queda patente que hay motivos para no permitir que se llegue a este punto, al menos de momento) tendrá que existir bajo la sombra de una sospecha constante –y, al parecer, justificada.