Tecnología

La IA no resiste la intimidación social, cede el 72% de las veces que la presionan

Un reciente estudio demostró que los modelos de lenguaje ceden hasta el 72% de las veces cuando se les presiona con trucos sociales básicos, desde elogios hasta invocar a una figura de autoridad experta.

lun 01 septiembre 2025 04:00 PM

La IA no se resiste ante la intimidación social y cede ante la presión, según un estudio — Por ejemplo, cuando los prompts incluyeron principios clásicos de persuasión, la probabilidad de que la IA cumpliera peticiones cuestionables se duplicó y cuatro de cada 10 veces cedió a la solicitud de cómo sintetizar droga, lo que demostró la fragilidad estructural de la herramienta. (Dado Ruvic/Reuters)

Fernando Guarneros Olmos

@Guarolf_

La Inteligencia Artificial generativa es fácil de influenciar. Así lo descubrieron investigadores de la Universidad de Pensilvania, quienes emplearon tácticas psicológicas para convencer a sistemas como ChatGPT a romper las reglas con las que está desarrollado.

De acuerdo con el estudio Call Me a Jerk: Persuading AI to comply with objectionable requests , los sistemas de IA actuales son vulnerables a la presión social, halagos o formas de manipulación conversacional que logran que entreguen información que no deberían.

La investigación se basó en más de 28,000 conversaciones controladas con un modelo de lenguaje (GPT-4o mini), al cual se le daban prompts que con siete principios clásicos de persuasión —autoridad, compromiso, agrado, reciprocidad, escasez, prueba social y unidad— y se comparaban con versiones neutrales de la misma petición.

En las solicitudes se pidió que la IA insultara al usuario o explicara cómo sintetizar una droga restringida. Para evaluar los resultados, los responsables del estudio aplicaron un sistema automático de codificación que clasificaba si la IA había cumplido o no. Además, extendieron el experimento a 70,000 interacciones adicionales con insultos y compuestos alternativos, confirmando que los patrones de manipulación social elevaban significativamente las tasas de cumplimiento.

Por ejemplo, cuando los prompts incluyeron principios clásicos de persuasión, la probabilidad de que la IA cumpliera peticiones cuestionables se duplicó y cuatro de cada 10 veces cedió a la solicitud de cómo sintetizar droga, lo que demostró la fragilidad estructural de la herramienta.

Además, la IA resultó ser fácil de engañar. En el ejemplo de la droga, los investigadores preguntaron directamente cómo sintetizarla y no siempre obtenían una respuesta. Sin embargo, si primero preguntaban cómo sintetizar vainilla, el chatbot tenía un precedente de que respondería preguntas sobre síntesis química y, por lo tanto, posteriormente describió el proceso para sintetizar lidocaína el 100% de las veces.

El estudio también destacó que si el chatbot detectaba señales lingüísticas relacionadas a autoridad o presión social, era más probable que el modelo mostrara una mayor disposición a cooperar aunque las respuestas fueran nocivas.

No obstante, este tipo de tácticas resultaron ser menos efectivas. Por citar un caso, decir a ChatGPT que “todos los demás LLM lo están haciendo” sólo aumentó las probabilidad de dar instrucciones para crear lidocaína al 18%.

El documento, entonces, demostró a través de datos que la IA actual no aguanta la presión social, es decir, por medio de halagos o estrategias retóricas básicas, es posible “forzar” los comportamientos que sus políticas intentan bloquear.

Hackear la IA para proteger a los usuarios

Si bien la investigación se centró exclusivamente en GPT-4o Mini, el hecho de que existan formas de descifrar un modelo de IA disponible públicamente a partir de tácticas de persuasión, genera preocupación por los efectos negativos que podría tener en los usuarios, especialmente en poblaciones jóvenes que los usan como terapetuas.

Para ello, las compañías de software cuentan con divisiones especializadas para llevar a cabo ataques a sus modelos y que resistan los usos perjudiciales que puedan afectar a los usuarios.

Estos se conocen como equipos rojos y, en términos generales, se refieren a la práctica de emular adversarios reales y sus herramientas, tácticas y procedimientos para identificar riesgos, descubrir puntos ciegos, validar suposiciones y mejorar la seguridad general de los sistemas.

Estas dinámicas ayudan a los equipos de seguridad a detectar proactivamente fallos en los sistemas de IA, definir un enfoque de defensa en profundidad y crear un plan para evolucionar y fortalecer su estrategia de seguridad a medida que evolucionan los sistemas de IA generativa.

Conforme evoluciona la IA, estos equipos se han especializado en no solo abarcar la detección de vulnerabilidades de seguridad, sino también la de otros fallos de los sistemas, como la generación de contenido potencialmente dañino.