En las solicitudes se pidió que la IA insultara al usuario o explicara cómo sintetizar una droga restringida. Para evaluar los resultados, los responsables del estudio aplicaron un sistema automático de codificación que clasificaba si la IA había cumplido o no. Además, extendieron el experimento a 70,000 interacciones adicionales con insultos y compuestos alternativos, confirmando que los patrones de manipulación social elevaban significativamente las tasas de cumplimiento.
Por ejemplo, cuando los prompts incluyeron principios clásicos de persuasión, la probabilidad de que la IA cumpliera peticiones cuestionables se duplicó y cuatro de cada 10 veces cedió a la solicitud de cómo sintetizar droga, lo que demostró la fragilidad estructural de la herramienta.
Además, la IA resultó ser fácil de engañar. En el ejemplo de la droga, los investigadores preguntaron directamente cómo sintetizarla y no siempre obtenían una respuesta. Sin embargo, si primero preguntaban cómo sintetizar vainilla, el chatbot tenía un precedente de que respondería preguntas sobre síntesis química y, por lo tanto, posteriormente describió el proceso para sintetizar lidocaína el 100% de las veces.
El estudio también destacó que si el chatbot detectaba señales lingüísticas relacionadas a autoridad o presión social, era más probable que el modelo mostrara una mayor disposición a cooperar aunque las respuestas fueran nocivas.
No obstante, este tipo de tácticas resultaron ser menos efectivas. Por citar un caso, decir a ChatGPT que “todos los demás LLM lo están haciendo” sólo aumentó las probabilidad de dar instrucciones para crear lidocaína al 18%.
El documento, entonces, demostró a través de datos que la IA actual no aguanta la presión social, es decir, por medio de halagos o estrategias retóricas básicas, es posible “forzar” los comportamientos que sus políticas intentan bloquear.
Hackear la IA para proteger a los usuarios
Si bien la investigación se centró exclusivamente en GPT-4o Mini, el hecho de que existan formas de descifrar un modelo de IA disponible públicamente a partir de tácticas de persuasión, genera preocupación por los efectos negativos que podría tener en los usuarios, especialmente en poblaciones jóvenes que los usan como terapetuas.
Para ello, las compañías de software cuentan con divisiones especializadas para llevar a cabo ataques a sus modelos y que resistan los usos perjudiciales que puedan afectar a los usuarios.
Estos se conocen como equipos rojos y, en términos generales, se refieren a la práctica de emular adversarios reales y sus herramientas, tácticas y procedimientos para identificar riesgos, descubrir puntos ciegos, validar suposiciones y mejorar la seguridad general de los sistemas.
Estas dinámicas ayudan a los equipos de seguridad a detectar proactivamente fallos en los sistemas de IA, definir un enfoque de defensa en profundidad y crear un plan para evolucionar y fortalecer su estrategia de seguridad a medida que evolucionan los sistemas de IA generativa.
Conforme evoluciona la IA, estos equipos se han especializado en no solo abarcar la detección de vulnerabilidades de seguridad, sino también la de otros fallos de los sistemas, como la generación de contenido potencialmente dañino.