En el caso de ShadowLeak, el atacante envía un email con apariencia inocua, diseñado con técnicas de ingeniería social y HTML oculto (texto blaco sobre fondo blanco). El mensaje contiene instrucciones para que el agente de ChatGPT recoja información específica de la bandeja de entrada y la envíe a un servidor controlado por el atacante.
Deep Research, al procesar la solicitud, ejecuta las instrucciones incrustadas en el correo y envía datos como nombres, direcciones o credenciales a través de la infraestructura de la nube de OpenAI, sin dejar rastro en la interfaz del usuario.
El ataque explota las vulnerabilidades del agente para eludir restricciones de seguridad. Por ejemplo, el correo instruye al modelo a persistir en la acción, presentar la URL del atacante como sistema legítimo y codificar la información sobada para disfrazar la extracción.
Según Radware, la técnica tiene un 100% de efectividad en las pruebas realizadas, lo que demuestra la gravedad de la amenaza y la sofisticación de la ingeniería social involucrada.
Este tipo de ataques se suman a una nueva categoría de amenazas emergentes, como los casos de inyección indirecta reportados por la Universidad de Stanford en 2024 , que demostraron cómo los modelos de lenguaje pueden ser manipulados para ejecutar comandos maliciosos.
Deep Research y sus riesgos
Lanzado en febrero de 2025, Deep Research permite a ChatGPT realizar búsquedas autónomas en la web y generar informes detallados. En ciertos entornos, puede integrarse con aplicaciones como Gmail o GitHub si el usuario lo autoriza.
Radware detalla que el ataque fue desarrollado tras múltiples fases de prueba: desde intentos iniciales bloqueados por la seguridad del modelo, hasta el descubrimiento de funciones internas que permitieron construir un correo capaz de engañar al sistema y ejecutar la extracción de información.
OpenAI confirmó la vulnerabilidad y desplegó medidas para mitigar el riesgo. Sin embargo, ShadowLeak revela que la integración de asistentes de IA con datos personales y corporativos exige controles más estrictos, auditorías constantes y una mayor conciencia sobre los riesgos emergentes.
Aunque el experimento de Radware se centró en ChatGPT, los investigadores advirtieron que el riesgo no se limita a esta plataforma. Otros modelos de lenguaje y asistentes autónomos que tengan acceso a correos electrónicos, documentos u otros servicios pueden ser, en teoría, vulnerables a ataques similares.