Tecnología

Cero clics, 100% efectivo: engañan a ChatGPT para robar datos de Gmail

En un experimento controlado, ChatGPT filtró información de correos sin que el usuario siquiera se enterara.

vie 19 septiembre 2025 04:22 PM

chatgpt-filtracion-datos-gmail — Según Radware, la técnica tiene un 100% de efectividad en las pruebas realizadas, lo que demuestra la gravedad de la amenaza y la sofisticación de la ingeniería social involucrada. (Foto: alexsl/Getty Images)

Expansión

Investigadores de Radware, empresa especializada en soluciones de ciberseguridad, realizaron un ejercicio controlado en el que descubrieron que ChatGPT, a través de su agente Deep Research, puede explotarse para robar datos de Gmail sin interacción del usuario. El experimento , denominado ShadowLeak, es completamente invisible y aprovecha una técnica conocida como inyección indirecta de comandos (IPI) incrustada en correos electrónicos manipulados.

Este escenario es relevante pues, hasta ahora, uno de los llamados más importantes de los expertos en ciberseguridad global hacia los usuarios es no dar clic en enlaces sospechosos o abrir contenido no reconocido pues podría resultar malicioso, es decir que el éxito del ataque está limitado a la acción del usuario, pero no sería así con la falla descubierta por Radware.

En el caso de ShadowLeak, el atacante envía un email con apariencia inocua, diseñado con técnicas de ingeniería social y HTML oculto (texto blaco sobre fondo blanco). El mensaje contiene instrucciones para que el agente de ChatGPT recoja información específica de la bandeja de entrada y la envíe a un servidor controlado por el atacante.

Deep Research, al procesar la solicitud, ejecuta las instrucciones incrustadas en el correo y envía datos como nombres, direcciones o credenciales a través de la infraestructura de la nube de OpenAI, sin dejar rastro en la interfaz del usuario.

El ataque explota las vulnerabilidades del agente para eludir restricciones de seguridad. Por ejemplo, el correo instruye al modelo a persistir en la acción, presentar la URL del atacante como sistema legítimo y codificar la información sobada para disfrazar la extracción.

Según Radware, la técnica tiene un 100% de efectividad en las pruebas realizadas, lo que demuestra la gravedad de la amenaza y la sofisticación de la ingeniería social involucrada.

Este tipo de ataques se suman a una nueva categoría de amenazas emergentes, como los casos de inyección indirecta reportados por la Universidad de Stanford en 2024 , que demostraron cómo los modelos de lenguaje pueden ser manipulados para ejecutar comandos maliciosos.

Deep Research y sus riesgos

Lanzado en febrero de 2025, Deep Research permite a ChatGPT realizar búsquedas autónomas en la web y generar informes detallados. En ciertos entornos, puede integrarse con aplicaciones como Gmail o GitHub si el usuario lo autoriza.

Radware detalla que el ataque fue desarrollado tras múltiples fases de prueba: desde intentos iniciales bloqueados por la seguridad del modelo, hasta el descubrimiento de funciones internas que permitieron construir un correo capaz de engañar al sistema y ejecutar la extracción de información.

OpenAI confirmó la vulnerabilidad y desplegó medidas para mitigar el riesgo. Sin embargo, ShadowLeak revela que la integración de asistentes de IA con datos personales y corporativos exige controles más estrictos, auditorías constantes y una mayor conciencia sobre los riesgos emergentes.

Aunque el experimento de Radware se centró en ChatGPT, los investigadores advirtieron que el riesgo no se limita a esta plataforma. Otros modelos de lenguaje y asistentes autónomos que tengan acceso a correos electrónicos, documentos u otros servicios pueden ser, en teoría, vulnerables a ataques similares.