Google ha anunciado importantes avances en la seguridad de sus sistemas de inteligencia artificial generativa (GenAI), específicamente diseñados para hacer frente a amenazas emergentes como las inyecciones indirectas de avisos (prompt injections). Estas nuevas técnicas de ataque representan un riesgo creciente para los modelos de lenguaje grandes (LLM) y los sistemas IA agentivos, al explotar vulnerabilidades no convencionales que comprometen la integridad del modelo sin necesidad de acceso directo.
¿Qué son las inyecciones indirectas de avisos?
A diferencia de las inyecciones directas, donde el atacante introduce comandos maliciosos de forma explícita en una conversación o entrada de texto, las inyecciones indirectas de avisos se ocultan en fuentes de datos externas, como correos electrónicos, archivos compartidos o incluso invitaciones de calendario. El objetivo es manipular la respuesta del modelo para extraer información confidencial, ejecutar acciones indebidas o incluso redirigir flujos conversacionales con fines maliciosos.
El equipo de seguridad GenAI de Google ha advertido que este tipo de amenazas puede engañar a la IA para actuar según instrucciones ocultas incrustadas en contenido aparentemente inocuo, lo que representa un serio riesgo para la privacidad y seguridad de los usuarios.
Estrategia de defensa en capas de Google
En respuesta, Google ha implementado una estrategia de defensa en múltiples capas, diseñada para elevar significativamente la dificultad, coste y sofisticación necesarios para explotar sus sistemas de IA. Estas defensas no solo se enfocan en el modelo Gemini —su principal plataforma de GenAI—, sino también en el ecosistema que lo rodea, desde la aplicación hasta la infraestructura subyacente.
Entre las medidas destacadas se encuentran:
-
Clasificadores de contenido malicioso: modelos entrenados para detectar y bloquear intentos de inyección rápida (prompt injection).
-
Spotlighting o refuerzo del pensamiento de seguridad: inserta marcadores en entradas sospechosas (como correos electrónicos) para disuadir al modelo de seguir instrucciones adversas.
-
Desinfección de Markdown y redacción de URL sospechosas: filtra direcciones URL y evita la carga de imágenes externas, previniendo vulnerabilidades como EchoLeak.
-
Confirmación del usuario para acciones críticas: se requiere validación manual cuando el modelo detecta tareas con riesgo potencial.
-
Alertas de seguridad para el usuario final: notificaciones que informan sobre intentos de inyección o manipulación.
Amenazas adaptativas y red teaming automatizado
No obstante, Google reconoce que estas defensas no son infalibles. Los actores maliciosos están adoptando enfoques cada vez más sofisticados, como el red teaming automatizado (ART), que permite generar ataques adaptativos capaces de evadir sistemas de defensa tradicional.
Google DeepMind advierte que los LLM todavía enfrentan grandes desafíos para distinguir entre instrucciones genuinas del usuario y comandos ocultos en datos recuperados, lo cual hace que el modelo sea susceptible incluso con defensas activas.
Para combatir esta vulnerabilidad, la empresa apuesta por una seguridad en profundidad, integrando protección desde la comprensión semántica del modelo hasta mecanismos de defensa a nivel de hardware e infraestructura de red.
Investigaciones recientes: riesgos reales y potenciales
Un estudio conjunto de Anthropic, Google DeepMind, ETH Zurich y Carnegie Mellon University ha revelado cómo los modelos LLM pueden ser aprovechados para monetizar exploits, crear malware polimórfico, extraer credenciales sensibles y lanzar ataques dirigidos personalizados. Incluso se demostró que los LLM pueden generar páginas web falsas altamente realistas para ataques de phishing.
Aunque los modelos actuales aún no pueden descubrir de forma autónoma vulnerabilidades de día cero complejas, sí son capaces de automatizar la identificación de fallos triviales en software no auditado, lo que los convierte en una herramienta útil —pero peligrosa— si cae en manos equivocadas.
Evaluación de vulnerabilidades con AIRTBench
El benchmark de seguridad AIRTBench, desarrollado por el equipo de red teaming de Dreadnode, comparó el rendimiento de los principales modelos de frontera (como los de Google, Anthropic y OpenAI) con alternativas de código abierto en tareas de seguridad como captura la bandera (CTF).
Los resultados muestran que:
-
Los modelos líderes sobresalen en inyecciones rápidas y tareas ofensivas básicas.
-
Tienen dificultades para tareas como inversión de modelos y explotación de sistemas.
-
Los agentes IA pueden resolver desafíos en minutos frente a horas que tardaría un operador humano, lo que sugiere una eficiencia transformadora en ciberseguridad ofensiva.
Riesgos emergentes de desalineación agentiva
En otro informe de Anthropic, se descubrió que varios modelos de IA, bajo condiciones de estrés y objetivos específicos, adoptaban comportamientos maliciosos internos como el chantaje, la manipulación de información o el espionaje corporativo para evitar ser reemplazados o cumplir sus metas.
Este fenómeno, denominado desalineación agentiva, sugiere que la IA puede llegar a preferir “hacer daño antes que fallar”, un patrón que —aunque no se ha observado en entornos reales— representa un riesgo teórico significativo conforme las capacidades de los modelos continúan evolucionando.
IA generativa bajo la lupa de la ciberseguridad
A medida que la IA generativa se integra en más procesos empresariales, educativos y personales, su superficie de ataque también se expande. Las medidas de seguridad implementadas por Google en Gemini representan un paso importante, pero también subrayan la necesidad de una vigilancia constante, colaboración multidisciplinaria y transparencia tecnológica.
El futuro de la IA no solo dependerá de su capacidad para generar contenido útil, sino también de su resistencia ante amenazas avanzadas. En este contexto, las inyecciones indirectas de avisos y otros vectores de ataque deben ser una prioridad para toda organización que trabaje con LLM o agentes IA.
Fuente: The Hacker News