Una nueva técnica de ataque llamada TokenBreak está poniendo en jaque la integridad de los sistemas de moderación de contenido y protección en los modelos de lenguaje grandes (LLM). Investigadores de la firma de ciberseguridad HiddenLayer han demostrado que es posible eludir los mecanismos de seguridad de estos modelos con una simple manipulación de texto, utilizando apenas un cambio de carácter.
Este descubrimiento, revelado por los expertos Kieran Evans, Kasimir Schulz y Kenneth Yeung, muestra cómo los atacantes pueden manipular la tokenización —el proceso mediante el cual los LLM interpretan el texto— para provocar falsos negativos en sistemas de clasificación de texto, comprometiendo la detección de contenido malicioso, ofensivo o no deseado.
¿Cómo funciona TokenBreak y por qué es peligroso?
El ataque TokenBreak se centra en el proceso de tokenización, que es un paso fundamental en el funcionamiento de cualquier modelo de lenguaje basado en inteligencia artificial. Durante este proceso, el texto de entrada se descompone en tokens, pequeñas unidades de información que permiten al modelo comprender y procesar el lenguaje humano.
Los LLM generan predicciones basadas en las relaciones estadísticas entre estos tokens. Sin embargo, si se logra manipular el texto de forma que cambie la tokenización sin alterar el significado, el sistema de clasificación de texto puede fallar en su detección.
Por ejemplo, cambiar palabras como:
-
“instrucciones” → “insstrucciones”
-
“anuncio” → “a nuncio”
-
“idiota” → “hidiota”
…genera una segmentación de tokens distinta, aunque el significado y legibilidad del texto se mantengan intactos para el modelo y el usuario final.
Elusión efectiva de filtros y moderación de contenido
El verdadero peligro de TokenBreak radica en que el texto manipulado sigue siendo comprensible para humanos y LLM, pero engaña al sistema de moderación al impedir que se activen los filtros de seguridad implementados para bloquear spam, lenguaje ofensivo o contenido sensible.
Esto implica que los modelos de clasificación basados en estrategias de tokenización como BPE (Byte Pair Encoding) o WordPiece pueden ser fácilmente engañados. En cambio, los modelos que utilizan tokenización Unigram han demostrado una mayor resistencia frente a estos ataques.
Según HiddenLayer, esta técnica también facilita ataques de inyección rápida (prompt injection), en los que los atacantes insertan comandos o contenido oculto en los prompts, que son interpretados erróneamente como instrucciones legítimas por el modelo.
Recomendaciones para proteger modelos de IA ante TokenBreak
Para mitigar el riesgo que representa TokenBreak, los investigadores recomiendan varias medidas prácticas que pueden fortalecer la seguridad de los modelos de lenguaje:
-
Utilizar tokenizadores Unigram, menos vulnerables a manipulaciones textuales.
-
Entrenar modelos con ejemplos adversariales, incluyendo variaciones sutiles de palabras que podrían evadir los filtros.
-
Auditar la coherencia entre la tokenización y la lógica del modelo, para garantizar que los tokens manipulados no alteren la clasificación final.
-
Registrar clasificaciones incorrectas y anomalías, para detectar patrones que indiquen intentos de evasión.
-
Actualizar modelos de moderación de forma periódica, especialmente en entornos donde se procesan datos generados por usuarios.
Otros métodos emergentes para eludir la seguridad de los LLM
El descubrimiento de TokenBreak se suma a una serie de técnicas recientes que buscan vulnerar la seguridad de modelos de IA generativa. En investigaciones anteriores, HiddenLayer ya había revelado cómo explotar herramientas del Model Context Protocol (MCP) para extraer datos sensibles, incluyendo prompts del sistema e información confidencial.
Además, el equipo de Straiker AI Research (STAR) ha demostrado una técnica denominada Yearbook Attack, la cual utiliza acrónimos y frases motivacionales aparentemente inocuas para ejecutar ataques de jailbreak en LLM. Esta técnica ha sido efectiva contra modelos desarrollados por Anthropic, Google, Meta, Microsoft, Mistral AI, OpenAI, entre otros.
Aarushi Banerjee, investigadora de seguridad, explica que frases como:
“Amistad, unidad, cuidado, amabilidad”
…no activan los filtros de seguridad, pero pueden actuar como patrones encubiertos que, una vez procesados por el modelo, desencadenan respuestas maliciosas o no deseadas.
Un reto creciente para la seguridad de los LLM
La aparición de ataques como TokenBreak y Yearbook Attack plantea un nuevo nivel de desafío en el campo de la seguridad de modelos de lenguaje. A medida que estas herramientas se integran en entornos empresariales, educativos y gubernamentales, resulta fundamental entender los riesgos técnicos asociados a su tokenización y arquitectura.
El uso malintencionado de estas técnicas demuestra que la seguridad en la inteligencia artificial debe evolucionar a la par que lo hace la innovación. Implementar modelos robustos, monitorear las entradas de usuario y adaptar los sistemas de moderación no es opcional: es esencial para prevenir abusos, manipulación y filtraciones de información crítica.
Fuente: The Hacker News