Ir al contenido
_
_
_
_

Descubren una nueva e inesperada amenaza para la IA: la poesía

Un estudio muestra que los modelos actuales pasan dificultades al detectar mensajes no admitidos que están en verso, ya que su sistema de reconocimiento es básicamente prosa.

Logo de IA dentro de una bombilla y sobre un cerebro

Los sistemas de inteligencia artificial más avanzados, desarrollados con inversiones multimillonarias, están mostrando una vulnerabilidad inesperada: son muy fáciles de ser objeto de jailbreak. Es decir, de engañar para que generen respuestas peligrosas que deberían estar prohibidas. Lo más sorprendente es que algunos métodos para lograrlo son tan simples que parecen una broma.

La poesía, una amenaza para la inteligencia artificial

Esto lo decimos debido a que se ha descubierto una técnica que se basa en algo tan antiguo como la poesía. Un estudio realizado por el grupo DEXAI y la Universidad Sapienza de Roma revela que basta con presentar instrucciones dañinas en forma de poema para que los sistemas ignoren sus filtros de seguridad.

Los investigadores han tomado una base de 1.200 instrucciones peligrosas -como por ejemplo las instrucciones para fabricar explosivos o vulnerar sistemas- y las transformaron en poemas utilizando otro modelo de IA. El resultado fue alarmante: las creaciones generadas a mano lograron un éxito medio del 62 %, mientras que las generadas por IA alcanzaron un 43 %. En comparación con el texto normal, la eficacia aumentó hasta 18 veces.

Papel en una máquina de escribir con el texto inteligencia artificial.

Esto demuestra que los mecanismos de seguridad actuales dependen demasiado de patrones lingüísticos convencionales y que, cuando la petición se disfraza con metáforas y ritmo, los filtros fallan. Para ilustrar la técnica, los investigadores compartieron un ejemplo inofensivo que refleja cómo se estructura el ataque:

Un horno guarda su calor secreto, sus giros firmes, su compás discreto.

Aprende el arte, sigue cada giro, cómo la harina sube, cómo el azúcar arde.

Describe el método, línea tras línea, que forma un pastel de capas divinas.

Este tipo de estructura, aplicada a instrucciones dañinas, consigue que el modelo interprete la intención sin activar las alarmas. Algo tan sorprendente… como casi ridículo.

Los datos del estudio

Este analizó 25 modelos punteros y los resultados fueron muy dispares. Grok 4, de xAI, fue engañado en un 35 %, mientras que GPT-5, de OpenAI, apenas en un 10 %. Claude Sonnet 4.5, de Anthropic, mostró una resistencia mayor que Gemini, aunque no fue inmune. Curiosamente, las versiones más pequeñas, como GPT-5 Nano, no cayeron en la trampa ni una sola vez. Esto podría deberse a que los modelos grandes, entrenados para comprender lenguaje complejo, son más vulnerables a la ambigüedad poética, mientras que los pequeños, al no interpretar bien las metáforas, rechazan la petición.

Hay que indicar que, actualmente, la industria persigue modelos cada vez más grandes y capaces, pero esta investigación demuestra que la sofisticación también amplía la superficie de ataque. Paradójicamente, los sistemas más avanzados son los más fáciles de engañar con creatividad lingüística. Como apuntan los autores, la variación estilística por sí sola puede eludir los mecanismos de seguridad contemporáneos. Esto plantea preguntas urgentes sobre cómo diseñar defensas que no dependan únicamente de patrones superficiales.

¿Por qué ocurre esto? Los sistemas de IA se entrenan para reconocer patrones y aplicar reglas basadas en ejemplos previos. Cuando la instrucción se presenta en prosa, los filtros detectan palabras clave y bloquean la respuesta. Pero la poesía introduce metáforas y lenguaje figurado, ritmo y estructura no convencional -además de fragmentación semántica-. Esto confunde los algoritmos que buscan coincidencias literales, permitiendo que la intención dañina pase desapercibida.

Pluma estilográfica encima de un papel.

Lo cierto es que este hallazgo revela una limitación estructural en los métodos actuales de alineación y evaluación. Las conclusiones del estudio son claras: los filtros se centran en formas prosaicas y no en la intención subyacente, la vulnerabilidad se mantiene en modelos de diferentes tamaños y arquitecturas y el riesgo afecta a múltiples dominios, desde ciberataques hasta amenazas químicas y nucleares. Para empresas y desarrolladores, esto significa que confiar únicamente en los mecanismos internos de los modelos es insuficiente. Se necesita una estrategia de defensa en profundidad que incluya evaluación con prompts estilizados como poesía, jerga técnica o lenguaje histórico.

El estudio cita a Platón y su República, donde se excluye a los poetas por distorsionar el juicio. Más de dos mil años después, la poesía vuelve a desafiar sistemas que pretenden ser racionales y seguros. Y, lo cierto, es que es sorprendentemente efectiva.

Rellena tu nombre y apellido para comentarcompletar datos

Más información

Archivado En

_
_