Envenenamiento de contenido IA: el modelo de amenazas para tu marca en la búsqueda con IA
Un atacante puede corromper lo que ChatGPT, Perplexity y Gemini dicen de tu marca mediante envenenamiento de datos y de RAG. Aquí tienes el modelo de amenazas y el manual de defensa.
Fundadora 10 min de lectura
Resumir con IA Abrir este artículo en tu asistente preferido
En este artículo
Un atacante puede cambiar lo que los modelos de IA dicen sobre tu marca, y la investigación demuestra ahora que requiere mucho menos esfuerzo del que la mayoría de los equipos asume. El envenenamiento de datos, la inyección de prompts y el envenenamiento de recuperación ya no son teóricos: estudios revisados por pares y confirmados en laboratorio han medido el coste, y es bajo. Esto no es la cuestión reactiva de limpiar una respuesta errónea a posteriori (eso lo cubrimos en nuestro artículo sobre cómo corregir menciones de marca incorrectas en la búsqueda con IA). Esto es el modelo de amenazas de seguridad: cómo se corrompe a propósito la reputación de una marca en la búsqueda con IA, y la defensa proactiva que eleva el coste de hacerlo.
Léelo como un modelo de amenazas. Identifica las superficies, comprende los ataques y construye la columna vertebral.
¿Qué es el envenenamiento de contenido IA y por qué es un problema de seguridad?
El envenenamiento de contenido IA es la corrupción deliberada de los datos sobre los que un modelo de lenguaje entrena o de los que recupera información, de modo que el modelo produce la salida elegida por el atacante. Cuando el objetivo es una marca, la salida es lo que ChatGPT, Perplexity, Gemini o Claude le cuentan a un comprador sobre tu empresa, tus productos, tu postura de seguridad o tu liderazgo.
Esto pertenece a la columna de seguridad, no a la de marketing. El Top 10 para Aplicaciones LLM 2025 del OWASP Gen AI Security Project sitúa la Inyección de prompts como LLM01 (el riesgo mejor clasificado) y el Envenenamiento de Datos y Modelos como LLM04, con una categoría dedicada de Desinformación junto a ellos. Son vulnerabilidades de aplicación reconocidas, con el mismo estatus que los fallos de inyección o el control de acceso roto. La diferencia es el radio de impacto: la salida corrompida aterriza en la superficie de respuesta en la que tus compradores ahora confían más que en tu propia página de inicio.
Tres familias de ataque importan para las marcas.
Envenenamiento de entrenamiento. El atacante planta contenido allí donde los modelos extraen datos de entrenamiento (páginas web abiertas, foros, repositorios, archivos) de modo que la afirmación falsa queda incrustada en los pesos del modelo. Es el más difícil de revertir porque no depende de una fuente en vivo que puedas retirar.
Envenenamiento de RAG. La búsqueda con IA moderna se apoya en la generación aumentada por recuperación: el modelo extrae documentos en vivo en el momento de la consulta y sintetiza una respuesta. El atacante planta contenido que el recuperador mostrará para una pregunta objetivo, secuestrando la respuesta sin tocar nunca los pesos del modelo.
Adoctrinamiento de LLM (LLM grooming). Es la publicación masiva de contenido falso a escala (cientos o miles de páginas repitiendo la misma afirmación fabricada) de modo que, sea cual sea el camino que tome el modelo (entrenamiento o recuperación) la mentira sea la señal más repetida. Explota la misma debilidad que hace que la información consistente y autoritativa funcione a tu favor: los modelos ponderan la repetición y el consenso aparente.
¿Cuánto hace falta realmente para envenenar un modelo?
Menos de lo que sugeriría el tamaño del conjunto de entrenamiento. El hallazgo de cabecera llegó en 2025 de la mano de Anthropic, el UK AI Security Institute y el Alan Turing Institute: unos 250 documentos maliciosos bastaron para implantar una puerta trasera en un modelo de lenguaje grande, y el número se mantuvo casi constante en tamaños de modelo desde 600 millones hasta 13.000 millones de parámetros. El artículo en arXiv pone la escala en perspectiva: 250 documentos son cerca del 0,00016% de los datos de entrenamiento de un modelo de 13.000 millones de parámetros. El propio informe del Turing Institute concluye sin rodeos que los LLM son más vulnerables al envenenamiento de datos de lo que se pensaba.
La intuición que la mayoría arrastra (que necesitarías corromper algún porcentaje significativo de la dieta de un modelo para moverlo) es errónea. El coste es un número de documentos pequeño y prácticamente fijo, lo que significa que el ataque no se vuelve más difícil a medida que los modelos crecen.
La recuperación es aún más barata de atacar. En el estudio PoisonedRAG presentado en USENIX Security 2025, inyectar alrededor de cinco textos maliciosos por pregunta objetivo en una base de conocimiento de millones de documentos alcanzó aproximadamente un 90% de tasa de éxito. Cinco pasajes, contra millones, para invertir de forma fiable una respuesta específica. RAG es la capa que la mayoría de los productos de búsqueda con IA usan para mantenerse actualizados, lo que la convierte en la capa más expuesta a ataques de marca dirigidos.
El daño tampoco se limita a un único dato erróneo. Un estudio de dominio médico publicado en Nature Medicine (NYU Langone Health) halló que sustituir solo el 0,001% de los tokens de entrenamiento por desinformación produjo entre un 7 y un 11% más de respuestas dañinas: una degradación medible y acumulativa a partir de una entrada minúscula. Para una marca, el equivalente es una deriva constante hacia el encuadre del atacante cada vez que se le pregunta al modelo sobre ti.
¿En qué superficies está expuesta tu marca?
La exposición de tu marca sigue el recorrido de datos del modelo. Cada superficie en la que un atacante puede escribir es una superficie que puede envenenar. Blindar las superficies de publicación que controlas — el schema, el llms.txt y el agents.json que la IA lee sobre ti — cierra las vías de escritura más fáciles antes de que un atacante las encuentre.
| Superficie | Familia de ataque | Por qué está expuesta |
|---|---|---|
| Páginas web abiertas sobre tu marca | Entrenamiento + adoctrinamiento de LLM | Extraídas a corpus de entrenamiento; las imitaciones publicadas en masa pesan más que la verdad dispersa |
| Wikis, foros, preguntas y respuestas, repositorios | Entrenamiento | Fuentes de alta confianza de las que aprenden los modelos; editables por cualquiera |
| Índice de recuperación en vivo (RAG) | Envenenamiento de RAG | ~5 pasajes plantados pueden invertir una respuesta objetivo |
| Páginas que leen tus propios agentes de IA | Inyección de prompts | Instrucciones ocultas secuestran el resumen que un agente hace de ti |
| Contenido propio obsoleto o inaccesible | Indirecta | Una fuente autoritativa débil pierde frente a una plantada fuerte |
La última fila es la que los equipos controlan directamente y la que más ignoran. Si tu propio contenido autoritativo es escaso, está obsoleto o resulta inaccesible para los rastreadores de IA, has dejado el campo libre: el modelo no tiene una versión fuerte y consistente de tu marca a la que anclarse, así que una versión plantada gana por defecto. Cubrimos el arreglo estructural para esto en qué es un Context Hub y el arreglo de desambiguación en desambiguación de entidades en la búsqueda con IA.
¿Cómo es el manual de defensa?
La defensa contra el envenenamiento es proactiva y estructural, no limpieza reactiva. No puedes parchear un modelo que no posees, y no puedes superar en volumen de publicación a un atacante decidido por la fuerza bruta. Lo que sí puedes hacer es convertir la versión autoritativa de tu marca en la señal más barata, consistente y fiable disponible, de modo que el envenenamiento tenga que superar a un titular fuerte en lugar de llenar un vacío. El anclaje de entidad que hace la visibilidad duradera entre actualizaciones de modelos es el mismo activo que encarece intentar el envenenamiento. Cuatro capas.
Construye la columna vertebral de entidad
Dale al modelo una única versión inequívoca de tu marca en cada fuente en la que confía: una entrada limpia en Wikidata, enlaces sameAs consistentes en los perfiles propios, datos estructurados que concuerden entre sí y un Knowledge Panel que resuelva la entidad. Cuando la entidad está bien definida y es consistente, una contradicción plantada destaca como el dato atípico en lugar de llenar una laguna de información. Esta es la misma columna vertebral que impulsa el schema markup para IA: hace doble función como activo de visibilidad y como defensa contra el envenenamiento.
Controla las superficies autoritativas
Cuanta más información canónica de tu marca viva en superficies que controlas y mantienes actualizadas, menos podrá suministrar un atacante. Una fuente propia, mantenida y legible por máquinas (tu sitio, tus datos estructurados, un manifest agents.json publicado) es una fuente que el modelo puede preferir. El contenido propio escaso es una invitación.
Mantén la infraestructura accesible e intacta
Aquí es donde la defensa contra el envenenamiento se cruza con la ingeniería. Tres modos de fallo socavan en silencio todo lo anterior: rastreadores de IA como GPTBot, ClaudeBot y PerplexityBot bloqueados o limitados en el borde, de modo que nunca alcanzan tu contenido autoritativo; pipelines de CI/CD que sobrescriben el schema markup, los canónicos y llms.txt en cada despliegue y borran silenciosamente tu progreso; y rutas de renderizado que requieren JavaScript que los rastreadores no pueden ejecutar, dejando invisibles tus señales más fuertes. Un sitio que no puede rastrearse, o que restablece su propio markup autoritativo en cada despliegue, es vulnerable al envenenamiento por construcción: no porque nadie lo atacara, sino porque dejó la puerta abierta.
Este es el trabajo detrás de la Infraestructura Lista para IA de Citable. El nivel Auditoría de Seguridad de Infraestructura es el que se corresponde directamente con el modelo de amenazas de este artículo: fortalecimiento, gestión de accesos y secretos, y una evaluación completa de vulnerabilidades con remediación, más un retainer de monitorización opcional. Trata la presencia de tu marca en la búsqueda con IA como una superficie de ataque y la asegura como tal.
Monitoriza de forma continua
La monitorización es el control que convierte un ataque de envenenamiento de sangrado lento en un incidente contenido. Vuelve a lanzar un conjunto fijo de prompts de marca en ChatGPT, Perplexity, Gemini y Claude con una cadencia regular, y compara las respuestas a lo largo del tiempo. Una respuesta envenenada se detecta en días en lugar de aflorar cuando un cliente potencial te la cita de vuelta en una llamada de ventas. El retainer de monitorización asociado a la Auditoría de Seguridad de Infraestructura existe exactamente para esto: detectar la deriva a tiempo, mientras la ventana de corrección sigue siendo corta.
¿Cuál es la diferencia entre defender y reaccionar?
Reaccionar es lo que haces después de que aparezca una respuesta errónea; defender es lo que hace que esa respuesta sea cara de plantar y rápida de sobrescribir. Las dos comparten un instrumental (columna vertebral de entidad, fuentes autoritativas, schema) pero se sitúan en extremos opuestos de la línea temporal y de la curva de coste.
| Defensa (proactiva) | Reacción (a posteriori) | |
|---|---|---|
| Detonante | Construida antes de cualquier ataque | Una respuesta errónea ya está en vivo |
| Coste | Menor, trabajo de columna vertebral puntual | Mayor, ciclos de corrección repetidos |
| Tiempo hasta estar a salvo | Continuo; la deriva se detecta en días | 30-90 días para sobrescribir una afirmación arraigada |
| Trabajo del atacante | Superar una señal titular fuerte | Llenar un vacío de información |
| Control principal | Columna vertebral de entidad + monitorización | Corrección autoritativa de terceros |
La asimetría es todo el argumento. Un vacío es barato de envenenar; una columna vertebral de entidad fuerte, consistente y monitorizada es cara de envenenar y rápida de reparar. La investigación es inequívoca en que el lado del ataque es barato: 250 documentos, cinco pasajes de recuperación, una fracción de un porcentaje de los tokens de entrenamiento. La única variable que controlas es cuán fuerte es la señal titular cuando llega el ataque.
Si tu marca aún no tiene una presencia deliberada en IA, empieza por las bases en precios y las piezas estructurales (context hubs, schema, desambiguación de entidades) que dificultan el envenenamiento. Si tu marca ya es visible en la búsqueda con IA y quieres asegurarla contra la corrupción deliberada, la Auditoría de Seguridad de Infraestructura es donde el modelo de amenazas de este artículo se convierte en un plan de remediación. En cualquier caso, el movimiento es el mismo: deja de tratar tu presencia en IA como un producto de marketing y empieza a tratarla como una superficie de ataque, porque eso es exactamente lo que la investigación ha demostrado que es.
La amenaza, medida
Fuente: Anthropic / UK AI Security Institute / Alan Turing Institute, 2025
Lo poco que hace falta para envenenar lo que dice un modelo
250
Documentos maliciosos para implantar una puerta trasera en un LLM
Casi constante de 600M a 13B parámetros: cerca del 0,00016% de los datos de entrenamiento de un modelo de 13B.
~5
Textos inyectados para secuestrar una respuesta RAG
PoisonedRAG alcanzó ~90% de éxito por pregunta objetivo en un almacén de millones de documentos.
0,001%
Tokens de entrenamiento sustituidos por desinformación
Produjo entre un 7 y un 11% más de respuestas dañinas en un estudio de dominio médico (Nature Medicine).
Preguntas frecuentes
Lo que preguntan los compradores antes de reservar
¿Qué es el envenenamiento de contenido IA?
El envenenamiento de contenido IA es la siembra deliberada de contenido falso o malicioso en los datos sobre los que los modelos de lenguaje entrenan o recuperan información, de modo que el modelo produce la salida elegida por el atacante. Para las marcas, significa corromper lo que los asistentes de IA dicen sobre tu empresa, productos, seguridad o liderazgo.
¿Cuántos documentos maliciosos hacen falta para envenenar un modelo?
La investigación de Anthropic junto al UK AI Security Institute y el Alan Turing Institute halló que unos 250 documentos maliciosos pueden implantar una puerta trasera en un modelo de lenguaje grande sin importar su tamaño, probado de 600M a 13B parámetros. Es un número casi constante, no un porcentaje que escale con el conjunto de entrenamiento.
¿Es el envenenamiento de RAG distinto del envenenamiento de entrenamiento?
Sí. El envenenamiento de entrenamiento corrompe el modelo durante su entrenamiento y es difícil de revertir. El envenenamiento de RAG ataca la capa de recuperación en vivo: el estudio PoisonedRAG demostró que inyectar unos cinco textos maliciosos por pregunta objetivo en una base de conocimiento de millones de documentos alcanzó alrededor de un 90% de tasa de éxito. El envenenamiento de RAG es más rápido de explotar y más rápido de defender.
¿Puede la inyección de prompts cambiar lo que la IA dice sobre mi marca?
De forma indirecta, sí. La inyección de prompts es el riesgo número uno de LLM según OWASP (LLM01). Instrucciones ocultas incrustadas en una página que un agente de IA lee pueden manipular su resumen de tu marca. La defensa es la misma columna vertebral que resiste el envenenamiento: fuentes autoritativas, consistentes y controladas en las que el modelo confía más que en las plantadas.
¿Cómo defiendo mi marca contra el envenenamiento de IA?
Construye una columna vertebral de entidad sólida para que el modelo tenga una única versión consistente y autoritativa de tu marca, controla las superficies autoritativas de las que recupera información, mantén tu infraestructura accesible a los rastreadores de IA y monitoriza las respuestas de marca de forma continua para detectar la corrupción en días. La Auditoría de Seguridad de Infraestructura de Citable cubre la parte de fortalecimiento y monitorización de esa defensa.