Defender el rastreo: la capa de infraestructura que decide si los motores de IA pueden alcanzarte
Cómo dejar entrar a los rastreadores de IA correctos y controlar la carga. Referencia sobre GPTBot, ClaudeBot, PerplexityBot, robots.txt para IA, latencia de servidor y SSR para bots de IA.
Fundadora 8 min de lectura
Resumir con IA Abrir este artículo en tu asistente preferido
En este artículo
- 01 Qué rastreadores de IA visitan realmente y qué alimenta cada uno
- 02 ¿Cómo dejo entrar a los bots correctos mientras controlo la carga?
- 03 Por qué la latencia decide si te citan
- 04 SSR frente a renderizado con JavaScript: qué ven realmente los rastreadores
- 05 Qué comprobar en realidad y por dónde empezar
El acceso de los rastreadores de IA es la capa que decide si un motor de respuestas puede siquiera alcanzar tu contenido, antes incluso de juzgar su calidad. Lo gobiernan cuatro mecánicas: qué user-agents permites en robots.txt, con qué rapidez responde tu servidor, si tus páginas se renderizan sin JavaScript y con qué fiabilidad tu origen se mantiene en pie bajo la carga de rastreo. Falla cualquiera de ellas y estás ausente de las respuestas de IA, no porque tu redacción sea floja, sino porque la obtención falló.
Este es el problema más nativo de infraestructura dentro de la optimización para motores generativos. Puedes publicar los datos estructurados más limpios y el contenido más afilado de la web, pero si GPTBot recibe un Disallow, si ClaudeBot agota el tiempo de espera ante una respuesta lenta o si tu página es un contenedor vacío hasta que se ejecuta el JavaScript del cliente, nada de eso llega al modelo. El rastreo es la puerta. Todo lo demás viene después.
Qué rastreadores de IA visitan realmente y qué alimenta cada uno
Cada motor de IA importante envía rastreadores distintos y con nombre propio, y hacen trabajos diferentes. Tratarlos como un flujo único e indiferenciado de “tráfico de bots de IA” es el primer error. La distinción que importa es entre los rastreadores que construyen corpus de entrenamiento y los que obtienen contenido para citarlo en respuestas en vivo: la segunda categoría es donde se gana o se pierde la visibilidad diaria en búsqueda de IA. Alcanzarte es solo la mitad; lo que esos rastreadores leen luego sobre ti depende de las superficies para agentes que publicas y aseguras.
OpenAI opera dos agentes relevantes. GPTBot, identificado como GPTBot/1.3, rastrea contenido para entrenar sus modelos base. OAI-SearchBot, identificado como OAI-SearchBot/1.3, hace aparecer los sitios en las funciones de búsqueda de ChatGPT. Anthropic replica esta estructura: ClaudeBot (ClaudeBot/1.0) recopila contenido web para entrenar el modelo, mientras que Claude-SearchBot (Claude-SearchBot/1.0) navega la web para mejorar la calidad de los resultados de búsqueda. Perplexity envía PerplexityBot (PerplexityBot/1.0) para mostrar y enlazar sitios en sus resultados. La situación de Google es distinta: Google-Extended no es un rastreador aparte con su propio user-agent HTTP, sino un token de robots.txt que controla si tu contenido entrena a Gemini.
La implicación práctica: bloquear un rastreador de entrenamiento y bloquear un rastreador de búsqueda no son la misma decisión. Bloquea GPTBot y renuncias a un corpus de entrenamiento. Bloquea OAI-SearchBot y te eliminas de las citaciones en la búsqueda en vivo de ChatGPT, una pérdida mucho más afilada si la descubribilidad impulsada por IA importa para tu negocio. La mayoría de los sitios debería dar la bienvenida sin dudarlo a los rastreadores de búsqueda y los orientados al usuario, y luego tomar una decisión deliberada y aparte sobre los de entrenamiento. La tabla de referencia anterior enumera las cadenas verificadas de user-agent para que puedas escribir reglas de robots.txt que apunten exactamente a los agentes que pretendes.
¿Cómo dejo entrar a los bots correctos mientras controlo la carga?
Usa robots.txt, porque todos los rastreadores de IA importantes para la visibilidad en búsqueda documentan que lo respetan. GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot y PerplexityBot honran las directivas de robots.txt. Ese único hecho convierte a robots.txt en la superficie de control correcta, no el bloqueo por IP ni las reglas de firewall deducidas a partir de patrones de petición. Anthropic lo afirma con claridad: bloquear por dirección IP puede no funcionar de forma correcta ni persistente, en parte porque puede impedir que el rastreador lea siquiera tu robots.txt. El método documentado es el método fiable.
Una configuración limpia es explícita. Permite los agentes de búsqueda y orientados al usuario que quieras; deshabilita las rutas que nunca quieres que aparezcan (flujos de pago, páginas de cuenta, resultados de búsqueda interna, URLs con parámetros de facetas que explotan en un espacio de rastreo infinito). Apuntar a user-agents con nombre te permite dar la bienvenida a OAI-SearchBot y PerplexityBot para la citación mientras decides de forma independiente sobre GPTBot para el entrenamiento. Un solo archivo, precisión por agente.
Aquí hay un riesgo más silencioso que no tiene nada que ver con tu intención: los pipelines de despliegue que sobrescriben robots.txt. Una compilación que regenera el archivo desde una plantilla, o un CMS que lo reinicia al publicar, puede convertir en silencio un Allow en el valor por defecto y borrar tu acceso de IA de la noche a la mañana. Hemos visto el mismo modo de fallo eliminar datos estructurados, canónicos y llms.txt durante el despliegue. Si tu robots.txt se genera en lugar de ser estático, trátalo como estado crítico del despliegue y verifícalo en una comprobación posterior al despliegue, el tema que cubrimos en nuestro artículo sobre preparación para la web agéntica, donde el manifiesto y la capa de acceso tienen que sobrevivir a cada lanzamiento.
Sobre la carga: los rastreadores de IA pueden golpear las páginas con alta frecuencia, y la respuesta no es limitarlos de forma defensiva, sino abaratar la petición. Eso significa caché en el edge y una CDN delante de tu origen, de modo que la obtención de un rastreador se sirva desde caché y no se calcule de nuevo cada vez. Tratado así, “controlar la carga” deja de ser un compromiso frente a la visibilidad y se convierte en un efecto secundario de una buena caché.
Por qué la latencia decide si te citan
Porque los rastreadores de búsqueda y los que obtienen contenido a petición del usuario operan con un presupuesto, y una página lenta es un candidato que agotó el tiempo. Cuando un usuario hace una pregunta a Perplexity o ChatGPT y el motor obtiene fuentes en vivo para fundamentar su respuesta, no va a esperar indefinidamente a tu servidor. Una página que responde despacio es funcionalmente igual a una página que no responde: no entra en la respuesta. La velocidad no es una comodidad para los rastreadores de IA; es un filtro de elegibilidad.
Esto replantea el tiempo de respuesta del servidor. En el SEO tradicional, un tiempo lento hasta el primer byte te cuesta una fracción de posición. En la búsqueda de IA, donde un obtenedor ensambla una respuesta en tiempo real entre varias fuentes candidatas, una respuesta lenta puede costarte la citación por completo. La página rápida se lee y se cita. La lenta se descarta, y el motor pasa a la siguiente fuente que pueda alcanzar de verdad a tiempo.
La disponibilidad es la misma señal a una escala temporal más larga. Una página que devuelve un 500 o agota el tiempo cuando llega el rastreador es, desde la perspectiva del motor, una fuente que no existe. La fiabilidad bajo carga de rastreo es por tanto una métrica de visibilidad en IA, no solo una métrica de operaciones. Esta es una de las razones por las que las arquitecturas estáticas y servidas desde el edge superan de forma consistente a las pilas dinámicas pesadas en descubribilidad por IA, un punto que desarrollamos en por qué no usamos WordPress, donde el camino de renderizado y la dependencia de la base de datos marcan la diferencia entre una página siempre lista y una que a veces es demasiado lenta para ser citada.
SSR frente a renderizado con JavaScript: qué ven realmente los rastreadores
Muchos rastreadores de IA leen el HTML en bruto que devuelve tu servidor y no ejecutan JavaScript, así que el contenido que solo aparece tras el renderizado del lado del cliente es invisible para ellos. Si tu página envía un <div id="root"> vacío y pinta el contenido real en el navegador, un rastreador que no ejecuta JS ve el div vacío. Tu artículo, tu descripción de producto, tus datos estructurados: todo ausente de la respuesta que ingiere el modelo. Esta es la razón más común por la que una página técnicamente “publicada” no aporta nada a las respuestas de IA.
La solución es poner el contenido en la respuesta HTML inicial. El renderizado en servidor, la generación de sitios estáticos o el prerenderizado lo consiguen: el contenido significativo está presente en el momento en que el servidor responde, antes de que se ejecute cualquier JavaScript. Para el contenido que necesita ser rastreable de forma fiable por los motores de IA, esto no es una optimización para programar más adelante. Es una condición previa. Una página o es legible en el HTML en bruto o es una apuesta sobre qué rastreadores deciden ejecutar JS este trimestre.
Esto conecta directamente con la caché y la latencia. Una página prerenderizada es también una página cacheable, y una página cacheable es una página rápida. El renderizado en servidor, la caché en el edge y la elegibilidad para rastreo no son tres proyectos separados: son una sola decisión de arquitectura vista desde tres ángulos. Resuelve el camino de renderizado correctamente y los beneficios de latencia y cacheabilidad vienen detrás.
Qué comprobar en realidad y por dónde empezar
Empieza con un inventario concreto: extrae tu robots.txt y confirma exactamente qué user-agents de IA están permitidos y qué rutas están deshabilitadas; mide el tiempo de respuesta del servidor para el presupuesto de elegibilidad de los rastreadores, no solo para usuarios humanos; y mira tus páginas clave como HTML en bruto: haz curl a la URL y lee lo que vuelve antes de que se ejecute cualquier JavaScript. Esas tres comprobaciones te dicen si los motores de IA pueden alcanzarte, alcanzarte lo bastante rápido y leer lo que alcanzan. Mantener ese acceso intacto despliegue tras despliegue es la disciplina de durabilidad que impide que un solo despliegue lo deshaga en silencio. La mayoría de los sitios falla al menos una sin saberlo.
Este es precisamente el alcance de un Infrastructure Health Check, un trabajo puntual de cinco días que audita robots.txt y el acceso de rastreadores, mide la latencia para los rastreadores y revisa la CDN y la caché en el edge junto al resto de tu arquitectura, terminando en un informe priorizado. Está pensado para el caso en que el contenido está bien pero la capa de acceso falla en silencio. Si prefieres ver dónde encaja dentro de la oferta más amplia, la página de precios detalla el trabajo de fundamentos GEO con el que se combina.
El rastreo es la parte de la optimización para motores generativos que ninguna cantidad de redacción puede compensar. Un motor no puede citar una página que no puede obtener, no puede obtener una página de la que está deshabilitado, no puede esperar a una página que responde demasiado despacio y no puede leer una página que solo se renderiza en un navegador que no ejecuta. Arregla primero la capa de acceso (las directivas de robots.txt, los tiempos de respuesta, el camino de renderizado, la caché en el edge) y cada inversión posterior en datos estructurados, entidades y contenido tendrá por fin un camino hacia el modelo. Defiende el rastreo, y el resto de tu trabajo de GEO dejará de escaparse por la base.
Principales user-agents de rastreadores de IA y qué alimentan
| Rastreador | Operador | User-agent | Qué alimenta |
|---|---|---|---|
| GPTBot | OpenAI | GPTBot/1.3 | Entrenamiento de modelos base |
| OAI-SearchBot | OpenAI | OAI-SearchBot/1.3 | Resultados de búsqueda de ChatGPT |
| ClaudeBot | Anthropic | ClaudeBot/1.0 | Entrenamiento del modelo Claude |
| Claude-SearchBot | Anthropic | Claude-SearchBot/1.0 | Indexación de búsqueda de Claude |
| PerplexityBot | Perplexity | PerplexityBot/1.0 | Resultados de búsqueda de Perplexity |
| Google-Extended | token de robots.txt (sin cadena UA) | Activar/desactivar entrenamiento de Gemini |
Preguntas frecuentes
Lo que preguntan los compradores antes de reservar
¿Qué es un rastreador de IA?
Un rastreador de IA es un agente automatizado operado por una empresa de IA que obtiene páginas web para entrenar modelos o para responder consultas de usuarios en vivo con citaciones. Algunos ejemplos son GPTBot y OAI-SearchBot de OpenAI, ClaudeBot y Claude-SearchBot de Anthropic, y PerplexityBot de Perplexity.
¿GPTBot respeta robots.txt?
Sí. GPTBot respeta las directivas de robots.txt, al igual que OAI-SearchBot, ClaudeBot, Claude-SearchBot y PerplexityBot. Esto significa que una regla en robots.txt es la forma fiable y documentada de permitir o bloquear estos rastreadores.
¿Cómo dejo entrar a los rastreadores de IA pero mantengo el control?
Usa robots.txt para permitir explícitamente los user-agents con nombre que quieras (GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot) y deshabilitar las rutas que no quieres que se rastreen. Combínalo con tiempos de respuesta de servidor rápidos y caché en el edge para que un rastreo de alta frecuencia no sobrecargue la infraestructura de origen.
¿Bloquear Google-Extended perjudica mi posición en Google Search?
No. Google-Extended es un token de robots.txt que solo controla si tu contenido se usa para entrenar los modelos Gemini. La documentación de Google confirma que no afecta a la inclusión de un sitio en Google Search ni se usa como señal de posicionamiento.
¿Por qué importa el renderizado en servidor para los rastreadores de IA?
Muchos rastreadores de IA leen el HTML en bruto que devuelve tu servidor y no ejecutan JavaScript. Si tu contenido solo aparece tras el renderizado del lado del cliente, esos rastreadores ven un contenedor vacío. El renderizado en servidor o el prerenderizado estático garantizan que el contenido esté presente en la respuesta inicial.