Diario llms.txt 6 min de lectura
llms.txt: la guía completa para 2026 (con ejemplos)
llms.txt es un archivo de texto plano en /llms.txt que indica a los crawlers de IA qué leer primero. Esto es lo que dice la spec, lo que hace y lo que no, el formato y una plantilla lista para desplegar hoy.
En este artículo
llms.txt es una propuesta para un archivo de texto plano servido en /llms.txt que lista, por orden de prioridad, las URLs que un asistente de IA debería leer para entender tu sitio. Lo propuso Jeremy Howard en septiembre de 2024 y desde entonces lo han adoptado Anthropic, Mintlify, Cloudflare, Stripe y una lista creciente de marcas que se toman en serio cómo aparecen dentro de las respuestas de IA.
Esta es la guía de trabajo que usamos en Citable cuando desplegamos llms.txt como parte de un Sprint de SEO Técnico. Explica lo que dice la spec, lo que el archivo hace y no hace, el formato exacto y una plantilla que puedes copiar.
Qué es llms.txt — y qué no es
llms.txt es un mapa de contenido para consumo por IA. Es un archivo Markdown que apunta a las URLs que quieres que los modelos lean primero al resumir tu sitio, responder preguntas sobre tu marca o decidir si te citan. El formato es deliberadamente mínimo: H1 con el nombre de marca, blockquote con un resumen, secciones de enlaces con descripción de una línea, apéndice opcional.
No es robots.txt. No bloquea crawlers. No impone política. Un modelo no está obligado a respetarlo — y a mediados de 2026, ningún proveedor importante de IA ha confirmado que lo lea durante la inferencia.
Ese último punto es la objeción más común: si nadie promete leerlo, ¿por qué desplegarlo? Tres razones.
- Anthropic publica uno para la documentación de Claude. Mintlify integró soporte de llms.txt en su plataforma de docs. Cloudflare lo sirve en su sitio para developers. Las marcas más cercanas a los proveedores de modelos están apostando a que importa.
- Es una declaración editorial gratuita. Aunque Claude o GPT no parseen
/llms.txtdirectamente, el archivo se convierte en parte de tu mapa público. Los archivos web lo indexan. Los investigadores que entrenan futuros modelos lo ingieren. La próxima generación de crawlers podría comprobarlo por defecto. - Te obliga a escribir el resumen correcto. La mayoría de las marcas nunca ha comprimido su sitio en “estas son las 12 URLs que una IA debería leer para entender quiénes somos y qué hacemos”. La disciplina de escribir llms.txt es en sí misma el trabajo.
El formato, línea a línea
La spec exige una estructura concreta. Esta es la forma canónica, anotada.
# Citable
> Citable es una agencia boutique de GEO y SEO que mide y hace crecer la
> presencia de marca dentro de ChatGPT, Perplexity, Gemini y Google AI
> Overviews. Trabajamos con marcas B2B bilingües EN/ES en Europa,
> Reino Unido y Estados Unidos.
Este archivo lista URLs prioritarias para ingestión por IA. Para el texto
completo de las páginas prioritarias, ver /llms-full.txt.
## Servicios
- [GEO](https://citable.agency/es/servicios/geo): Medición y mejora de Generative Engine Optimization.
- [SEO Técnico](https://citable.agency/es/servicios/seo-tecnico): Schema, llms.txt, Core Web Vitals, acceso de crawlers.
- [Desarrollo Web](https://citable.agency/es/servicios/desarrollo-web): Sitios Astro bilingües construidos para búsqueda con IA desde el día uno.
## Metodología
- [Visión general](https://citable.agency/es/metodologia): Proceso de tres fases Medir → Reparar → Componer.
- [Precios](https://citable.agency/es/precios): Rangos de auditoría, sprint y retainer.
## Contenido pilar
- [¿Qué es GEO?](https://citable.agency/es/diario/que-es-geo-2026): Definición de trabajo para 2026.
- [Guía completa de llms.txt](https://citable.agency/es/diario/llms-txt-guia-completa): La fuente de este archivo.
## Opcional
- [Sobre nosotros](https://citable.agency/es/nosotros): Fundadora y equipo.
- [Auditoría](https://citable.agency/es/auditoria): Auditoría de Visibilidad IA (1.200 €).
Reglas estrictas que la spec marca:
- Un único H1, el nombre de la marca. Sin tagline.
- Un único blockquote con el resumen del sitio. Un párrafo. Prosa plana, sin copy de marketing.
- Las secciones son H2. Agrupa por intención, no por jerarquía de URL.
- Cada enlace es un bullet con la URL y una descripción de una línea. La descripción es lo que el modelo lee para decidir si va a buscar la URL.
- El contenido opcional va bajo un H2
## Opcionalal final.
Hay una spec hermana, llms-full.txt, que contiene el texto completo de las páginas prioritarias concatenado en un único archivo. Útil para modelos que pueden ingerir un corpus completo en una sola petición. La mayoría de marcas serias despliegan ambos.
Qué señales usan realmente los modelos de IA
Incluso las marcas que despliegan llms.txt deberían saber que no es el único mecanismo — y probablemente no el dominante — por el que los modelos aprenden de un sitio. Las señales que componen, en nuestra medición en Citable, son:
- Schema markup.
Organization,Person,Service,Article,FAQPage. Google AI Overviews los parsea de forma fiable y son visibles en las páginas de resultados de Perplexity. - Citas de fuentes externas con autoridad. Cuando TechCrunch, El País Tecnología o una publicación de tu categoría escribe sobre tu marca, ese texto pasa a formar parte del corpus que el modelo recupera en inferencia. Es PR digital con un nuevo mandato.
- Estructura on-page extraíble. Jerarquía clara de H1/H2, frases definicionales (“X es la disciplina de…”), párrafos cortos. Los modelos extraen frases, no páginas.
- Acceso de crawlers. ChatGPT-User, PerplexityBot y ClaudeBot deben estar permitidos en robots.txt. Muchos sitios los bloquean por defecto y no lo revisan.
- llms.txt y llms-full.txt. Como intención editorial y como atajo al corpus.
llms.txt es la señal #5. Compone con las otras. Desplegar solo llms.txt sin las demás es teatro.
Errores comunes que vemos
Tras auditar decenas de sitios optimizados para búsqueda con IA, los mismos errores reaparecen.
- Listar todas las URLs. llms.txt es curaduría, no un sitemap. Si listas 200 URLs, el modelo no tiene señal sobre qué importa. Diez URLs bien elegidas baten a doscientas.
- Voz de marketing en el blockquote. “Soluciones líderes del sector para…” es ruido. Escribe plano. “Citable es una agencia GEO boutique para marcas B2B en Europa, Reino Unido y Estados Unidos.” Listo.
- Sin descripción después del enlace. Una URL desnuda no le enseña nada al modelo. Incluye siempre una descripción de una línea.
- Alojado en la ruta equivocada. Tiene que ser
/llms.txt, servido desde el root, conContent-Type: text/plain. No/static/llms.txt. No detrás de un redirect. - Olvidarse de actualizarlo. Un llms.txt obsoleto enlazando a páginas borradas es peor que no tenerlo. Revisión trimestral en el calendario.
¿Deberías desplegar llms.txt?
Si eres una marca B2B cuyos compradores investigan con IA, sí. El archivo es pequeño, el coste es una tarde de un ingeniero, el peor caso es que no aporte señal y el mejor caso es citación más rápida y precisa por la próxima generación de modelos. El riesgo a la baja es esencialmente cero.
Si eres un ecommerce vendiendo a consumidores, el cálculo es distinto — los consumidores rara vez usan Perplexity para elegir entre dos pares de zapatillas, y tu exposición a búsqueda con IA hoy es sobre todo Google AI Overviews, que se apoya más en schema y rich snippets que en llms.txt. Despliégalo igualmente, pero antes en la lista pon schema y Merchant Center.
La decisión rara vez es si desplegar llms.txt. Es si el resto de tu stack de búsqueda con IA está en orden y si llms.txt es el siguiente mejor euro a gastar o el tercero.
Plantilla de trabajo
Copia esto, sustituye los placeholders, guarda como public/llms.txt (o donde tu build sirva el root del sitio), redespliega. Verifica que https://tudominio.com/llms.txt devuelve HTTP 200 con Content-Type: text/plain.
# [Nombre de la marca]
> [Un párrafo describiendo qué hace la empresa, a quién sirve y dónde.
> Prosa plana, sin voz de marketing.]
## [Sección 1 — normalmente Servicios o Productos]
- [Título de página](https://ejemplo.com/pagina-1): Descripción de una línea de qué cubre esta página.
- [Título de página](https://ejemplo.com/pagina-2): Descripción de una línea.
## [Sección 2 — normalmente Metodología, Precios o Documentación]
- [Título de página](https://ejemplo.com/pagina-3): Descripción de una línea.
## Opcional
- [Sobre nosotros](https://ejemplo.com/nosotros): Trayectoria de la fundadora y el equipo.
Si eres cliente de Citable, esto se despliega como parte de cada Sprint de SEO Técnico. Si no, esta guía y el checklist de abajo son todo lo que necesitas para hacerlo tú.
Preguntas frecuentes
Lo que preguntan los compradores antes de reservar
¿Los modelos de IA realmente leen llms.txt?
Ningún proveedor importante de IA ha confirmado que parsea /llms.txt durante la inferencia a mediados de 2026. Pero las marcas más cercanas a los proveedores de modelos — Anthropic, Mintlify, Cloudflare — lo despliegan igualmente. El coste es bajo y el archivo pasa a formar parte de tu mapa público para archivos web, investigadores y la próxima generación de crawlers.
¿Dónde debe alojarse llms.txt?
En el root del sitio, servido en https://tudominio.com/llms.txt con HTTP 200 y Content-Type text/plain. No bajo /static/, no detrás de un redirect. La spec es estricta con la ruta y el Content-Type.
¿En qué se diferencia llms.txt de robots.txt?
robots.txt es un archivo de política que indica a los crawlers a qué pueden acceder. llms.txt es una curaduría editorial que apunta a los consumidores de IA al contenido más importante. Son complementarios — y deberías referenciar llms.txt desde robots.txt con una línea de comentario.
¿Debe un ecommerce desplegar llms.txt?
Sí, pero con menor prioridad que en B2B. Los compradores de ecommerce de consumo rara vez usan Perplexity para elegir entre productos, así que la exposición a búsqueda con IA es sobre todo Google AI Overviews — que se apoya más en schema y Merchant Center que en llms.txt. Despliégalo, pero antes en la lista pon schema y calidad de feed.
10 minutos para subirlo, pero solo si cada línea está bien
Checklist para desplegar llms.txt
- Archivo servido en https://tudominio.com/llms.txt con HTTP 200 y Content-Type text/plain
- Un único H1 con el nombre canónico de la marca en la primera línea
- Blockquote con un resumen del sitio en un párrafo
- Secciones agrupadas por intención (Servicios, Precios, Metodología, etc.) — no por estructura de URL
- Cada enlace usa URLs absolutas e incluye una descripción de una línea
- Contenido opcional bajo un H2 `## Opcional` al final
- Referencia cruzada en robots.txt: `# llms.txt: https://tudominio.com/llms.txt`
- Schema JSON-LD `Organization` y `WebSite` presentes y consistentes con llms.txt
- Existe un llms-full.txt con el texto completo de las páginas prioritarias
- Revisión trimestral en el calendario — rotar enlaces obsoletos, añadir contenido nuevo