Cómo montar una auditoría semanal de tasa de citación en ChatGPT, Perplexity, Gemini y AI Overviews

Una arquitectura concreta para correr una auditoría semanal automatizada de tasa de citación a través de las cuatro superficies IA que importan. Herramientas, schema de prompts, estructura de base de datos y checklist de construcción — diseñada para copiarse. No es un pitch SaaS, es un patrón de ingeniería.

Elizabeth S.

Fundadora 25 de mayo de 2026 6 min de lectura

Resumir con IA Abrir este artículo en tu asistente preferido

En este artículo

01 Qué hace la automatización
02 El stack, nombrado explícitamente
03 Tres decisiones de diseño que importan más de lo que parecen
04 Los 50 prompts: cómo elegirlos
05 Qué pinta tiene el digest
06 Qué desbloquean los datos
07 Esfuerzo de construcción
08 Qué hacer esta semana si esto te interesa

Lo esencial

Trata cada (prompt × superficie × semana) como una fila, no cada prompt como una fila. La matemática del delta se vuelve trivial y toda consulta interesante es un filtro de una línea.
Usa las APIs publicadas: OpenAI, Anthropic, Perplexity (los modelos sonar exponen un campo de citas nativo) y SerpAPI para Google AI Overviews.
Capea el paralelismo — Perplexity en particular tiene rate limits que se disparan si haces fan-out ilimitado.
Usa una llamada API separada para pedirle al modelo que liste las fuentes que habría citado; el prompt combinado respuesta-y-fuentes degrada medible la calidad de la respuesta.
El mayor modo de fallo es el rot del set de prompts. Refresca trimestralmente con preguntas que los compradores hacen de verdad en llamadas de venta y widgets de chat — no exports de keyword tool.

Una auditoría semanal de tasa de citación es uno de esos rituales operativos que produce casi cero insight la mayoría de semanas y la señal decisiva ocasional en las semanas que importan. Hecha a mano se come dos o tres horas del lunes de alguien y deja de hacerse silenciosamente cuando el equipo se llena. Hecha como automatización cuesta una tarde construirla y corre para siempre.

¿Por qué molestarse? Dos estudios de 2026 ponen número al valor de ser citado. La investigación de Seer Interactive de noviembre de 2025 (42 marcas, 25M+ impresiones) encontró que el CTR orgánico corre un 35% más alto cuando tu marca es citada dentro del AIO vs un AIO que no te cita. Y el tracker industrial de 2026 de BrightEdge encontró que en finanzas, solo ~11% de las citas AIO vienen de páginas del top 10 orgánico — significando que rankear y ser citado son cada vez más problemas distintos. La tasa de citación es la métrica que captura una fuga que los trackers de ranking no pueden ver.

Este artículo es la arquitectura. No es un pitch SaaS, no es un tutorial — un patrón que puedes copiar, adaptar y poseer.

Qué hace la automatización

Una vez por semana, en una planificación fija, el sistema lee un set curado de 50 prompts desde una hoja. Por cada prompt corre cuatro llamadas API en paralelo — ChatGPT, Claude, Perplexity y Google AI Overviews (vía SerpAPI). Por cada respuesta chequea si la marca trackeada se nombra, si se nombran los competidores nombrados, y qué dominios se citan.

Escribe 200 filas a una base de datos (50 prompts × 4 superficies), calcula un delta semana-a-semana contra la corrida anterior, agrega un digest corto y lo publica en Slack o email.

Para el lunes por la mañana el trabajo está hecho y la pregunta que vale la pena hacerse es “¿se movió algo?” — no “¿cuál es el número?”.

El stack, nombrado explícitamente

Orquestador: Make.com o n8n. Cualquiera vale. Make.com es más rápido para shippear si prefieres escenarios visuales; n8n es más rápido si quieres control self-hosted. Cualquier cosa que soporte iterators, aggregators, triggers programados y módulos HTTP sirve.
Modelos: las APIs públicas. OpenAI para la superficie ChatGPT. Anthropic para la superficie Claude. Modelos sonar de Perplexity (sonar-pro recomendado) — Perplexity expone un campo citations nativo, que es la fuente más limpia para datos de dominios-citados. SerpAPI para la superficie Google AI Overview — es la forma más fiable que he encontrado de parsear AIOs programáticamente junto con las fuentes citadas.
Storage: Notion, Airtable o Postgres. Notion no tiene fricción hasta unos pocos miles de filas. Migra a Postgres o Airtable una vez el volumen sea sostenido.
Registro de prompts: Google Sheets o Notion. Mantenlo editable. La fricción de un humano editando filas es lo que mantiene el set honesto.
Superficie humana: Slack o email. Seis líneas, sin gráficos. El detalle vive en la base, enlazado desde el digest.

Tres decisiones de diseño que importan más de lo que parecen

Estas son las que muerden a equipos que intentan construir esto desde una descripción.

El schema de fila es por (prompt × superficie × semana), no por prompt. Es tentador hacer cada prompt una fila con cuatro columnas (una por superficie). Es inusable. No puedes calcular “tasa de citación Perplexity esta semana vs la pasada” con ese schema sin escribir joins custom. El schema expandido hace que toda consulta interesante sea un filtro de una línea.

Capea paralelismo en 6–8, no ilimitado. Make.com (y la mayoría de orquestadores) con gusto dispara 200 peticiones en paralelo. El rate limit de Perplexity empezará a rechazarlas y tus números se vuelven no-deterministas. El cap te cuesta unos minutos de runtime total y te ahorra una mañana de debug.

La pasada de listar-fuentes corre como llamada API separada. Pedirle al modelo “responde esto y lista tus fuentes” degrada medible la calidad de respuesta — el modelo optimiza dos outputs a la vez. Mejor preguntar la real primero y luego mandar un segundo turno pidiendo al modelo que liste retroactivamente las fuentes que habría citado. Imperfecto, todavía útil para datos direccionales.

Los 50 prompts: cómo elegirlos

El set de prompts es la totalidad del punto de la automatización. La automatización corre cada semana; los prompts deberían revisarse trimestralmente. Un procedimiento viable:

Tira las preguntas que los compradores le han hecho al pipeline de ventas los últimos 90 días. Si tu CRM soporta tagging, taguea todo lo que empieza con “cómo”, “qué”, “cuál”, “es X mejor que”.
Tira las preguntas que el widget de chat de soporte ha logueado los últimos 90 días. Intercom, Crisp y similares exportan todos.
Filtra a preguntas que se pueden contestar en una superficie IA pública. Quita preguntas que dependen de conocimiento privado (“¿tu producto se integra con mi CRM interno?”).
Agrupa por categoría y elige un puñado por categoría. Apunta a unos 50 totales — pequeño suficiente para leer a mano, grande suficiente para suavizar ruido semanal.

Sin herramienta de keywords. Sin filtro de volumen de búsqueda. Los prompts son lenguaje de comprador, no lenguaje de consulta-de-búsqueda. Las dos divergen más de lo que la mayoría de marketers admite.

Qué pinta tiene el digest

El digest es corto a propósito. Seis líneas, diseñado para ser legible en los cuatro segundos entre abrir Slack y decidir si abrir la base.

🟢 Tasa de citación de marca: 31% (+2 pp vs semana pasada)
🟢 ChatGPT: 38% (+4 pp)  ·  Perplexity: 41% (+2 pp)
🟡 Gemini: 24% (−1 pp)   ·  AI Overview: 22% (+3 pp)
🔴 Citas perdidas: 3 prompts  (abre hilo para lista)
🟢 Citas ganadas: 7 prompts
↘  Top dominio competidor esta semana: example.com

Los números y colores importan para el triaje en visión periférica. El enlace “abre hilo para lista” apunta a una vista filtrada de la base — el trabajo que el equipo realmente hace vive ahí.

Qué desbloquean los datos

El punto de la automatización no es el informe. Es lo que el informe desbloquea.

Citas perdidas esta semana → mira los prompts. Si la respuesta cambió porque un competidor publicó una página nueva, es un gap de contenido. Si la respuesta cambió porque el modelo actualizó sus priors, es un problema estructural de refuerzo de entidad.

Citas ganadas esta semana → revisa qué se shippeó hace dos a cuatro semanas que pueda ser responsable. El lag entre publicar una página citation-friendly y verla aflorar en respuestas es real, aunque varía por superficie e idioma. Trackear el lag para tu propio programa a lo largo del tiempo es mucho más útil que confiar en un benchmark publicado.

Divergencia entre superficies → si la tasa de citación de ChatGPT sube mientras Gemini baja sobre los mismos prompts, algo se está moviendo en la capa de modelo. Vale una nota, no siempre vale actuar inmediatamente.

La mayoría de semanas el digest no produce acción. Eso es correcto. El punto es detectar cuando algo se ha movido, no manufacturar trabajo. La automatización paga su coste las pocas semanas al año en que un cambio real en los datos permite al equipo actuar en siete días en lugar de siete semanas.

Esfuerzo de construcción

Reserva una tarde concentrada para la v1 si estás cómodo con orquestadores no-code. Añade una segunda tarde para la v2 una vez hayas convivido con la v1 dos o tres semanas y sepas qué quieres cambiar. El mayor coste oculto no es el build — es la disciplina de curar el set de prompts y refrescarlo trimestralmente.

Qué hacer esta semana si esto te interesa

Tres opciones, en orden de esfuerzo.

DIY. La checklist de este artículo basta para reconstruirlo desde cero. No te saltes el cap de paralelismo.
Híbrido. Corre el build DIY para señal interna, complementa con una herramienta SaaS como Profound o Peec cuando necesites números defendibles para un informe externo.
Done-for-you. Construimos versiones de esto para clientes como parte de un engagement GEO. El enlace de contacto del footer es el punto de entrada correcto si quieres scopearlo.

La automatización es la parte más barata de operar un programa GEO serio. La parte cara es la disciplina de mirar el digest cada semana y actuar sobre las pocas señales que vale la pena actuar. El build de abajo es básicamente una forma de hacer la disciplina más barata.

La arquitectura, en orden

Del trigger programado al digest en Slack

Trigger programado dispara

Elige una hora tranquila (p. ej. lunes temprano). El escenario corre sin supervisión.
Lee la hoja de prompts

Tira los 50 prompts, cada uno tagueado con la marca a trackear y 2–4 nombres de competidores.
Despliega a cuatro superficies

50 prompts × 4 superficies = 200 llamadas API. Capea concurrencia en 6–8 para respetar el rate limit de Perplexity; la superficie más lenta dicta el runtime total.
Parsea + matchea

Cada respuesta se chequea por mención de marca, mención de competidor y dominios citados. Para superficies que no exponen citas nativamente, usa una llamada follow-up en modo JSON pidiendo al modelo que liste las fuentes.
Escribe a la base de datos

Una fila por (prompt × superficie × semana). Pon el campo semana-ISO para que los diffs semanales sean un filtro simple, no un join.
Calcula delta semana-a-semana

Busca la fila correspondiente de la semana ISO anterior. Marca cada celda ganada / perdida / estable.
Agrega + publica digest

Agrega tasa de citación por superficie, lista los top prompts ganados y perdidos, y publica un mensaje corto en Slack con enlace de vuelta a la vista de la base para detalle.

Por qué automatizar esto en absoluto

“Hacer la auditoría a mano es viable una o dos semanas. La razón para automatizar es que la consistencia es lo que hace que los deltas semana-a-semana signifiquen algo. Una medición hecha de cuatro maneras distintas a través de cuatro lunes distintos es ruido.”

— Elizabeth S.

Fundadora, Citable

Preguntas frecuentes

Lo que preguntan los compradores antes de reservar

¿Por qué no comprar una herramienta de tracking de citas como Profound o Peec?

Son geniales cuando necesitas números defendibles para un informe externo, con historia SOV y source-of-truth de citas a través de versiones de modelo. La versión DIY es la herramienta correcta cuando controlas el set de prompts, quieres iterarlo semanalmente y necesitas un dashboard interno sin fricción. Las dos coexisten en un programa maduro — el SaaS para reporte de board, el DIY para señal operativa.

¿50 prompts es suficiente para ser estadísticamente significativo?

Para tasa de citación absoluta, no — querrías un set mucho mayor para intervalos de confianza ajustados. Para dirección semana-a-semana sobre un set estable, 50 es razonable. La señal que importa es el delta, no el nivel absoluto. Una bajada en un set fijo de 50 prompts es real aunque el nivel subyacente tenga barras de error amplias.

¿Cómo manejas que ChatGPT no exponga citas directamente vía API?

Dos pasadas. Primera: pregunta la original y captura el texto de respuesta. Segunda: manda un system prompt corto pidiendo al modelo que liste las fuentes que habría citado para producir esa respuesta, salida JSON. Es imperfecto — el modo respuesta y el modo listar-fuentes no son idénticos — pero produce datos direccionales útiles para una auditoría semanal.

¿Cuál es el mayor modo de fallo que debería preocuparme?

El rot del set de prompts. La razón por la que esto funciona es que los prompts reflejan las preguntas que los compradores hacen de verdad hoy. Si fijas los prompts una vez y no los revisas, en un año estás trackeando una forma de pregunta que los compradores ya no usan. Refresca el set trimestralmente con preguntas que las llamadas de venta y los widgets de chat hayan aflorado de verdad.

¿Dónde consigo ayuda si quiero esto montado para mi marca?

Dos caminos. Si estás cómodo con workflows no-code, la checklist de esta página basta para construir la v1 en una tarde concentrada. Si quieres que te lo montemos como parte de un engagement GEO, es un deliverable de alcance fijo en nuestro retainer. El enlace de contacto en el footer es el punto de entrada correcto.

Reserva una tarde concentrada para la v1. Luego corre sola.

La checklist de construcción — doce pasos del lienzo en blanco al digest

Cura 50 prompts en una Google Sheet. Una columna: el prompt. Segunda columna: la marca a trackear. Tercera columna: 2–4 nombres de competidores. Solo preguntas reales de compradores — nada de exports de keyword tool.
Provisiona API keys: OpenAI, Anthropic, Perplexity (sonar-pro), SerpAPI (para el parse de Google AI Overview).
Crea una base Notion (o Airtable / Postgres) con estas columnas: Prompt, Superficie, Semana-ISO, Marca-mencionada (checkbox), Competidor-mencionado (multi-select), Respuesta-cruda (texto largo), Dominios-citados (multi-select), Delta-semana-pasada (select: ganada / perdida / estable).
Construye un escenario en Make.com (o n8n) disparado por planificación semanal.
Módulo 1: lee las 50 filas de prompts desde Google Sheets.
Módulo 2 (Iterator): por cada prompt, despliega cuatro llamadas API en paralelo — OpenAI, Anthropic, Perplexity, SerpAPI.
Módulo 3 (Text Parser): regex-match cada respuesta contra las cadenas de marca y competidor. Salida: booleanos más dominios matcheados (Perplexity expone un campo de citas nativo; para ChatGPT y Claude, usa una segunda llamada en modo JSON pidiendo al modelo que liste las fuentes que citaría).
Módulo 4: crea una fila por (prompt × superficie). Pon Semana-ISO a la semana ISO actual.
Módulo 5: busca en la base la misma combinación prompt × superficie de la semana ISO anterior. Calcula Delta-semana-pasada.
Módulo 6 (Aggregator): agrega tasa de citación a través de los 50 prompts × 4 superficies. Formatea un mensaje digest corto.
Módulo 7: publica el digest en Slack (o email, o una página dashboard).
Manejador de error: ante cualquier fallo de API, loguea en una tabla de fallos separada y continúa. Un único corte de superficie nunca debería bloquear las otras tres.