AI Performance: Cómo exportar el mapping completo de queries y páginas citadas de Bing Webmaster Tools (bookmarklet)

Bing añadió en marzo el Grounding Query↔Page Mapping dentro del AI Performance report de su Webmaster Tools, con la idea de poder ver qué queries activan citaciones a qué URLs concretas en las respuestas de Copilot, partners y APIs que sirven a productos de terceros). Para entenderlo bien estos son los 2 conceptos que tienes que conocer:

  • Citations: cuántas veces tu contenido es referenciado por AI systems.
  • Grounding queries: Son las queries que el AI utilizó internamente para hacer retrieval, no necesariamente lo que el usuario escribió. El AI reescribe, expande y normaliza la consulta antes de buscar.

El problema es que si quieres sacar las grounding queries de cada página, o al revés, tienes que ir de una en una y en los exports esta info no está mapeada. Y para sitios con cientos de queries y miles de páginas, eso es inservible.

En su día me construí un workaround haciendo el matching por similitud semántica, pero no es lo mismo.

He construido un bookmarklet que extrae todo el mapping y lo descarga como 3 CSVs listos para Excel o Sheets. Se ejecuta en tu navegador con tu sesión, sin enviar datos a ningún servidor externo. Si la cuenta se topa con el rate-limit de Bing, espera y reintenta sola, así que no te preocupes, hay que tener paciencia. Puedes dejar la pestaña abierta y sigue haciendo tus cosas en otra.

Instalación del bookmarklet

Arrastra este botón a tu barra de favoritos:

Bing AI Performance Exporter

Arrastra el botón a la barra de favoritos. Si haces click aquí no hace nada (los bookmarklets solo funcionan sobre la página objetivo).

Si tu barra de favoritos no se ve, actívala con Cmd+Shift+B (Mac) o Ctrl+Shift+B (Windows).

Cómo usarlo

  1. Entra en Bing Webmaster Tools y abre el report de AI Performance de la propiedad que quieras analizar.
  2. Elige el rango temporal: 7 días, 30 días, 3 meses o Custom. El bookmarklet detecta automáticamente cuál tienes activo.
  3. Haz click en el bookmark de la barra de favoritos.
  4. Verás un panel con spinner y progreso en vivo. Cuando termine, te ofrece 3 CSVs.
  5. Si Bing te rate-limita en mitad del proceso, el bookmarklet espera 5 min y reintenta solo. No tienes que hacer nada.

Tiempos esperados:

Tamaño del sitio Tiempo aproximado
5-20 queries / pages ~5 segundos
~100 queries / ~250 pages ~2 minutos
~500 queries / 1.000 pages ~8-10 minutos
~1.000 queries / 2.000 pages ~15-20 minutos
2.500+ queries (enterprise) 30-60 min, con autoespera por rate-limit

Qué hace si Bing te rate-limita

Cuando Bing detecta demasiadas peticiones, el bookmarklet:

  1. Muestra "Bing throttled. Auto-resuming in 5m 0s. Keep this tab open."
  2. Espera exactamente 5 minutos.
  3. Hace un probe ligero al API.
  4. Si el API responde OK, continúa desde donde se quedó.
  5. Si sigue throttled, espera otros 5 minutos y vuelve a probar. Repite hasta 12 ciclos (1 hora máxima de espera).

Todo lo que llevas mapeado queda guardado en localStorage del navegador. Si por lo que sea cierras la pestaña o recargas, al volver a clicar el bookmark hace resume automático con lo que llevabas. Nunca pierdes la data 😀

Lo único que tienes que hacer es no recargar la pestaña mientras está esperando. Si recargas y Bing está fuerte con el rate-limit, puede que veas una página con un mensaje JSON de "too many requests": eso es normal... recargas en 10 min y la web vuelve y puedes seguir con el proceso, pero mejor no hacerlo.

Qué obtienes

Tres CSVs con prefijo bing-aip_<dominio>_<fecha>_:

mapping.csv

El mapping completo en formato largo. Una fila por combinación query+URL con sus citations. Sirve tanto para pivot "queries por página" como "páginas por query" en Excel o Sheets sin tener que hacer joins.

queries-summary.csv

Una fila por query: total de citations y cuántas páginas tiene mapeadas.

pages-summary.csv

Una fila por página con citations totales, mapeadas, sin mapear y número de queries asociadas. Esta es la tabla más interesante porque expone el sample-bias de Bing en la columna unmapped_citations: páginas con citations totales pero sin queries identificadas en el mapping (la API no las expone).

El sampling de Bing

La propia UI de Bing avisa que no es toda la data, es un sampling de la misma, o lo que es lo mismo, qu el mapping query↔page que Bing expone es parcial.  Para cada URL puedes ver el total de citations que tiene asociadas (cuántas veces fue referenciada por AI systems en total), pero solo una parte de esas citations Bing puede atribuirlas a una grounding query concreta vía el sample. El resto queda como "citations sin query identificada". A esta porción con query asociada la llamo citations mapeadas.

He probado en 6 sitios con perfiles muy distintos:

Sitio Tipo Pages Citations totales Citations mapeadas Coverage
A Sitio profesional, mono-locale, micro 13 142 35 24.6%
B Tienda online vertical, mono-locale, pequeña 263 15.224 10.974 72.1%
C Plataforma transaccional, multi-locale, mediana 2.380 77.164 31.185 40.4%
D Plataforma servicios B2C, mono-locale, mediana 1.219 213.841 83.492 39.0%
E Tienda online generalista, mono-locale, grande 4.912 1.820.471 845.247 46.4%
F Plataforma transaccional, multi-locale, grande 4.751 9.628.043 9.297.849 96.6%

Conclusiones del cruce de cobertura:

  • El coverage va del 24% al 97% según el sitio. No hay patrón evidente de "más/menos volumen = mejor coverage": el sitio E (1.8M citations) tiene 46% mientras el sitio F (9.6M) tiene 97%. El comportamiento es parece errático, pero luego comparto algunas hipótesis en hallazgos.
  • El % de páginas que tienen alguna query mapeada es aún más bajo: típicamente entre 10% y 25% en sitios medianos/grandes. La mayoría de URLs citadas no tienen ninguna query asociada en el sample.
  • Para sitios pequeños (menos de 200 citations totales) el dato es prácticamente inservible. Solo se mapean las queries top.

El CSV pages-summary.csv te da esa información explícita en la columna unmapped_citations. Si una URL tiene 28 citations pero 0 queries mapeadas, esa página tiene tráfico generativo "fantasma" que Bing no te enseña de dónde viene.

¿Las grounding queries corresponden a demanda real de búsqueda?

Una pregunta que siempre he querido responder es si ¿esas queries existen como búsqueda real, o el AI grounding está generando unas queries que un humano no busca?

Para responderlo crucé los datos de grounding con dos fuentes:

  • Bing Webmaster Tools API: clicks e impressions de búsqueda en Bing por query, mismo rango temporal. La API capa a 6.700 records por llamada agregada, así que para sitios con miles de queries hay que hacer lookup query-por-query con GetQueryPageStats(query), una llamada por cada grounding query.
  • Google Search Console: impressions por query del mismo período, exportado a CSV.

¿Qué % de queries de grounding puedo encontrar en mi Search Console o Webmaster Tools? ¿Y cuántas son únicas del grounding, invisibles en mis informes habituales?

Para cada query que aparece en el reporte de grounding, miro si esa misma query también recibe impressions en Google Search Console (búsqueda normal de Google) y en Bing Webmaster Tools (búsqueda normal de Bing):

Sitio Tipo Total Q grounding ∩ 3 buscadores Solo Bing Solo Google Solo grounding
A Sitio profesional, mono-locale, micro 3 0 (0.0%) 0 (0.0%) 2 (66.7%) 1 (33.3%)
B Tienda online vertical, mono-locale, pequeña 68 43 (63.2%) 7 (10.3%) 13 (19.1%) 5 (7.4%)
C Plataforma transaccional, multi-locale, mediana 569 79 (13.9%) 25 (4.4%) 277 (48.7%) 188 (33.0%)
D Plataforma servicios B2C, mono-locale, mediana 1.098 325 (29.6%) 38 (3.5%) 462 (42.1%) 273 (24.9%)
E Tienda online generalista, mono-locale, grande 2.546 322 (12.6%) 28 (1.1%) 1.588 (62.4%) 608 (23.9%)
F Plataforma transaccional, multi-locale, grande 2.473 352 (14.2%) 44 (1.8%) 1.631 (66.0%) 446 (18.0%)

% de queries recuperables (con presencia en al menos un buscador): A 67%, B 93%, C 67%, D 75%, E 76%, F 82%. Mediana ~76%. Entre el 7% y el 33% de las queries que disparan grounding no se ven ni en Bing ni en Google.

Por peso de citations el cuadro cambia

La tabla anterior cuenta queries (cada una vale 1). Si ponderamos por citations (cuánto pesa cada query en el total de referencias de tu URL en respuestas AI), las queries "solo grounding" se reducen porque suelen ser cola larga con pocas citations cada una:

Sitio Total citations ∩ 3 buscadores Solo Bing Solo Google Solo grounding
A 35 0 (0.0%) 0 (0.0%) 28 (80.0%) 7 (20.0%)
B 11.052 10.380 (93.9%) 322 (2.9%) 285 (2.6%) 65 (0.6%)
C 31.185 16.740 (53.7%) 3.676 (11.8%) 6.552 (21.0%) 4.217 (13.5%)
D 83.804 59.180 (70.6%) 2.724 (3.3%) 15.443 (18.4%) 6.457 (7.7%)
E 851.659 644.043 (75.6%) 86.383 (10.1%) 95.624 (11.2%) 25.609 (3.0%)
F 9.304.615 8.521.096 (91.6%) 274.386 (2.9%) 474.232 (5.1%) 34.901 (0.4%)

Hallazgos observados

  1. La cola larga de grounding es invisible para los analytics normales. Por número de queries, entre el 7% y el 33% de lo que dispara citations AI no aparece en Bing search ni en GSC. Si tu plan era "auditar las queries AI mirando solo Bing Webmaster Tools normal y Search Console", te estás perdiendo entre un séptimo y un tercio del fenómeno.
  2. Pero esas queries invisibles pesan poco en citations. La misma cola larga aglutina muchas queries con pocas citations cada una. Por eso, ponderando por citations, "solo grounding" baja al 1%-26%. Dependiendo de qué quieras medir (descubrir queries nuevas vs entender qué impulsa tu volumen AI), una métrica u otra cuenta.
  3. Google captura más intent de grounding que Bing search. En todos los sitios medianos/grandes, "solo Google" añade entre 34% y 63% de queries (por count) mientras "solo Bing" se queda en 0.9%-4.4%. Bing search tiene poca cuota en español, pero Bing AI/Copilot sirve un público global que sí ve sus citations, creo que este puede ser ele motivo principal de discrepancia.
  4. Google captura más intent de grounding que Bing search. En todos los sitios medianos/grandes, "solo Google" añade entre 42% y 66% de queries (por count) mientras "solo Bing" se queda en 1.1%-4.4%. Bing search tiene poca cuota en España, pero el grounding de Microsoft alimenta a múltiples AI systems globales y captura intent que su buscador propio no. 
  5.  Hay dos casos donde "solo Bing" pesa fuerte en citations: sitios E (10.1%) y C (11.8%). No me arriesgo a explicar por qué. Posibles factores: audiencias más afines a Microsoft (Edge users), mercados internacionales que el GSC del usuario no recoge bien, o queries que el AI reescribe internamente y resultan más cerca del índice de Bing que del de Google. En esos sitios sé que son productos con tirón fuera de España y que son buscados en español en mercados del otro lado del charco. Lo dejo como observación, no como conclusión.

El bucket "solo grounding" tiene queries raras de varias clases

Nota: las queries de los ejemplos son inventadas para no exponer datos de cliente, pero los patrones son fieles a lo que aparece en los logs reales.

Cuando filtras las queries que SOLO aparecen en grounding (no en Bing search ni en Google), las clases que veo:

  • Truncadas o fragmentadas. Bing expone grounding queries cortadas como si fueran completas: zapatillas running mujer talla pequeñ, zapatillas running mujer tal, zapatillas running muje. No se si es que usa las del user que ha dado enter sin completar o ha usado algón autocompeltado.
  • Brand-augmented por prior del modelo. El usuario probablemente preguntó "mejor robot aspirador para pelo de mascotas", pero la query que Bing reporta como source es roomba pelo mascotas opiniones, xiaomi robot aspirador mascotas, cecotec conga pelo perro. El modelo añade marcas conocidas del vertical (que él asume) y eso queda en el log como si fuera la query original. Aparecen citaciones a tu sitio aunque el user nunca tecleó la marca competidora.
  • Multi-idioma cuando el sitio sirve multi-mercado. En sitios globales aparecen queries en idiomas que el GSC del mercado local no recoge: how to descale a coffee machine en inglés, como limpar máquina de café en portugués, come decalcificare macchina caffè en italiano. Ya se sabe que el grounding lo puede hacer la IA en otro idioma para expandir el corpus.
  • Variaciones regionales muy específicas. Por ejemplo en servicios profesionales: abogado herencias internacionales la rioja / melilla / ceuta / teruel. Long-tail informacional pero haciendo una expansión con poco sentido.

Esto explicaría el motivo de que no existan en Google, son cosas que ningún usuario buscaría y exclusivo del funcionamiento del fan-out.

¿Y a nivel URL? ¿Hay URLs citadas por AI que Google o Bing orgánico no sirve?

Misma idea pero ponderando por URL citada. Para que el cruce sea correcto hay que crawlear cada URL grounding, seguir redirects 301 y canonicals, status final, y comparar el destino final contra GSC. La URL exacta no vale ya AI memoriza slugs viejos y cita variantes con canonical, noindex, 404...

Sitio URLs grounding Total citations AI-only URLs (% sobre grounding) AI-only citations (% sobre total)
A 13 142 0 (0.0%) 0 (0.0%)
B 262 15.224 0 (0.0%) 0 (0.0%)
C 2.378 77.164 167 (7.0%) 709 (0.9%)
D 1.219 213.841 15 (1.2%) 172 (0.08%)
E 4.836 1.820.471 12 (0.2%) 169 (0.009%)
F 4.744 9.628.043 0 (0.0%) 0 (0.0%)

Como vemos quedan algunas urls AI-only pero en mi caso el motivo es puramente técnico. No tengo acceso a la data completa de BigQuery y/o no tengo varias propiedades de Search Console para evitar el sampling. Tampoco tengo acceso de más de 3 meses a los logs.

Aun así, tras filtrar artefactos técnicos, sampling, equivalencias cross-language y presencia en Bing, el AI-only verdadero (URLs invisibles en Google y Bing simultáneamente) queda en 0.004%-0.9% de las citations. El gap entre AI y motores de búsqueda es residual y la mayor parte de lo que parecía "descubrimiento" eran legacy URLs, páginas borradas, duplicados con canonical, datos suprimidos por el muestreo y variantes de idioma de páginas que Google sí indexa en otra locale.

Privacidad

  • El script se ejecuta en tu navegador, sobre la página de BWT, con tus cookies de sesión.
  • No envía nada a ningún servidor externo.
  • No usa analytics.
  • Los datos parciales se guardan en localStorage del propio Bing, solo para hacer resume tras un rate-limit. Caduca a las 24h.
  • El código fuente es legible y minificado. Puedes auditarlo antes de instalarlo.

Cómo funciona por dentro

Bing usa internamente dos endpoints REST que ya están autenticados por tu sesión:

  • POST /webmasters/api/aiperformance/searchqueries/stats devuelve queries
  • POST /webmasters/api/aiperformance/pages/stats devuelve páginas

El bookmarklet:

  1. Pide el CSRF token a /webmasters/auth/token.
  2. Lista todas las queries y todas las pages (paginado).
  3. Para cada query, llama a pages/stats con Query: X y guarda las páginas citadas con su número de citations.
  4. Aplica cooldown preemptivo cada 150 queries (45 segundos) para no agotar la cuota de rate-limit.
  5. Si llega un 429 o un body con "too many requests", pausa 5 minutos, hace probe del API, reintenta. Loop hasta resolver o llegar al límite de 1 hora.
  6. El pages-summary se deriva del mapping anterior: unmapped_citations = total - mapped.
  7. Genera 3 CSVs en memoria y los ofrece como descargas.

Cuando Bing devuelve 404 NoDataFound significa "esa página/query no tiene mapping en el sample", no es un error.

Nota técnica: es redundante sacar la data al revés page -> query, es la misma y de esta forma se tarda menos.

Solución de problemas

"Open this on the AI Performance page" error. Has ejecutado el bookmarklet desde otra página. El propio mensaje te da un link directo al report del sitio que tenías abierto.

Solo se descarga 1 CSV. Chrome a veces bloquea descargas múltiples. Permite el aviso que aparece en la barra de direcciones, o usa los botones individuales del panel.

"403 / 401" o errores en auth/token. Tu sesión de Bing ha expirado. Recarga la página y vuelve a ejecutar el bookmarklet.

Veo "Bing throttled. Auto-resuming in 5m 0s". Tranquilo, es normal. No recargues. Deja la pestaña abierta y vuelve en 5-10 min. El bookmarklet sigue solo desde donde estaba.

Próximos pasos

  • Cease and Desist de Microsoft

Si lo usas y te ayuda, cuéntamelo. Si te explota algo, también.

Natzir Turrado 18 mayo 2026

Compartir

Facebook Linkedin Twitter

Otros artículos

Estado de medibilidad del tráfico IA

La medibilidad del tráfico generado por IA varía mucho según el tipo de tráfico, ya que no es lo mismo un crawler de training que un click humano desde una cita, ni un fetcher on-demand que un agente navegando. Esta tabla resume el estado actual a mayo de 2026, clasificando por servicio, nivel de medibilidad […]

Leer más

¿Se puede hacer SEO para Muvera? ¿Existe el Muvera Update?

MUVERA (Multi-Vector Retrieval Algorithm) es un paper de investigación de Google publicado en arXiv el 29 de mayo de 2024. Su objetivo es mejorar la eficiencia de la recuperación semántica multivectorial (como la que usa ColBERT), transformándola en un problema de recuperación monovectorial mediante una técnica llamada Fixed Dimensional Encodings (FDEs). Es decir, se trata […]

Leer más