Herramientas para medir visibilidad en IA: Lo que no te cuentan los Prompt Trackers

Las herramientas para medir visibilidad en la IA (prompt trackers) prometen medir algo que es imposible medir con precisión.

Este informe técnico examina por qué medir la visibilidad en IA es técnicamente problemático, qué dice la evidencia disponible  y cómo evaluar las herramientas del mercado.

La evidencia científica

Los LLMs son inconsistentes por diseño

La investigación académica ha demostrado que los modelos de lenguaje son intrínsecamente no determinísticos, incluso con configuraciones supuestamente "determinísticas":

  • Un paper de enero 2025 en ACM Transactions encontró que en el 75,76% de tareas de CodeContests, ChatGPT no produjo dos outputs idénticos con temperature=0, que muchos creen erróneamente que garantiza determinismo. Algo que demostré en esta charla el año pasado.
  • El estudio de Wang y Wang (marzo 2025) analizó 3.4 millones de outputs a través de 50 ejecuciones independientes por tarea. Los modelos más avanzados no son más consistentes: GPT-4o produjo respuestas exactamente iguales solo el 3% del tiempo, mientras que GPT-3.5 Turbo alcanzó el 97%. La recomendación de los autores es ejecutar 3-5 ejecuciones para mejorar la consistencia estadística. Ninguna herramienta del mercado habla de esto.
  • El paper de Anthropic (noviembre 2024) reveló un problema estadístico que afecta directamente a las herramientas de AI visibility: cuando ejecutas muchos prompts sobre temas relacionados, los errores no son independientes. Si el modelo tiene un sesgo hacia o contra tu marca en el tema "software CRM", fallará sistemáticamente en todos los prompts sobre CRM, no aleatoriamente. Anthropic encontró correlaciones de 0.3 a 0.7 entre preguntas relacionadas, lo que significa que 30 prompts sobre temas similares no equivalen a 30 datos independientes, sino quizás a 5-10. Hay muy poca transparencia en el método/proceso exacto que usan los llm trackers para obtener las respuestas, por lo que no sabemos si esto podría ser un problema o no.
  • La variabilidad no solo viene de la aleatoriedad inherente del modelo, sino también del formato del prompt. En la revisión que hice recientemente de la literatura científica documenté diferencias de hasta 76 puntos de precisión por cambios menores como espacios, puntuación o mayúsculas (FormatSpread, Sclar et al.).

Volatilidad medida: 40-60% de cambio mensual

El estudio de Profound (julio 2025) analizó ~80,000 prompts por plataforma comparando junio con julio:

  • Google AI Overviews: 59,3% de los dominios citados cambiaron
  • ChatGPT: 54,1%
  • Microsoft Copilot: 53,4%
  • Perplexity: 40,5%

En periodos de 6 meses, la volatilidad se dispara al 70-90%.

Profound ai search volatility

El estudio de SparkToro sobre consistencia de marcas

El estudio de SparkToro (enero 2026) ejecutó 2.961 prompts a través de 600 voluntarios usando ChatGPT, Claude y Google AI en 12 categorías. Resultados:

  • Menos de 1 en 100 probabilidades de obtener la misma lista de marcas dos veces
  • Menos de 1 en 1.000 probabilidades de obtener la misma lista en el mismo orden

La variabilidad depende del tamaño del espacio de consideración. Para queries con pocas opciones (concesionarios Volvo en Los Ángeles), la correlación es alta. Para espacios amplios (novelas de ciencia ficción), la variabilidad es extrema.

Un hallazgo importante es que aunque las listas y rankings son aleatorios, el porcentaje de visibilidad (cuántas veces aparece una marca en múltiples ejecuciones) dice que puede ser una métrica válida. "City of Hope hospital" apareció en el 97% de las respuestas sobre hospitales oncológicos en la costa oeste, aunque su posición variaba constantemente.

Conclusión de Rand Fishkin: "Cualquier herramienta que dé una 'posición de ranking en IA' está llena de tonterías." El visibility % puede tener validez pero el ranking no.

Aun así, que una métrica sea "menos aleatoria" no la convierte en útil. El visibility % te da una foto borrosa de algo que no puedes controlar, porque está basada en prompts que no son los que hacen tus usuarios reales, ejecutados en condiciones que no reflejan su experiencia. Es el menos malo de los indicadores, pero sigue siendo un indicador de valor limitado.

Para tener un visibility % "fiable" necesitas ejecutar cientos o miles de prompts múltiples veces. El coste computacional (y económico) de de eso para conseguir un dato direccional que no correlaciona con tráfico ni conversiones es difícil de justificar.

Investigacion inconsistencia ia recomendaciones productos marcas

Cómo deciden los LLMs qué información mostrar

El sistema QDF de ChatGPT

La filtración del system prompt de GPT-5  revela que ChatGPT usa un sistema QDF (Query Deserves Freshness) con escala de 0 a 5:

  • 0: Histórico, no importa que esté actualizado
  • 1: Relevante si es de los últimos 18 meses
  • 2: Relevante si es de los últimos 6 meses
  • 3: Relevante si es de los últimos 90 días
  • 4: Relevante si es de los últimos 60 días
  • 5: Lo más reciente de este mes

No todas las queries activan búsqueda web. Un parámetro use_freshness_scoring_profile evalúa para cada query si necesita información externa.

Reranking

El sistema de reranking de ChatGPT (ret-rr-skysight-v3) aplica señales adicionales: detección de intención, terminología de dominio, filtrado por tipo de fuente. Todo esto depende de tu conversación.

Los leaks de Claude Sonnet 4.5 muestran un patrón similar: el modelo categoriza consultas en "nunca buscar" (hechos estables, definiciones), "single search" (términos desconocidos), y "research" (2-20 llamadas con contraste multi-fuente). Además, si hay herramientas internas, cambian los pesos.

Las patentes de Google que demuestran por qué los prompts sintéticos no funcionan

Estas dos patentes demuestran por qué las herramientas externas no pueden replicar cómo Google genera query fan-out y organiza resultados.

  • Query Fan-Out (US20230281193A1): Google genera variantes de queries usando modelos sequence-to-sequence entrenados con datos de queries reales de usuarios, incluyendo pares de queries con clicks en los mismos documentos. El sistema usa atributos del usuario (ubicación, tarea, historial) no accesibles externamente, aprende de las respuestas del propio buscador, y genera variantes dinámicamente basándose en el contexto de la sesión.
  • Thematic Search (US12158907B1): Google genera temas a partir de resultados de búsqueda analizando documentos responsivos, generando resúmenes con modelos internos, agrupando en clusters temáticos, y ordenando por prominencia. El proceso depende de señales de ranking no públicas (calidad, autoridad, popularidad) y algoritmos propietarios.

Por qué la personalización hace imposible el tracking preciso

Memoria y contexto del usuario

ChatGPT implementa dos sistemas de memoria (Saved Memories y Chat History) que influyen en cada respuesta. Experimentos del AEO Agency Team demostraron que incluso bajo "condiciones de testing absolutamente idénticas, las respuestas a veces difirieron".

Para queries geo-dependientes, ChatGPT convierte internamente los prompts. Un usuario en Nueva York que pregunta "mejores tiendas de electrónica" recibe una consulta procesada como "trusted electronics brands NYC store". Usuarios de pago reciben además respuestas "significativamente mejores" que los gratuitos.

Google ahora lleva las preguntas de seguimiento de AI Overviews directamente a AI Mode, manteniendo el contexto de la conversación. La búsqueda ya no es una query aislada, es directamente una conversación donde cada pregunta influye en la siguiente. Las herramientas de tracking que ejecutan prompts sin contexto conversacional miden algo completamente diferente a lo que experimentan los usuarios reales.

Integración con datos privados

Robby Stein (VP de Producto en Google) anunció que usarán datos de Gmail, Drive y Calendar para personalizar respuestas. Una búsqueda de "mejores hoteles en Londres" tendrá en cuenta reuniones en Calendar, vuelos en Gmail, presupuestos en Sheets.

Google lanzó Personal Intelligence (enero 2026), que conecta Gemini con Gmail, Photos, YouTube y Search history. La función usa "context packing" para analizar repositorios de usuarios que superan el millón de tokens, extrayendo solo la información relevante para cada prompt. Un ejemplo de Google: preguntar por neumáticos para tu coche y Gemini extrae la matrícula de una foto en Google Photos, busca especificaciones en emails de Gmail, y sugiere opciones basándose en fotos de viajes anteriores.

Esto, sumado a que AI Mode genera interfaces al vuelo con Gemini 3, los chats grupales en ChatGPT (vale, nadie lo usa), y las memorias en todas las IAs... Si ya no tenían sentido los LLM trackers de 50 prompts, ahora menos.

MCPs y herramientas instaladas

Claude, ChatGPT y otros LLMs permiten conectar herramientas externas (MCPs) que modifican el comportamiento del modelo. Un usuario con MCP de su CRM instalado recibirá respuestas completamente diferentes. Las herramientas de visibility no pueden saber qué MCPs ni qué contexto tiene cada usuario.

Un pequeño cambio en system prompt, memorias, etc. cambia completamente el resultado. Es decir, no hay forma confiable de trackear usuarios de LLM.

Las herramientas del mercado

Las herramientas del mercado difieren en cuatro dimensiones: escala (cuántos prompts ejecutan), fuente de prompts (demanda real vs sintéticos), método de acceso (API vs scraping), y modelo de negocio.

Escala de datos

Escala masiva (millones de prompts):

  • SISTRIX: 10 millones de prompts por idioma × 5 idiomas = 50M prompts totales. ChatGPT, Gemini, DeepSeek.
  • Ahrefs Brand Radar: ~190 millones de prompts/mes. ChatGPT (10,6M), Perplexity (13,1M), Gemini (7,2M), Copilot (13,3M), AI Overviews (134M), AI Mode (13,5M).
  • Semrush AI Visibility: 100+ millones de prompts globales, incluyendo 90M+ en EEUU y 29M+ específicos de ChatGPT. ChatGPT, Perplexity, Gemini, Google AI Overviews/AI Mode.

Escala pequeña (decenas a cientos de prompts):

Fuente de los prompts

Demanda real (derivados de búsquedas web):

  • SISTRIX: sugerencias de prompts de ChatGPT + "People Also Ask"
  • Ahrefs: base de 28,7 mil millones de keywords + "People Also Ask"
  • Semrush: compra clickstream data de paneles de terceros (quizás mediante data de prompts substraida de extensiones de Google o Microsoft), agrupa los prompts en topics, anonimiza y simplifica, así que técnicamente es sintético porque no son los prompts exactos

Sintéticos (inventados por el cliente o la herramienta):

  • Conductor, Gumshoe, Otterly, Peec, Promptwatch, Profound: el cliente define sus propios prompts (por ejemplo, usan queries largas de Search Console) o la herramienta los genera algorítmicamente (prompts sintéticos, simulaciones de query fan-out)

Aunque Ahrefs llama a todo sintético: "Todas las herramientas usan prompts sintéticos ya que los datos de queries reales de usuarios no están disponibles." La diferencia es si esos prompts sintéticos derivan de señales de demanda real (PAA, keywords con volumen) o son completamente inventados.

Configuración de sesiones: La mayoría de herramientas ejecutan prompts en sesiones "limpias" (sin cookies, historial ni memoria). Gumshoe documenta explícitamente: "cada conversación empieza fresca, sin cookies ni historial, para asegurar resultados libres de sesgo". Esto es bueno para consistencia y replicabilidad, pero no refleja la realidad de usuarios con historial acumulado, memorias guardadas y contexto personalizado.

Personas/perfiles: Gumshoe usa un "enfoque persona-first", modelando cómo distintos segmentos de usuarios (roles, objetivos, pain points) formularían los prompts. El resto de herramientas trata todos los queries igual, ignorando que un CTO pregunta diferente que un marketing manager. Sin embargo, añadir personas introduce otra variable: o bien no cambian significativamente los resultados (según el estudio de Surfer que probó con system prompts filtrados), o bien añaden otra capa de variabilidad que hace los datos menos comparables entre herramientas.

Método de acceso: API vs Scraping

El estudio de Surfer SEO (diciembre 2025) comparó ambos métodos con 1,000 prompts:

  • ChatGPT vía API: promedio de 7 fuentes citadas
  • ChatGPT vía scraping: promedio de 16 fuentes citadas
  • Perplexity: coincidencia de fuentes entre métodos del 8%
  • 8% de llamadas API fallan en detectar menciones que sí aparecen en la interfaz

Conclusión de Wojciech Korczyński: "Monitorear respuestas desde API como proxy de tu AI visibility es totalmente erróneo."

Estudio busqueda ia respuestas scraped vs resultados api diferencias

Herramientas que documentan usar interfaces web (scraping):

  • Ahrefs: "All prompts run through the free, publicly available web interfaces of ChatGPT, Gemini, Perplexity, Copilot"
  • Otterly: usa Firecrawl.dev y SerpApi como subprocesadores de scraping
  • Otterly publicó un artículo explicando por qué las respuestas API difieren de las UI

Herramientas que priorizan API: Conductor, Gumshoe (argumentan estabilidad y compliance)

Metodología no especificada (o encontrada por mi) públicamente: SISTRIX, Semrush, Peec, Promptwatch, Profound. Entiendo también que se oculte por incumplimento de ToS, así que es probable que usen scraping.

El problema del desfase de versiones

Las herramientas testean versiones de modelos que pueden diferir de las que usan los usuarios (la última disponible). Los estudios de Wang y Wang demostraron también que modelos más recientes son más variables, no menos.

SISTRIX documenta exactamente qué modelos testea: gpt-4o-mini, gpt-4.1-mini para ChatGPT; gemini-2.0-flash-lite, gemini-2.0-flash, gemini-2.5-flash para Gemini; v3 para DeepSeek. Actualizan sus datos cuando se lanza un nuevo foundation model, reconociendo que "consultar los modelos más frecuentemente no añade valor, ya que la información en estos foundation models es estática."

La mayoría de herramientas no documentan qué versión del modelo testean ni con qué frecuencia actualizan.

Umbrales de significancia: ¿cuántos prompts necesitas?

El estudio de Wang y Wang mencionado antes recomienda 3-5 ejecuciones por prompt para obtener consistencia estadística, pero esas ejecuciones deben ser simultáneas o en la misma sesión. Ejecutar un prompt una vez al día durante un mes no cumple este requisito: son 30 mediciones de 30 estados diferentes del sistema (modelo actualizado o estado del backend, contenidos diferentes recuperados en la inferencia, contexto temporal distinto), no 30 mediciones del mismo estado.

Si hay menos de 1 en 100 probabilidades de obtener la misma lista dos veces, una herramienta con 25 prompts no puede darte una imagen representativa de tu visibilidad real, independientemente de cuántas veces ejecute esos 25 prompts.

Aún así, el problema real no es tanto la frecuencia de ejecución, sino la escala y representatividad:

  • 25 prompts ejecutados 30 veces cada uno siguen siendo 25 prompts. No representan el universo de queries que los usuarios reales hacen sobre tu sector.
  • Los prompts sintéticos inventados por el cliente reflejan lo que el cliente cree que preguntan los usuarios, no lo que realmente preguntan.

SparkToro usó 2,961 prompts con 600 voluntarios para su estudio. Profound usó ~80.000 prompts por plataforma. SISTRIX usa 10 millones por idioma. La diferencia de escala determina si puedes detectar patrones reales o solo ruido estadístico.

Modelo de negocio y estructura de precios

La diferencia más relevante es si el tracking de IA es un producto independiente o una funcionalidad dentro de una suite más amplia.

Herramientas especializadas (tracking como producto principal):

  • Otterly: desde $29/mes (10 prompts) hasta $149/mes (100 prompts)
  • Peec AI: €89/mes por 25 prompts en 3 países
  • Promptwatch: $89/mes (50 prompts), $199/mes (150 prompts), $499/mes (350 prompts)
  • Profound: desde $99/mes
  • SE Visible: $519/mes por 1,500 prompts
  • Gumshoe: $0,10 por conversación (pago por uso)

Suites con tracking incluido o como add-on:

  • SISTRIX: desde 119€/mes con AI Research incluido (50M prompts, 5 idiomas, 3 chatbots). Acceso a base de datos compartida y tracking de prompts personalizados.
  • Ahrefs Brand Radar: desde €179/mes por plataforma individual o €654/mes por todas las plataformas (Google AI, ChatGPT, Perplexity, Copilot, Gemini). Incluye 271M queries/mes del dataset de Ahrefs + 2,500 custom prompts/mes (luego €1,87/check adicional).
  • Semrush AI Visibility: $99/mes por dominio como add-on, o incluido en Semrush One desde $199/mes. Base de datos de 239M+ prompts; tracking personalizado de 25-50 prompts según plan.
  • Conductor: estimado $10.000-50.000 anuales (orientado a Fortune 500)

El coste de ejecutar 100 prompts diarios con GPT-4o-mini es ~$2,04/mes. Los márgenes de las herramientas especializadas oscilan entre 85-95%.

Como dice Kevin Indig: "Tracking is a feature, not a company." Las herramientas que dependen únicamente del tracking de IA como producto tienen incentivos para exagerar su valor y para abusar del desconocimiento del cliente. Como he escrito antes, lanzar 50 prompts para "medir tu visibilidad en IA" es como hacer una encuesta electoral preguntando a tus amigos. Necesitas millones de prompts para extraer patrones significativos. Eso solo pueden hacerlo herramientas como SISTRIX, Ahrefs o Semrush que operan a escala masiva.

Es más, Rand Fishkin calificó las respuestas de IA como "loterías estadísticas" y este mercado alcanzará los $200 millones en 2026, con "casi cero ROI".

Cualquiera puede montar una herramienta de tracking en un fin de semana. Existe FireGEO open-source que lo demuestra. Muchas herramientas buscan aprovecharse del desconocimiento técnico, el FOMO y el hype.

Por qué las métricas actuales no funcionan

Visibility score

Franco advierte que "no hay herramienta en el mercado con insight 100% preciso sobre lo que los usuarios escriben en herramientas de IA. Cualquier visibility score reportado es modelado, no medido."

El problema fundamental es que cada herramienta usa una fórmula diferente.

  • Geneo calcula: presencia × 0,5 + prominencia × 0,3 + clicks esperados × 0,2
  • Advanced Web Ranking asigna: posición 1 = 100%, posición 2 = 90%... posición 10 = 10%.
  • Surfer usa menciones de marca ÷ respuestas IA analizadas.
  • RankForLLM evalúa 7 categorías de 0-5 sobre un total de 35 puntos.

Cuatro fórmulas completamente diferentes. Un visibility score de 45 en una herramienta no significa nada comparado con un 45 en otra. Y ninguna te dice si ese número es "bueno" o "malo" porque no hay benchmark universal contra el que comparar. Dirás bueno, lo que importa es el trend y quedarte con una tool. He trabajando con varias herramientas he obtenido trends distintos tanto para mi cliente como para los competidores. No hay correlación entre ellas.

Share of Voice

Cassie Clark documenta que esta métrica no asigna peso por posición o prominencia, no correlaciona con clicks o conversiones (las respuestas de IA satisfacen la intención sin requerir click), no combina múltiples prompts en un score compuesto. Es decir, mide presencia, no impacto.

Pero hay un problema más básico y es que el cálculo depende de quién defines como competidor. La fórmula típica es: menciones de tu marca ÷ menciones totales (tu marca + competidores). Si añades un competidor nuevo a tu lista, tu Share of Voice baja automáticamente sin que haya cambiado nada real en el mercado. Si quitas uno, sube. El denominador es completamente arbitrario.

Además, el SoV varía significativamente entre plataformas porque una marca puede tener 20% en ChatGPT pero solo 10% en Copilot. ¿Cuál es tu "verdadero" Share of Voice? No hay respuesta.

Ranking position

El concepto de "posición" en una respuesta de IA carece de sentido. En una respuesta de 500 palabras que menciona 5 fuentes, ¿quién es "posición 1"? ¿La primera fuente mencionada? ¿La más citada? ¿La que aparece en el primer párrafo? SEO Testing confirma que "como los outputs de LLMs varían por sesión, modelo y formulación exacta del prompt, no hay un 'Posición 1' universal como había con el tracking de keywords."

Como vimos en el estudio de SparkToro, hay menos de 1 en 1.000 probabilidades de obtener la misma lista de marcas en el mismo orden. La posición es esencialmente aleatoria. Sin embargo, el porcentaje de aparición (cuántas veces aparece una marca en múltiples ejecuciones) puede ser más estable y potencialmente útil como métrica.

Prompt volume

Varias herramientas muestran métricas de "AI Search Volume" o "Prompt Volume" que dan apariencia de demanda real. Esto es completamente modelado, no medido.

Semrush muestra "Related Topics AI Volume" que define como "estimated monthly AI search activity", es decir, una estimación, no datos reales. Ahrefs es más honesto: "No existen datos reales de demanda. Ninguna compañía tiene acceso a datos de volumen de búsqueda reales para ChatGPT."

Este problema del volumen de búsqueda es peor que en SEO tradicional porque:

  • En Google, el volumen de búsqueda se basa en datos reales de queries (aunque agregados)
  • En LLMs, nadie fuera de OpenAI, Google o Anthropic sabe qué preguntan los usuarios
  • Los prompts trackeados suelen ser más específicos y de cola larga que las búsquedas tradicionales, así que incluso si hubiera datos, los volúmenes serían menores
  • La propia monitorización cambia drásticamente el resultado: ejecutar el mismo prompt desde una cuenta de herramienta infla el volumen de forma desproporcionada.

Mi apuesta: El tracking de prompts masivo

Antes de nada quiero aclarar que incluso las herramientas con millones de prompts tienen un problema fundamental porque cada una usa un corpus diferente. SISTRIX trackea 10 millones de prompts por idioma, Ahrefs ~190 millones globales, Semrush 239 millones. Pero no son los mismos prompts.

Esto significa que la "visibilidad" de tu marca en SISTRIX no es comparable con la de Ahrefs o Semrush. Cada herramienta te dará un número diferente porque están midiendo universos distintos. No hay forma de saber cuál está "más cerca de la realidad" porque ninguna tiene acceso a los prompts reales de los usuarios.

Otro problema que tiene es que para clientes de nicho o marcas poco conocidas es muy probable que no encuentres nada en ellas.

GAPs por topics

Sin embargo, estas herramientas de escala masiva para mi sí son útiles para algo concreto: detectar posibles gaps de visibilidad por topics. Si Ahrefs te muestra que tu competidor aparece en en un cluster de prompts sobre "software de contabilidad para autónomos" y tú no, eso es una señal que merece la pena investigar, independientemente del número exacto de visibilidad. La clusterización por temas permite identificar áreas donde tu contenido no está siendo citado, aunque el "score" absoluto sea arbitrario. En ocasiones he encontrado que el cluster realmente no estaba cubierto o, si lo estaba, tenía problemas accesibilidad o estructura. Puedes leer más sobre esto aquí:

  1. Trocear contenido para IA y SEO
  2. Agentes web y la importancia del HTML semántico y accesible
  3. Extracción de contenido HTML en LLMs con search tool
  4. Tráfico agéntico: así navegan los agentes de IA y qué tienes que saber tú
  5. SEO para IA: Guía práctica para que tu PYME sea citada en los LLM
  6. No es GEO ni AEO es sólo SEO: cómo hacer SEO para la IA

Pero también es cierto que, si ese topic no estaba cubierto, lo podrías habrías detectado haciendo un keyword GAP de toda la vida.

Herramientas como Sistrix o Ahrefs también permiten monitorizar tus propios prompts personalizados. A mí personalmente no me resulta útil por las razones que he explicado, pero seamos realistas: siempre hay clientes a los que el jefe del jefe les pide "el informe de visibilidad de X prompts". Aunque sepas que las métricas absolutas no son fiables, al menos con estas herramientas tienes esa necesidad cubierta sin tener que montar algo desde cero.

Además me gusta su honestidad:

  • SISTRIX reconoce que "la situación de datos para análisis LLM/IA son actualmente incluso más desafiantes que en Google o Amazon." Comparan el momento con los "primeros días del análisis de Google". Ofrecen su módulo de IA en beta gratuita sin prometer resultados de optimización.
  • Ahrefs Brand Radar documenta sus limitaciones: "No existen datos reales de demanda. Ninguna compañía tiene acceso a datos de volumen de búsqueda reales para ChatGPT." Admiten que "la atribución sigue siendo desafiante, trackear conversiones directas desde menciones de IA es casi imposible."

Conclusión

El mercado de herramientas de AI visibility tracking es una industria construida sobre fundamentos cuestionables. Las respuestas de LLMs son, por diseño, probabilísticas y personalizadas: exactamente lo opuesto de lo que se necesitaría para medición precisa. La evidencia indica que:

  • Las listas de marcas son aleatorias (menos de 1 en 100 repeticiones)
  • Los rankings son aún más aleatorios (menos de 1 en 1.000)
  • El porcentaje de visibilidad agregado puede ser válido con suficientes ejecuciones
  • Las APIs dan resultados diferentes a las interfaces reales
  • La personalización hace imposible replicar la experiencia real del usuario
  • Ninguna tool tiene búsquedas reales que hacen los usuarios en chatbots LLM
  • Los procesos internos de Google son técnicamente imposibles de replicar (huye de prompts sintéticos con query fan-out inventados)

Los márgenes extraordinarios (70-93% bruto) sugieren que el valor para vendors supera el valor para clientes. Este mercado vende certidumbre donde solo existe incertidumbre. Los compradores informados deben entender que están adquiriendo indicadores aproximados, no verdades absolutas.

Natzir Turrado 29 enero 2026

Compartir

Facebook Linkedin Twitter

Otros artículos

Búsqueda híbrida y su importancia en AI Search: de Google a ChatGPT

Cuando un buscador necesita encontrar información, puede intentar entenderte de dos maneras, o interpretando el significado abstracto de lo que pides o buscando las palabras exactas que has utilizado. Ambos enfoques son potentes pero incompletos por sí solos. En este artículo veremos qué es la búsqueda híbrida y las técnicas que los buscadores como Google […]

Leer más

Workflows y Agentes de IA para SEO

La Inteligencia Artificial ha dejado de ser una promesa futurista para convertirse en una fuerza transformadora en el presente y, el SEO, tenía que subirse también a la ola. Problema: nadar por el estado actual de herramientas, workflows y agentes de IA para SEO puede ser complicado, y el hype existente nubla la realidad práctica. […]

Leer más