¿Influye el formato del prompt (JSON, YALM, TOON) en el rendimiento de los LLMs?

Desde que hago automatizaciones con LLMs siempre he tratado de estructurar los prompts. Lo expliqué hace tiempo esta charla (minuto 48:30 y aquí el Google Colab usado), donde comenté los modelos no es que "hablen" en JSON, Markdown o YAML, pero estos formatos estructurados pueden ayudar a conseguir salidas más consistentes.

En concreto, expliqué que usar prompts en formatos estructurados como JSON o YAML en prompts ayudan a guiar al modelo con mayor precisión, porque en lugar de texto plano, se presentan claves y valores que establecen parámetros claros.

  • Ventajas: Claridad (reduce ambigüedad), flexibilidad (múltiples parámetros), consistencia (formato uniforme) y escalabilidad (fácil integración en flujos automáticos o APIs).
  • Limitaciones: Curva de aprendizaje y posible rigidez que reduce la creatividad del modelo en tareas abiertas.

Pero con el tiempo y con la evolución de los modelos, me he dado cuenta de que no siempre es mejor trabajar de esta manera para todas las tareas. Así que me he propuesto ver si es cosa mía o si existe literatura reciente al respecto y a qué conclusiones llega.

Aquí os comparto el análisis de los principales estudios.

Resumen ejecutivo

La evidencia científica muestra que el formato sí influye significativamente en el rendimiento de los LLMs, pero su impacto varía según el tipo de tarea, el modelo utilizado y el tipo de restricción aplicada.

Hallazgos principales

Factor Hallazgo
Variación de rendimiento Hasta 40-76% de diferencia en precisión según el formato utilizado
Tamaño del modelo Modelos más grandes (GPT-4) son más robustos a variaciones de formato
Tipo de tarea Tareas de razonamiento sufren más con restricciones estrictas de formato
Transferibilidad Los mejores formatos NO se transfieren entre modelos diferentes

1. Does Prompt Formatting Have Any Impact on LLM Performance?

He et al., 2024 - arXiv:2411.10541

Metodología

Evaluaron cuatro formatos (texto plano, Markdown, JSON, YAML) en modelos GPT-3.5 y GPT-4 usando benchmarks de razonamiento en lenguaje natural, generación de código y traducción.

Resultados

  • Variación de hasta 40%: GPT-3.5-turbo mostró variaciones de rendimiento de hasta 40% en tareas de traducción de código dependiendo del template utilizado.
  • Robustez de modelos grandes: GPT-4 es significativamente más robusto a estas variaciones que GPT-3.5.
  • Preferencias de formato: GPT-3.5-turbo prefiere JSON, mientras que GPT-4 favorece Markdown.
  • No hay formato universal: Ningún formato es óptimo para todas las tareas y modelos.

2. Let Me Speak Freely? A Study on the Impact of
Format Restrictions on Performance of Large Language Models

Tam et al., 2024 - EMNLP Industry Track

Metodología

Compararon respuestas en formato libre vs. formatos estructurados (JSON, XML, YAML) en tareas de razonamiento y clasificación usando múltiples LLMs incluyendo GPT-4o, Claude, Gemini y LLaMA.

Resultados

  • Degradación del razonamiento: Las restricciones de formato estructurado (especialmente JSON-mode) reducen significativamente las capacidades de razonamiento de los LLMs en un 10-15%.
  • Restricciones más estrictas = Mayor degradación: Cuanto más estricta es la restricción de formato, mayor es la pérdida de rendimiento en tareas de razonamiento.
  • Clasificación vs. Razonamiento: Las tareas de clasificación se benefician de formatos estructurados, pero las de razonamiento sufren.
  • Solución propuesta: Usar un enfoque de dos pasos: primero generar respuesta libre, luego convertir a formato estructurado.

3. Which Nested Data Format Do LLMs Understand Best?

Improving Agents, 2025

Metodología

Evaluaron GPT-5 Nano, LLaMA 3.2 3B y Gemini 2.5 Flash Lite con datos anidados en JSON, YAML, XML y Markdown usando 1,000 preguntas con datos Terraform-like de 6-7 niveles de anidamiento.

Resultados

  • YAML fue superior: Para GPT-5 Nano y Gemini, YAML produjo los mejores resultados. LLaMA mostró poca sensibilidad al formato.
  • Markdown más eficiente: Markdown usó 34-38% menos tokens que JSON, siendo la opción más eficiente en costos.
  • XML el peor rendimiento: XML requirió 80% más tokens que Markdown y tuvo peor precisión en la mayoría de modelos.
  • JSON problemático: JSON tuvo rendimiento pobre con GPT-5 Nano y Gemini, sugiriendo evitarlo como formato por defecto.

4. Prompt Engineering for Structured Data

Elnashar, White & Schmidt, 2025 - Artif. Intell. Auton. Syst.

Metodología

Compararon seis estilos de prompt (JSON, YAML, CSV, Function Calling APIs, prefijos simples, híbrido CSV/Prefix) en ChatGPT-4o, Claude y Gemini midiendo precisión, costo de tokens y tiempo de generación.

Resultados

  • Diferencias entre modelos: Claude logra mayor precisión consistentemente; ChatGPT-4o es el más eficiente en tokens y tiempo; Gemini ofrece un balance.
  • Trade-offs: Formatos más simples reducen costo y tiempo con poca pérdida de precisión; formatos expresivos ofrecen más versatilidad para datos complejos.
  • Limitación común: Todos los LLMs luchan con datos narrativos no estructurados (ej: historias personales) con precisión ~40%.

5. Estudios complementarios

5.1 FormatSpread (Sclar et al., ICLR 2024)

Propusieron una metodología para cuantificar la sensibilidad de LLMs a cambios de formato. Encontraron diferencias de hasta 76 puntos de precisión en LLaMA-2-13B por cambios menores como espacios, puntuación o mayúsculas.

5.2 Mind Your Format (Voronov et al., 2024)

Evaluaron 21 modelos (770M a 70B parámetros) en 4 datasets de clasificación. Demostraron que una mala elección de template puede reducir el rendimiento de los mejores modelos a nivel de adivinanza aleatoria. Propusieron Template Ensembles como solución.

5.3 TOON Format (2025)

Un nuevo formato Token-Oriented Object Notation diseñado para eficiencia de tokens. En benchmarks, TOON logró 73.9% de precisión vs 69.7% de JSON usando 39.6% menos tokens.

Síntesis: ¿Cuándo influye el formato?

Situación ¿Influye? Dirección del efecto Recomendación
Tareas de razonamiento complejo SÍ - ALTO Formatos estrictos degradan Respuesta libre + conversión posterior
Tareas de clasificación SÍ - MODERADO Formatos estructurados ayudan JSON/XML con schema estricto
Modelos pequeños (<13B) SÍ - MUY ALTO Alta variabilidad Probar múltiples formatos
Modelos grandes (GPT-4+) SÍ - BAJO Más robustos Cualquier formato funciona
Datos anidados/jerárquicos SÍ - ALTO YAML > JSON > XML Preferir YAML o Markdown
Optimización de costos SÍ - ALTO JSON consume 2x tokens vs TSV Markdown, CSV o TOON
Few-shot prompting SÍ - MUY ALTO Formato de ejemplos crítico Mantener consistencia

Conclusiones

  1. El formato SÍ importa: La evidencia científica es clara en que el formato del prompt tiene impacto significativo en el rendimiento, con variaciones de hasta 40-76% en precisión.
  2. El impacto es contextual: No hay un formato universalmente óptimo. El mejor formato depende de tipo de tarea (razonamiento vs clasificación), modelo utilizado y requisitos de costo/latencia.
  3. Trade-off razonamiento vs estructura: Existe una tensión fundamental entre obtener salidas estructuradas y preservar capacidades de razonamiento. Para tareas complejas, el enfoque de dos pasos mitiga este problema.
  4. Los modelos grandes son más robustos: GPT-4 y modelos similares muestran menor sensibilidad a variaciones de formato que modelos más pequeños.
  5. Recomendación práctica: Siempre probar múltiples formatos en tu caso de uso específico. Usar YAML o Markdown para datos anidados, CSV/TSV para tabular, y considerar el enfoque de dos pasos para tareas de razonamiento críticas.

Referencias

Natzir Turrado 07 enero 2026

Compartir

Facebook Linkedin Twitter

Otros artículos

Por qué trocear tu contenido es malo para tu SEO y para la IA

Hay una corriente de GEO Bros que ha descubierto dos palabras (chunks y embeddings) y ha decidido que el futuro del SEO es atomizar el contenido de tu web. Su lógica es que "como los LLMs funcionan por fragmentos y vectores, vamos a crear URLs ultra específicas para cada posible pregunta para que la IA lo […]

Leer más

No es GEO ni AEO es sólo SEO: cómo hacer SEO para la IA

Cada vez que un nuevo concepto o sigla asoma en el mundo del marketing digital, GEO, AEO, LLMO, GAIO, LSO, LEO, etc. el debate gira en torno a si estamos ante una verdadera revolución o si es la misma estrategia de siempre con otro nombre. Mi experiencia es que la optimización para grandes modelos de […]

Leer más