¿Influye el formato del prompt (JSON, YALM, TOON, Markdown, XML) en el rendimiento de los LLMs?

Desde que hago automatizaciones con LLMs siempre he tratado de estructurar los prompts. Lo expliqué hace tiempo esta charla (minuto 48:30 y aquí el Google Colab usado), donde comenté los modelos no es que "hablen" en JSON, Markdown, YAML o XML, pero estos formatos estructurados pueden ayudar a conseguir salidas más consistentes.

En concreto, expliqué que usar prompts en formatos estructurados como JSON o YAML ayudan a guiar al modelo con mayor precisión, porque en lugar de texto plano, se presentan claves y valores que establecen parámetros claros.

Ventajas: Claridad (reduce ambigüedad), flexibilidad (múltiples parámetros), consistencia (formato uniforme) y escalabilidad (fácil integración en flujos automáticos o APIs).
Limitaciones: Curva de aprendizaje y posible rigidez que reduce la creatividad del modelo en tareas abiertas.

Pero con el tiempo y con la evolución de los modelos, me he dado cuenta de que no siempre es mejor trabajar de esta manera para todas las tareas. Así que me he propuesto ver si es cosa mía o si existe literatura reciente al respecto y a qué conclusiones llega.

Aquí os comparto el análisis de los principales estudios.

Resumen ejecutivo

La evidencia científica muestra que el formato sí influye significativamente en el rendimiento de los LLMs, pero su impacto varía según el tipo de tarea, el modelo utilizado y el tipo de restricción aplicada.

Hallazgos principales

Factor	Hallazgo
Variación de rendimiento	Hasta 40-76% de diferencia en precisión según el formato utilizado
Tamaño del modelo	Modelos más grandes (GPT-4) son más robustos a variaciones de formato
Tipo de tarea	Tareas de razonamiento sufren más con restricciones estrictas de formato
Transferibilidad	Los mejores formatos NO se transfieren entre modelos diferentes

1. Does Prompt Formatting Have Any Impact on LLM Performance?

He et al., 2024 - arXiv:2411.10541

Metodología

Evaluaron cuatro formatos (texto plano, Markdown, JSON, YAML) en modelos GPT-3.5 y GPT-4 usando benchmarks de razonamiento en lenguaje natural, generación de código y traducción.

Resultados

Variación de hasta 40%: GPT-3.5-turbo mostró variaciones de rendimiento de hasta 40% en tareas de traducción de código dependiendo del template utilizado.
Robustez de modelos grandes: GPT-4 es significativamente más robusto a estas variaciones que GPT-3.5.
Preferencias de formato: GPT-3.5-turbo prefiere JSON, mientras que GPT-4 favorece Markdown.
No hay formato universal: Ningún formato es óptimo para todas las tareas y modelos.

2. Let Me Speak Freely? A Study on the Impact of
Format Restrictions on Performance of Large Language Models

Tam et al., 2024 - EMNLP Industry Track

Metodología

Compararon respuestas en formato libre vs. formatos estructurados (JSON, XML, YAML) en tareas de razonamiento y clasificación usando múltiples LLMs incluyendo GPT-4o, Claude, Gemini y LLaMA.

Resultados

Degradación del razonamiento: Las restricciones de formato estructurado (especialmente JSON-mode) reducen significativamente las capacidades de razonamiento de los LLMs en un 10-15%.
Restricciones más estrictas = Mayor degradación: Cuanto más estricta es la restricción de formato, mayor es la pérdida de rendimiento en tareas de razonamiento.
Clasificación vs. Razonamiento: Las tareas de clasificación se benefician de formatos estructurados, pero las de razonamiento sufren.
Solución propuesta: Usar un enfoque de dos pasos: primero generar respuesta libre, luego convertir a formato estructurado.

3. Which Nested Data Format Do LLMs Understand Best?

Improving Agents, 2025

Metodología

Evaluaron GPT-5 Nano, LLaMA 3.2 3B y Gemini 2.5 Flash Lite con datos anidados en JSON, YAML, XML y Markdown usando 1.000 preguntas con datos Terraform-like de 6-7 niveles de anidamiento.

Resultados

YAML fue superior: Para GPT-5 Nano y Gemini, YAML produjo los mejores resultados. LLaMA mostró poca sensibilidad al formato.
Markdown más eficiente: Markdown usó 34-38% menos tokens que JSON, siendo la opción más eficiente en costes.
XML el peor rendimiento: XML requirió 80% más tokens que Markdown y tuvo peor precisión en la mayoría de modelos.
JSON problemático: JSON tuvo rendimiento pobre con GPT-5 Nano y Gemini, sugiriendo evitarlo como formato por defecto.

4. Prompt Engineering for Structured Data

Elnashar, White & Schmidt, 2025 - Artif. Intell. Auton. Syst.

Metodología

Compararon seis estilos de prompt (JSON, YAML, CSV, Function Calling APIs, prefijos simples, híbrido CSV/Prefix) en ChatGPT-4o, Claude y Gemini midiendo precisión, coste de tokens y tiempo de generación.

Resultados

Diferencias entre modelos: Claude logra mayor precisión consistentemente; ChatGPT-4o es el más eficiente en tokens y tiempo; Gemini ofrece un balance.
Trade-offs: Formatos más simples reducen coste y tiempo con poca pérdida de precisión; formatos expresivos ofrecen más versatilidad para datos complejos.
Limitación común: Todos los LLMs luchan con datos narrativos no estructurados (ej: historias personales) con precisión ~40%.

5. Estudios complementarios

5.1 FormatSpread (Sclar et al., ICLR 2024)

Propusieron una metodología para cuantificar la sensibilidad de LLMs a cambios de formato. Encontraron diferencias de hasta 76 puntos de precisión en LLaMA-2-13B por cambios menores como espacios, puntuación o mayúsculas.

5.2 Mind Your Format (Voronov et al., 2024)

Evaluaron 21 modelos (770M a 70B parámetros) en 4 datasets de clasificación. Demostraron que una mala elección de template puede reducir el rendimiento de los mejores modelos a nivel de adivinanza aleatoria. Propusieron Template Ensembles como solución.

5.3 TOON Format (2025)

Un nuevo formato Token-Oriented Object Notation diseñado para eficiencia de tokens. En benchmarks, TOON logró 73,9% de precisión vs 69,7% de JSON usando 39,6% menos tokens.

Síntesis: ¿Cuándo influye el formato?

Situación	¿Influye?	Dirección del efecto	Recomendación
Tareas de razonamiento complejo	SÍ - ALTO	Formatos estrictos degradan	Respuesta libre + conversión posterior
Tareas de clasificación	SÍ - MODERADO	Formatos estructurados ayudan	JSON/XML con schema estricto
Modelos pequeños (<13B)	SÍ - MUY ALTO	Alta variabilidad	Probar múltiples formatos
Modelos grandes (GPT-4+)	SÍ - BAJO	Más robustos	Cualquier formato funciona
Datos anidados/jerárquicos	SÍ - ALTO	YAML > JSON > XML	Preferir YAML o Markdown
Optimización de costes	SÍ - ALTO	JSON consume 2x tokens vs TSV	Markdown, CSV o TOON
Few-shot prompting	SÍ - MUY ALTO	Formato de ejemplos crítico	Mantener consistencia

Conclusiones

El formato SÍ importa: La evidencia científica es clara en que el formato del prompt tiene impacto significativo en el rendimiento, con variaciones de hasta 40-76% en precisión.
El impacto es contextual: No hay un formato universalmente óptimo. El mejor formato depende de tipo de tarea (razonamiento vs clasificación), modelo utilizado y requisitos de coste/latencia.
Trade-off razonamiento vs estructura: Existe una tensión fundamental entre obtener salidas estructuradas y preservar capacidades de razonamiento. Para tareas complejas, el enfoque de dos pasos mitiga este problema.
Los modelos grandes son más robustos: GPT-4 y modelos similares muestran menor sensibilidad a variaciones de formato que modelos más pequeños.
Recomendación práctica: Siempre probar múltiples formatos en tu caso de uso específico. Usar YAML o Markdown para datos anidados, CSV/TSV para tabular, y considerar el enfoque de dos pasos para tareas de razonamiento críticas.

Referencias

He, J. et al. (2024). Does Prompt Formatting Have Any Impact on LLM Performance? arXiv:2411.10541
Tam, Z.R. et al. (2024). Let Me Speak Freely? A Study on the Impact of Format Restrictions. EMNLP Industry Track.
Improving Agents (2025). Which Nested Data Format Do LLMs Understand Best?
Elnashar, A., White, J. & Schmidt, D. (2025). Prompt Engineering for Structured Data. Artif. Intell. Auton. Syst.
Sclar, M. et al. (2024). Quantifying LLMs' Sensitivity to Spurious Features in Prompt Design. ICLR 2024.
Voronov, A. et al. (2024). Mind Your Format: Towards Consistent Evaluation of In-Context Learning. arXiv:2401.06766
Mizrahi, M. et al. (2024). State of What Art? A Call for Multi-Prompt LLM Evaluation. TACL.

Natzir Turrado 07 enero 2026

Facebook Linkedin Twitter

Otros artículos

Natzir Turrado 29 enero, 2026

Herramientas para medir visibilidad en IA: Lo que no te cuentan los Prompt Trackers

Las herramientas para medir visibilidad en la IA (prompt trackers) prometen medir algo que es imposible medir con precisión. Este informe técnico examina por qué medir la visibilidad en IA es técnicamente problemático, qué dice la evidencia disponible y cómo evaluar las herramientas del mercado. Mi objetivo es tratar reducir la asimetría de información, es […]

Natzir Turrado 20 diciembre, 2025

Por qué trocear tu contenido es malo para tu SEO y para la IA

Hay una corriente de GEO Bros que ha descubierto dos palabras (chunks y embeddings) y ha decidido que el futuro del SEO es atomizar el contenido de tu web. Su lógica es que "como los LLMs funcionan por fragmentos y vectores, vamos a crear URLs ultra específicas para cada posible pregunta para que la IA lo […]

¿Influye el formato del prompt (JSON, YALM, TOON, Markdown, XML) en el rendimiento de los LLMs?

Resumen ejecutivo

Hallazgos principales

1. Does Prompt Formatting Have Any Impact on LLM Performance?

Metodología

Resultados

2. Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models

Metodología

Resultados

3. Which Nested Data Format Do LLMs Understand Best?

Metodología

Resultados

4. Prompt Engineering for Structured Data

Metodología

Resultados

5. Estudios complementarios

5.1 FormatSpread (Sclar et al., ICLR 2024)

5.2 Mind Your Format (Voronov et al., 2024)

5.3 TOON Format (2025)

Síntesis: ¿Cuándo influye el formato?

Conclusiones

Referencias

Otros artículos

Herramientas para medir visibilidad en IA: Lo que no te cuentan los Prompt Trackers

Por qué trocear tu contenido es malo para tu SEO y para la IA

2. Let Me Speak Freely? A Study on the Impact of
Format Restrictions on Performance of Large Language Models