Desde que hago automatizaciones con LLMs siempre he tratado de estructurar los prompts. Lo expliqué hace tiempo esta charla (minuto 48:30 y aquí el Google Colab usado), donde comenté los modelos no es que "hablen" en JSON, Markdown o YAML, pero estos formatos estructurados pueden ayudar a conseguir salidas más consistentes.
En concreto, expliqué que usar prompts en formatos estructurados como JSON o YAML en prompts ayudan a guiar al modelo con mayor precisión, porque en lugar de texto plano, se presentan claves y valores que establecen parámetros claros.
- Ventajas: Claridad (reduce ambigüedad), flexibilidad (múltiples parámetros), consistencia (formato uniforme) y escalabilidad (fácil integración en flujos automáticos o APIs).
- Limitaciones: Curva de aprendizaje y posible rigidez que reduce la creatividad del modelo en tareas abiertas.
Pero con el tiempo y con la evolución de los modelos, me he dado cuenta de que no siempre es mejor trabajar de esta manera para todas las tareas. Así que me he propuesto ver si es cosa mía o si existe literatura reciente al respecto y a qué conclusiones llega.
Aquí os comparto el análisis de los principales estudios.
Resumen ejecutivo
La evidencia científica muestra que el formato sí influye significativamente en el rendimiento de los LLMs, pero su impacto varía según el tipo de tarea, el modelo utilizado y el tipo de restricción aplicada.
Hallazgos principales
| Factor |
Hallazgo |
| Variación de rendimiento |
Hasta 40-76% de diferencia en precisión según el formato utilizado |
| Tamaño del modelo |
Modelos más grandes (GPT-4) son más robustos a variaciones de formato |
| Tipo de tarea |
Tareas de razonamiento sufren más con restricciones estrictas de formato |
| Transferibilidad |
Los mejores formatos NO se transfieren entre modelos diferentes |
1. Does Prompt Formatting Have Any Impact on LLM Performance?
He et al., 2024 - arXiv:2411.10541
Metodología
Evaluaron cuatro formatos (texto plano, Markdown, JSON, YAML) en modelos GPT-3.5 y GPT-4 usando benchmarks de razonamiento en lenguaje natural, generación de código y traducción.
Resultados
- Variación de hasta 40%: GPT-3.5-turbo mostró variaciones de rendimiento de hasta 40% en tareas de traducción de código dependiendo del template utilizado.
- Robustez de modelos grandes: GPT-4 es significativamente más robusto a estas variaciones que GPT-3.5.
- Preferencias de formato: GPT-3.5-turbo prefiere JSON, mientras que GPT-4 favorece Markdown.
- No hay formato universal: Ningún formato es óptimo para todas las tareas y modelos.
2. Let Me Speak Freely? A Study on the Impact of
Format Restrictions on Performance of Large Language Models
Tam et al., 2024 - EMNLP Industry Track
Metodología
Compararon respuestas en formato libre vs. formatos estructurados (JSON, XML, YAML) en tareas de razonamiento y clasificación usando múltiples LLMs incluyendo GPT-4o, Claude, Gemini y LLaMA.
Resultados
- Degradación del razonamiento: Las restricciones de formato estructurado (especialmente JSON-mode) reducen significativamente las capacidades de razonamiento de los LLMs en un 10-15%.
- Restricciones más estrictas = Mayor degradación: Cuanto más estricta es la restricción de formato, mayor es la pérdida de rendimiento en tareas de razonamiento.
- Clasificación vs. Razonamiento: Las tareas de clasificación se benefician de formatos estructurados, pero las de razonamiento sufren.
- Solución propuesta: Usar un enfoque de dos pasos: primero generar respuesta libre, luego convertir a formato estructurado.
3. Which Nested Data Format Do LLMs Understand Best?
Improving Agents, 2025
Metodología
Evaluaron GPT-5 Nano, LLaMA 3.2 3B y Gemini 2.5 Flash Lite con datos anidados en JSON, YAML, XML y Markdown usando 1,000 preguntas con datos Terraform-like de 6-7 niveles de anidamiento.
Resultados
- YAML fue superior: Para GPT-5 Nano y Gemini, YAML produjo los mejores resultados. LLaMA mostró poca sensibilidad al formato.
- Markdown más eficiente: Markdown usó 34-38% menos tokens que JSON, siendo la opción más eficiente en costos.
- XML el peor rendimiento: XML requirió 80% más tokens que Markdown y tuvo peor precisión en la mayoría de modelos.
- JSON problemático: JSON tuvo rendimiento pobre con GPT-5 Nano y Gemini, sugiriendo evitarlo como formato por defecto.
4. Prompt Engineering for Structured Data
Elnashar, White & Schmidt, 2025 - Artif. Intell. Auton. Syst.
Metodología
Compararon seis estilos de prompt (JSON, YAML, CSV, Function Calling APIs, prefijos simples, híbrido CSV/Prefix) en ChatGPT-4o, Claude y Gemini midiendo precisión, costo de tokens y tiempo de generación.
Resultados
- Diferencias entre modelos: Claude logra mayor precisión consistentemente; ChatGPT-4o es el más eficiente en tokens y tiempo; Gemini ofrece un balance.
- Trade-offs: Formatos más simples reducen costo y tiempo con poca pérdida de precisión; formatos expresivos ofrecen más versatilidad para datos complejos.
- Limitación común: Todos los LLMs luchan con datos narrativos no estructurados (ej: historias personales) con precisión ~40%.
5. Estudios complementarios
5.1 FormatSpread (Sclar et al., ICLR 2024)
Propusieron una metodología para cuantificar la sensibilidad de LLMs a cambios de formato. Encontraron diferencias de hasta 76 puntos de precisión en LLaMA-2-13B por cambios menores como espacios, puntuación o mayúsculas.
5.2 Mind Your Format (Voronov et al., 2024)
Evaluaron 21 modelos (770M a 70B parámetros) en 4 datasets de clasificación. Demostraron que una mala elección de template puede reducir el rendimiento de los mejores modelos a nivel de adivinanza aleatoria. Propusieron Template Ensembles como solución.
5.3 TOON Format (2025)
Un nuevo formato Token-Oriented Object Notation diseñado para eficiencia de tokens. En benchmarks, TOON logró 73.9% de precisión vs 69.7% de JSON usando 39.6% menos tokens.
Síntesis: ¿Cuándo influye el formato?
| Situación |
¿Influye? |
Dirección del efecto |
Recomendación |
| Tareas de razonamiento complejo |
SÍ - ALTO |
Formatos estrictos degradan |
Respuesta libre + conversión posterior |
| Tareas de clasificación |
SÍ - MODERADO |
Formatos estructurados ayudan |
JSON/XML con schema estricto |
| Modelos pequeños (<13B) |
SÍ - MUY ALTO |
Alta variabilidad |
Probar múltiples formatos |
| Modelos grandes (GPT-4+) |
SÍ - BAJO |
Más robustos |
Cualquier formato funciona |
| Datos anidados/jerárquicos |
SÍ - ALTO |
YAML > JSON > XML |
Preferir YAML o Markdown |
| Optimización de costos |
SÍ - ALTO |
JSON consume 2x tokens vs TSV |
Markdown, CSV o TOON |
| Few-shot prompting |
SÍ - MUY ALTO |
Formato de ejemplos crítico |
Mantener consistencia |
Conclusiones
- El formato SÍ importa: La evidencia científica es clara en que el formato del prompt tiene impacto significativo en el rendimiento, con variaciones de hasta 40-76% en precisión.
- El impacto es contextual: No hay un formato universalmente óptimo. El mejor formato depende de tipo de tarea (razonamiento vs clasificación), modelo utilizado y requisitos de costo/latencia.
- Trade-off razonamiento vs estructura: Existe una tensión fundamental entre obtener salidas estructuradas y preservar capacidades de razonamiento. Para tareas complejas, el enfoque de dos pasos mitiga este problema.
- Los modelos grandes son más robustos: GPT-4 y modelos similares muestran menor sensibilidad a variaciones de formato que modelos más pequeños.
- Recomendación práctica: Siempre probar múltiples formatos en tu caso de uso específico. Usar YAML o Markdown para datos anidados, CSV/TSV para tabular, y considerar el enfoque de dos pasos para tareas de razonamiento críticas.
Referencias