Skip to content

Glossary

Ventana de contexto

El límite estricto de lo que un LLM puede leer a la vez

By Published Updated

La ventana de contexto de un LLM es el número máximo de tokens que puede procesar en una sola llamada de inferencia. La ventana abarca tanto la entrada como la salida combinadas — si llenas la entrada al máximo no queda espacio para que el modelo responda.

Las ventanas de contexto han crecido drásticamente:

  • GPT-3 (2020): 2.048 tokens
  • GPT-3.5 (2022): 4.096 → 16.384 tokens
  • GPT-4 (2023): 8.192 → 32.768 → 128.000 tokens
  • Claude 3 (2024): 200.000 tokens (~150.000 palabras)
  • Gemini 1.5 Pro (2024): 1.000.000 tokens (~750.000 palabras — una novela larga)
  • Modelos de frontera (2026): 1-2 millones de tokens son habituales

Las ventanas más grandes permiten incluir libros enteros, bases de código o largos historiales de conversación en un único prompt. Persisten límites prácticos: el rendimiento cae a longitudes de contexto más altas, el costo escala linealmente con los tokens de entrada (en caché o no), y la atención del modelo se degrada en contextos muy largos de formas bien documentadas (“benchmarks de aguja en un pajar”).

Ejemplo práctico

Quieres resumir una novela de 250 páginas (~75.000 palabras). En el tokenizador de OpenAI (cl100k_base), ese texto equivale aproximadamente a 100.000 tokens. En GPT-3 (contexto de 2k), la novela no cabe en absoluto — tendrías que dividirla en 50 fragmentos y ejecutar un árbol de resumen recursivo. En GPT-3.5 16k, necesitarías ~7 fragmentos. En GPT-4 128k, la novela entera cabe con 28k tokens de sobra para instrucciones y salida. En Claude 3 (200k), lo mismo con aún más margen. En Gemini 1.5 Pro (1M), podrías incluir la novela entera más los nueve libros anteriores de la serie y aún tendría espacio. El panorama de costos también cambia: a $3/M tokens de entrada, el resumen de 100k tokens cuesta $0,30 solo en entrada — barato por solicitud, pero mil de esas solicitudes son $300, por eso las API por lotes y el almacenamiento en caché de prompts se han convertido en necesidades económicas.

Cuándo y por qué importa

La ventana de contexto importa siempre que un flujo de trabajo con LLM implique más entrada que un chat típico: revisión de documentos legales, refactorización de toda una base de código, síntesis de investigación a través de múltiples artículos, conversaciones de soporte al cliente con largo historial, bucles de agentes acumulando salidas de herramientas. El error a evitar es asumir que “ventana más grande = mejores respuestas”: el efecto “Perdido en el Medio” (Liu 2023) muestra que la información colocada en el medio de un contexto largo se recuerda con menos fiabilidad que la información al principio o al final. El patrón de ingeniería práctico es: (a) poner las instrucciones y restricciones más críticas al principio, (b) poner la consulta inmediata del usuario al final y (c) tratar el medio como “material de referencia que el modelo puede consultar pero no debe ser obligado a usar”. Para la generación aumentada por recuperación, las ventanas de contexto más pequeñas con recuperación precisa a menudo superan a las ventanas más grandes con todo volcado dentro. Referencia: Documentación de modelos de OpenAI — límites de ventana de contexto.

El problema del costo de atención entre bastidores: el mecanismo de atención del transformador original es O(n²) en la longitud de secuencia — duplicar la ventana de contexto cuadruplica el costo de cómputo de un paso hacia adelante. Los modelos de frontera de 1M de tokens funcionan gracias a trucos arquitectónicos: FlashAttention (Tri Dao, 2022) y FlashAttention-2 (2023) reestructuran la operación para que sea consciente de E/S y reducen los costos de ancho de banda de memoria; las variantes de atención dispersa (ventana deslizante, dilatada) eliminan el término cuadrático global; y la atención paralela por anillo/secuencia divide la secuencia entre GPUs. Ninguno de estos trucos elimina el escalado subyacente — solo empuja el muro más lejos.

Por qué “contexto efectivo” ≠ contexto anunciado: el benchmark “aguja en un pajar” inserta un hecho único en una posición conocida en un contexto largo y pregunta al modelo que lo recupere. Los modelos de frontera obtienen casi el 100% en este benchmark hasta su ventana anunciada. Los benchmarks más difíciles — recuperación de múltiples hechos, razonamiento de múltiples saltos a través del contexto largo, resumen que sintetiza el input completo — muestran puntuaciones significativamente más bajas a partir de ~50-100K tokens, incluso en modelos de 1M de tokens. La regla práctica: una ventana de 1M de tokens es confiable para tareas de “buscar cosas específicas en este documento grande”, pero la calidad del razonamiento típicamente se degrada a partir de los primeros ~100K. Compara las afirmaciones del proveedor con tu carga de trabajo específica. Relacionados: token GPT, LLM. Referencia: Liu N et al. — Perdido en el Medio (2023).

Frequently asked questions

¿Qué es una ventana de contexto?
Una ventana de contexto es el número máximo de tokens que un LLM puede procesar en una sola llamada de inferencia — tanto la entrada (prompt + historial de conversación) como la salida combinadas. Los modelos con una ventana de contexto de 200.000 tokens pueden procesar aproximadamente 150.000 palabras a la vez.
¿Cómo afecta la ventana de contexto al uso de LLM en la práctica?
Al resumir un documento legal de 500 páginas con GPT-4 (contexto de 128k), un desarrollador debe dividir el documento en fragmentos porque supera la ventana. Claude 3.5 con una ventana de 200k tokens puede procesar el documento completo en una sola llamada sin fragmentación.
¿Cuál es la diferencia entre ventana de contexto y memoria?
La ventana de contexto contiene todos los tokens actualmente en la conversación activa — se borra entre sesiones. La memoria (en agentes de múltiples sesiones) es un sistema de recuperación separado que almacena y obtiene interacciones pasadas relevantes. El contexto es rápido y preciso; la memoria es persistente pero aproximada.
¿Una ventana de contexto mayor implica respuestas más lentas?
Sí — los mecanismos de atención en los transformers escalan como O(n²) con la longitud de secuencia, por lo que duplicar el contexto roughly cuadruplica el cómputo de atención. Los modelos con ventanas de contexto muy grandes usan atención optimizada (p. ej., flash attention) para reducir este costo, pero los contextos más largos aún aumentan la latencia y el costo de la API.

Related

Published May 14, 2026 · Last reviewed May 31, 2026