¿Qué cuenta como contexto vs salida?

El contexto es el presupuesto de entrada — todo lo que el modelo lee antes de generar: prompt del sistema, turnos previos de conversación, definiciones de herramientas/funciones, documentos recuperados y el último mensaje del usuario. La salida es lo que el modelo escribe de vuelta. Se facturan y limitan por separado, aunque ambos consumen el mismo presupuesto de atención subyacente. Una ventana de contexto de 200K tokens con límite de 8K de salida significa que puedes alimentar ~200K tokens pero solo obtener hasta ~8K tokens por llamada.

¿Los prompts del sistema cuentan contra la ventana?

Sí. Cada token que ve el modelo consume el presupuesto de entrada — prompt del sistema, instrucciones del desarrollador, ejemplos few-shot, esquemas de herramientas, turnos previos del asistente, fragmentos RAG recuperados. Los únicos tokens que no cuentan son los que el modelo emite como salida. Los prompts del sistema largos en conversaciones multi-turno son la causa número 1 de errores misteriosos de desbordamiento de contexto.

¿Qué es RAG y cómo interactúa con el tamaño del contexto?

Retrieval-Augmented Generation (RAG) significa recuperar pasajes relevantes de un almacén vectorial en tiempo de consulta y pegarlos en el prompt para que el modelo pueda basar su respuesta en datos frescos o específicos del dominio. Cada fragmento recuperado consume presupuesto de contexto. Una configuración RAG típica recupera 5–20 fragmentos de 500–1000 tokens cada uno, por lo que 5K–20K tokens de contexto desaparecen antes de que se añada el mensaje del usuario. Planifica para eso.

Visualizador de Ventana de Contexto LLM

Ve exactamente cuánto del presupuesto de contexto de cada modelo consume tu prompt.

Buğra SözeriIA

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Cada LLM alojado tiene un límite fijo de tokens de entrada — superarlo hace que la API rechace la solicitud o trunque silenciosamente el comienzo de tu prompt. El widget de abajo cuenta los tokens en lo que pegues y luego muestra una barra horizontal por modelo indicando qué porcentaje de su ventana de contexto consumiría tu entrada. Las barras se vuelven ámbar por encima del 50% de utilización y rojas por encima del 80%, donde las decisiones de ingeniería de prompts empiezan a dominar la calidad del modelo.

Paste your prompt + context

Characters: 364
Words: 60
Tokens (est.): 91
Style: Prose

Context window utilization

Sort

GPT-4oOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4o miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4 TurboOpenAI
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
o1-miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 65,536 tokens
Llama 3.3 70BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
Limits vary by host (Together, Groq, Fireworks).
Llama 3.1 405BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
DeepSeek V3DeepSeek
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
Mistral Large 2Mistral
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
o1OpenAI
91 / 200,000 tokens (0.05%)
Max output: 100,000 tokens
Includes reasoning tokens in output budget.
Claude Opus 4Anthropic
91 / 200,000 tokens (0.05%)
Max output: 32,000 tokens
Claude 3.5 SonnetAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude 3.5 HaikuAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude Sonnet 4Anthropic
91 / 1,000,000 tokens (0.01%)
Max output: 64,000 tokens
1M context tier — beta header required on some endpoints.
Gemini 2.0 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 ProGoogle
91 / 2,000,000 tokens (0.00%)
Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

GPT-4o+127,909
GPT-4o mini+127,909
GPT-4 Turbo+127,909
o1-mini+127,909
Llama 3.3 70B+127,909
Llama 3.1 405B+127,909
DeepSeek V3+127,909
Mistral Large 2+127,909
o1+199,909
Claude Opus 4+199,909
Claude 3.5 Sonnet+199,909
Claude 3.5 Haiku+199,909
Claude Sonnet 4+999,909
Gemini 2.0 Flash+999,909
Gemini 1.5 Flash+999,909
Gemini 1.5 Pro+1,999,909

Overflows (0)

—

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

Pega el prompt completo
Incluye el prompt del sistema, cada turno previo de conversación, cualquier definición de herramienta y el contexto recuperado — todo cuenta contra la ventana, no solo el último mensaje del usuario.
Lee las barras
Cada modelo recibe una barra que muestra los tokens de entrada como fracción de su ventana de contexto. Verde por debajo del 50% es cómodo, ámbar entre 50–80% significa que deberías empezar a recortar, rojo por encima del 80% no deja espacio para la respuesta del modelo.
Ordena para comparar
Cambia el orden de clasificación para ver el ajuste más estrecho (ventanas más pequeñas primero) o el mayor margen (las más grandes primero). El panel '¿en qué cabe esto?' resume qué modelos aceptan el prompt y cuáles desbordan.
Verifica el límite de salida por separado
La ventana de contexto es el presupuesto de entrada; el límite de salida (mostrado bajo cada barra) es un límite separado sobre la longitud de la respuesta. Un modelo con ventana de 1M tokens aún solo puede emitir ~8K tokens por respuesta.

Frequently asked questions

¿Qué cuenta como contexto vs salida?: El contexto es el presupuesto de entrada — todo lo que el modelo lee antes de generar: prompt del sistema, turnos previos de conversación, definiciones de herramientas/funciones, documentos recuperados y el último mensaje del usuario. La salida es lo que el modelo escribe de vuelta. Se facturan y limitan por separado, aunque ambos consumen el mismo presupuesto de atención subyacente. Una ventana de contexto de 200K tokens con límite de 8K de salida significa que puedes alimentar ~200K tokens pero solo obtener hasta ~8K tokens por llamada.
¿Los prompts del sistema cuentan contra la ventana?: Sí. Cada token que ve el modelo consume el presupuesto de entrada — prompt del sistema, instrucciones del desarrollador, ejemplos few-shot, esquemas de herramientas, turnos previos del asistente, fragmentos RAG recuperados. Los únicos tokens que no cuentan son los que el modelo emite como salida. Los prompts del sistema largos en conversaciones multi-turno son la causa número 1 de errores misteriosos de desbordamiento de contexto.
¿Qué es RAG y cómo interactúa con el tamaño del contexto?: Retrieval-Augmented Generation (RAG) significa recuperar pasajes relevantes de un almacén vectorial en tiempo de consulta y pegarlos en el prompt para que el modelo pueda basar su respuesta en datos frescos o específicos del dominio. Cada fragmento recuperado consume presupuesto de contexto. Una configuración RAG típica recupera 5–20 fragmentos de 500–1000 tokens cada uno, por lo que 5K–20K tokens de contexto desaparecen antes de que se añada el mensaje del usuario. Planifica para eso.

Visualizador de Ventana de Contexto LLM

Context window utilization

What does this fit in?

Accepts (16)

Overflows (0)

How to use

Pega el prompt completo

Lee las barras

Ordena para comparar

Verifica el límite de salida por separado

Frequently asked questions

Herramientas relacionadas