O que é uma janela de contexto?

Uma janela de contexto é o número máximo de tokens que um LLM pode processar em uma única chamada de inferência — tanto a entrada (prompt + histórico de conversa) quanto a saída combinados. Modelos com janela de contexto de 200.000 tokens podem processar aproximadamente 150.000 palavras de uma vez.

Como a janela de contexto afeta o uso de LLM na prática?

Ao resumir um documento legal de 500 páginas com GPT-4 (contexto de 128k), um desenvolvedor deve dividir o documento em partes porque excede a janela. Claude 3.5 com janela de 200k tokens pode processar o documento inteiro em uma única chamada sem divisão.

Qual é a diferença entre janela de contexto e memória?

A janela de contexto contém todos os tokens atualmente na conversa ativa — é apagada entre sessões. Memória (em agentes multi-sessão) é um sistema de recuperação separado que armazena e busca interações passadas relevantes. O contexto é rápido e preciso; a memória é persistente mas aproximada.

Uma janela de contexto maior significa respostas mais lentas?

Sim — os mecanismos de atenção em transformers escalam como O(n²) com o comprimento da sequência, então dobrar o contexto aproximadamente quadruplica o cálculo de atenção. Modelos com janelas de contexto muito grandes usam atenção otimizada (ex.: flash attention) para reduzir esse custo, mas contextos mais longos ainda aumentam a latência e o custo da API.

Glossary

Janela de contexto

O limite máximo do que um LLM pode ler de uma vez

By Buğra SözeriPublished May 14, 2026Updated May 31, 2026

A janela de contexto de um LLM é o número máximo de tokens que ele pode processar em uma única chamada de inferência. A janela cobre entrada e saída combinadas — se você preencher a entrada até o limite, não haverá espaço para o modelo responder.

As janelas de contexto cresceram dramaticamente:

GPT-3 (2020): 2.048 tokens
GPT-3.5 (2022): 4.096 → 16.384 tokens
GPT-4 (2023): 8.192 → 32.768 → 128.000 tokens
Claude 3 (2024): 200.000 tokens (~150.000 palavras)
Gemini 1.5 Pro (2024): 1.000.000 tokens (~750.000 palavras — um romance longo)
Modelos de fronteira (2026): 1-2 milhões de tokens são comuns

Janelas maiores permitem colocar livros inteiros, bases de código ou longos históricos de conversa em um único prompt. Limites práticos permanecem: a taxa de transferência cai em comprimentos de contexto mais altos, o custo escala linearmente com tokens de entrada (em cache ou não), e a atenção do modelo degrada em contextos muito longos de formas bem documentadas (benchmarks de “agulha no palheiro”).

Exemplo prático

Você quer resumir um romance de 250 páginas (~75.000 palavras). No tokenizador da OpenAI (cl100k_base), esse texto equivale a aproximadamente 100.000 tokens. No GPT-3 (contexto de 2k), o romance não cabe de jeito nenhum — você teria que dividi-lo em 50 pedaços e executar uma árvore de sumarização recursiva. No GPT-3.5 16k, você precisaria de ~7 pedaços. No GPT-4 128k, o romance inteiro cabe com 28k tokens sobrando para instruções e saída. No Claude 3 (200k), o mesmo com ainda mais margem. No Gemini 1.5 Pro (1M), você poderia colocar o romance inteiro mais os nove livros anteriores da série e ainda ter espaço. O cenário de custo também muda: a $3/M tokens de entrada, a sumarização de 100k tokens custa $0,30 apenas em entrada — barato por solicitação, mas mil dessas solicitações são $300, razão pela qual as APIs em lote e o cache de prompts se tornaram necessidades econômicas.

Quando e por que isso importa

A janela de contexto importa sempre que um fluxo de trabalho de LLM envolve mais entrada do que um chat típico: revisão de documentos jurídicos, refatoração em toda a base de código, síntese de pesquisa em vários artigos, conversas de suporte ao cliente com histórico longo, loops de agentes acumulando saídas de ferramentas. O erro a evitar é assumir que “janela maior = respostas melhores”: o efeito “Perdido no Meio” (Liu 2023) mostra que informações colocadas no meio de um contexto longo são recuperadas com menos confiabilidade do que informações no início ou no final. O padrão prático de engenharia é (a) colocar as instruções e restrições mais críticas no início, (b) colocar a consulta imediata do usuário no final, e (c) tratar o meio como “material de referência que o modelo pode consultar, mas do qual não deve ser obrigado a usar.” Para geração com recuperação aumentada, janelas de contexto menores com recuperação precisa frequentemente superam janelas maiores com tudo despejado. Referência: Documentação de modelos OpenAI — limites de janela de contexto.

O problema de custo de atenção nos bastidores: o mecanismo de atenção original do transformer é O(n²) no comprimento da sequência — dobrar a janela de contexto quadruplica o custo de computação de uma passagem forward. Os modelos de fronteira de 1M de tokens funcionam por causa de truques arquiteturais: FlashAttention (Tri Dao, 2022) e FlashAttention-2 (2023) reestrutura a operação para ser consciente de IO e reduz os custos de largura de banda de memória; variantes de atenção esparsa (janela deslizante, dilatada) eliminam o termo quadrático global; e atenção ring/sequence-parallel fragmenta a sequência entre GPUs. Nenhum desses truques remove o escalonamento subjacente — apenas empurra o limite mais adiante.

Por que “contexto efetivo” ≠ contexto anunciado: o benchmark de “agulha no palheiro” insere um fato único em uma posição conhecida em um contexto longo e pede ao modelo que o recupere. Os modelos de fronteira obtêm pontuação próxima a 100% nesse benchmark até a janela anunciada. Os benchmarks mais difíceis — recuperação de múltiplos fatos, raciocínio multi-salto no contexto longo, sumarização que sintetiza toda a entrada — mostram pontuações significativamente mais baixas além de ~50-100K tokens, mesmo em modelos de 1M de tokens. A regra prática: uma janela de 1M de tokens é confiável para tarefas de “procurar coisas específicas neste grande documento”, mas a qualidade do raciocínio geralmente degrada além dos primeiros ~100K. Compare as afirmações dos fornecedores com sua carga de trabalho específica. Relacionado: token GPT, LLM. Referência: Liu N et al. — Lost in the Middle (2023).

Frequently asked questions

O que é uma janela de contexto?: Uma janela de contexto é o número máximo de tokens que um LLM pode processar em uma única chamada de inferência — tanto a entrada (prompt + histórico de conversa) quanto a saída combinados. Modelos com janela de contexto de 200.000 tokens podem processar aproximadamente 150.000 palavras de uma vez.
Como a janela de contexto afeta o uso de LLM na prática?: Ao resumir um documento legal de 500 páginas com GPT-4 (contexto de 128k), um desenvolvedor deve dividir o documento em partes porque excede a janela. Claude 3.5 com janela de 200k tokens pode processar o documento inteiro em uma única chamada sem divisão.
Qual é a diferença entre janela de contexto e memória?: A janela de contexto contém todos os tokens atualmente na conversa ativa — é apagada entre sessões. Memória (em agentes multi-sessão) é um sistema de recuperação separado que armazena e busca interações passadas relevantes. O contexto é rápido e preciso; a memória é persistente mas aproximada.
Uma janela de contexto maior significa respostas mais lentas?: Sim — os mecanismos de atenção em transformers escalam como O(n²) com o comprimento da sequência, então dobrar o contexto aproximadamente quadruplica o cálculo de atenção. Modelos com janelas de contexto muito grandes usam atenção otimizada (ex.: flash attention) para reduzir esse custo, mas contextos mais longos ainda aumentam a latência e o custo da API.

Published May 14, 2026 · Last reviewed May 31, 2026

Janela de contexto

Exemplo prático

Quando e por que isso importa

Frequently asked questions

Related