Bağlam ile çıktı arasındaki fark nedir?

Bağlam giriş bütçesidir — modelin üretmeden önce okuduğu her şey: sistem istemi, önceki konuşma turları, araç/fonksiyon tanımları, alınan belgeler ve en son kullanıcı mesajı. Çıktı ise modelin geri yazdıklarıdır. Aynı temel dikkat bütçesini tüketmelerine rağmen ayrı ayrı faturalandırılır ve sınırlandırılır. 8 K çıktı sınırına sahip 200 K token bağlam penceresi, yaklaşık 200 K token beslemenize ancak çağrı başına yalnızca ~8 K token almanıza olanak tanır.

Sistem istemleri pencereye karşı sayılır mı?

Evet. Modelin gördüğü her token giriş bütçesini tüketir — sistem istemi, geliştirici talimatları, az sayıda örnek, araç şemaları, önceki asistan turları, alınan RAG parçaları. Sayılmayan tek tokenlar modelin çıktı olarak ürettikleridir (bunlar ayrı çıktı sınırına karşı sayılır). Çok turlu konuşmalardaki uzun sistem istemleri, gizemli bağlam taşma hatalarının 1 numaralı nedenidir.

RAG nedir ve bağlam boyutuyla nasıl etkileşime girer?

Retrieval-Augmented Generation (RAG), sorgu zamanında bir vektör deposundan ilgili pasajları alıp modelin yanıtını güncel veya alana özgü gerçeklere dayandırabilmesi için isteme yapıştırmak anlamına gelir. Alınan her parça bağlam bütçesini tüketir. Tipik bir RAG kurulumu 500–1000 token’lık 5–20 parça alır; dolayısıyla kullanıcı mesajı eklenmeden önce 5 K–20 K token bağlam kaybolur. Buna göre plan yapın.

LLM Bağlam Penceresi Görselleştiricisi

Her modelin bağlam bütçesinin isteğiniz tarafından ne kadar tüketildiğini tam olarak görün.

Buğra SözeriYapay Zeka

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Her barındırılan LLM'nin giriş token’ı üzerinde sert bir sınırı vardır — bu sınırı aşarsanız API isteği reddeder ya da isteğinizin başını sessizce kırpar. Aşağıdaki araç, yapıştırdığınız metnin token sayısını hesaplar ve ardından her model için giriş miktarının bağlam penceresinin ne kadarını tükettiğini gösteren yatay bir çubuk çizer. Çubuklar %50 kullanımın üzerinde sarıya, %80 üzerinde kırmızıya döner; bu noktada istem mühendisliği seçimleri model kalitesini doğrudan etkilemeye başlar.

Paste your prompt + context

Characters: 364
Words: 60
Tokens (est.): 91
Style: Prose

Context window utilization

Sort

GPT-4oOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4o miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 16,384 tokens
GPT-4 TurboOpenAI
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
o1-miniOpenAI
91 / 128,000 tokens (0.07%)
Max output: 65,536 tokens
Llama 3.3 70BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
Limits vary by host (Together, Groq, Fireworks).
Llama 3.1 405BMeta
91 / 128,000 tokens (0.07%)
Max output: 4,096 tokens
DeepSeek V3DeepSeek
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
Mistral Large 2Mistral
91 / 128,000 tokens (0.07%)
Max output: 8,192 tokens
o1OpenAI
91 / 200,000 tokens (0.05%)
Max output: 100,000 tokens
Includes reasoning tokens in output budget.
Claude Opus 4Anthropic
91 / 200,000 tokens (0.05%)
Max output: 32,000 tokens
Claude 3.5 SonnetAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude 3.5 HaikuAnthropic
91 / 200,000 tokens (0.05%)
Max output: 8,192 tokens
Claude Sonnet 4Anthropic
91 / 1,000,000 tokens (0.01%)
Max output: 64,000 tokens
1M context tier — beta header required on some endpoints.
Gemini 2.0 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 FlashGoogle
91 / 1,000,000 tokens (0.01%)
Max output: 8,192 tokens
Gemini 1.5 ProGoogle
91 / 2,000,000 tokens (0.00%)
Max output: 8,192 tokens

What does this fit in?

Based on your 91-token input. Models with headroom below 100% accept the prompt; output budget still depends on each model’s output cap.

Accepts (16)

GPT-4o+127,909
GPT-4o mini+127,909
GPT-4 Turbo+127,909
o1-mini+127,909
Llama 3.3 70B+127,909
Llama 3.1 405B+127,909
DeepSeek V3+127,909
Mistral Large 2+127,909
o1+199,909
Claude Opus 4+199,909
Claude 3.5 Sonnet+199,909
Claude 3.5 Haiku+199,909
Claude Sonnet 4+999,909
Gemini 2.0 Flash+999,909
Gemini 1.5 Flash+999,909
Gemini 1.5 Pro+1,999,909

Overflows (0)

—

Token counts are heuristic (~4 chars/token for prose, ~3.5 for code). System prompts, tool definitions, and prior turns all consume the same context budget — paste the full assembled prompt for the most accurate utilization.

How to use

Tam istemi yapıştırın
Sistem istemini, önceki tüm konuşma turlarını, araç tanımlarını ve alınan bağlamı dahil edin — tümü pencereye karşı sayılır, yalnızca en son kullanıcı mesajı değil.
Çubukları okuyun
Her model, giriş token’larını bağlam penceresinin bir payı olarak gösteren bir çubuk alır. %50 altında yeşil rahattır; %50–80 arası sarı kırpma zamanının geldiğini gösterir; %80 üzerinde kırmızı modelin yanıtı için neredeyse yer kalmadığı anlamına gelir.
Karşılaştırmak için sıralayın
En sıkı sığdırmayı (önce en küçük pencereler) veya en fazla baş boşluğunu (önce en büyükler) ortaya çıkarmak için sıralama düzenini değiştirin. 'Bu neye sığar?' paneli hangi modellerin istemi kabul ettiğini, hangilerinin taştığını özetler.
Çıktı sınırını ayrıca kontrol edin
Bağlam penceresi giriş bütçesidir; çıktı sınırı (her çubuğun altında gösterilir) yanıt uzunluğu üzerindeki ayrı bir kısıtlamadır. 1 M token pencereli bir model yine de her yanıtta yalnızca ~8 K token üretebilir.

Frequently asked questions

Bağlam ile çıktı arasındaki fark nedir?: Bağlam giriş bütçesidir — modelin üretmeden önce okuduğu her şey: sistem istemi, önceki konuşma turları, araç/fonksiyon tanımları, alınan belgeler ve en son kullanıcı mesajı. Çıktı ise modelin geri yazdıklarıdır. Aynı temel dikkat bütçesini tüketmelerine rağmen ayrı ayrı faturalandırılır ve sınırlandırılır. 8 K çıktı sınırına sahip 200 K token bağlam penceresi, yaklaşık 200 K token beslemenize ancak çağrı başına yalnızca ~8 K token almanıza olanak tanır.
Sistem istemleri pencereye karşı sayılır mı?: Evet. Modelin gördüğü her token giriş bütçesini tüketir — sistem istemi, geliştirici talimatları, az sayıda örnek, araç şemaları, önceki asistan turları, alınan RAG parçaları. Sayılmayan tek tokenlar modelin çıktı olarak ürettikleridir (bunlar ayrı çıktı sınırına karşı sayılır). Çok turlu konuşmalardaki uzun sistem istemleri, gizemli bağlam taşma hatalarının 1 numaralı nedenidir.
RAG nedir ve bağlam boyutuyla nasıl etkileşime girer?: Retrieval-Augmented Generation (RAG), sorgu zamanında bir vektör deposundan ilgili pasajları alıp modelin yanıtını güncel veya alana özgü gerçeklere dayandırabilmesi için isteme yapıştırmak anlamına gelir. Alınan her parça bağlam bütçesini tüketir. Tipik bir RAG kurulumu 500–1000 token’lık 5–20 parça alır; dolayısıyla kullanıcı mesajı eklenmeden önce 5 K–20 K token bağlam kaybolur. Buna göre plan yapın.

LLM Bağlam Penceresi Görselleştiricisi

Context window utilization

What does this fit in?

Accepts (16)

Overflows (0)

How to use

Tam istemi yapıştırın

Çubukları okuyun

Karşılaştırmak için sıralayın

Çıktı sınırını ayrıca kontrol edin

Frequently asked questions

İlgili Türkçe araçlar