Glossary
Bağlam penceresi
Bir LLM’nin aynı anda okuyabildiği sınır
By Buğra SözeriPublished Updated
Bir LLM’nin bağlam penceresi, tek bir çıkarım çağrısında işleyebileceği maksimum token sayısıdır. Pencere giriş ve çıktıyı birlikte kapsar — girişi tamamen doldurursanız modelin yanıt verecek yeri kalmaz.
Bağlam pencereleri dramatik biçimde büyüdü:
- GPT-3 (2020): 2.048 token
- GPT-3.5 (2022): 4.096 → 16.384 token
- GPT-4 (2023): 8.192 → 32.768 → 128.000 token
- Claude 3 (2024): 200.000 token (~150.000 kelime)
- Gemini 1.5 Pro (2024): 1.000.000 token (~750.000 kelime — uzun bir roman)
- Sınır modelleri (2026): 1-2 milyon token yaygın
Daha büyük pencereler, tek bir isteme tüm kitapların, kod tabanlarının veya uzun konuşma geçmişlerinin yerleştirilmesini sağlar. Pratik sınırlamalar devam etmektedir: daha yüksek bağlam uzunluklarında verim düşer, maliyet giriş token’larıyla doğrusal olarak artar ve belgelenmiş biçimlerde (“samanlıkta iğne” kıyaslamaları) model dikkati çok uzun bağlamlarda bozulur.
Hesaplanmış örnek
250 sayfalık bir romanı (~75.000 kelime) özetlemek istiyorsunuz. OpenAI tokenizer’ında (cl100k_base) bu metin yaklaşık 100.000 token tutar. GPT-3’te (2k bağlam) roman hiç sığmaz. GPT-3.5 16k’de ~7 parçaya ihtiyaç duyarsınız. GPT-4 128k’de tüm roman, talimatlar ve çıktı için 28k token fazlasıyla sığar. Claude 3’te (200k) aynı durum geçerlidir. Gemini 1.5 Pro’da (1M) serinin tamamını tek seferde işleyebilirsiniz. Maliyet açısından: $3/M giriş token fiyatıyla 100k tokenlik özetleme yalnızca giriş olarak $0,30 tutar — istek başına ucuz, ancak bin istek $300 eder.
Ne zaman ve neden önem taşır
Bağlam penceresi, bir LLM iş akışının tipik bir sohbetten daha fazla giriş içerdiği her durumda önem kazanır: hukuki belge inceleme, kod tabanı genelinde yeniden düzenleme, birden fazla makale üzerinden araştırma sentezi, uzun geçmişli müşteri destek konuşmaları, araç çıktıları biriktiren ajan döngüleri. Kaçınılması gereken hata, “daha büyük pencere = daha iyi yanıtlar” varsayımıdır: “Ortada Kaybolma” etkisi (Liu 2023), uzun bir bağlamın ortasına yerleştirilen bilginin başa veya sona konulan bilgiden daha az güvenilir biçimde hatırlandığını göstermektedir. Referans: OpenAI Modeller belgeleri — bağlam penceresi sınırları.
Arka planda dikkat maliyeti sorunu: orijinal transformer dikkat mekanizması dizi uzunluğunda O(n²)’dir — bağlam penceresini iki katına çıkarmak bir ileri geçişin hesaplama maliyetini dört katına çıkarır. Sınır 1M-token modelleri mimari hileler sayesinde çalışır: FlashAttention (Tri Dao, 2022) ve FlashAttention-2 (2023) işlemi yeniden yapılandırır; seyrek dikkat varyantları (kayan pencere, genişletilmiş) genel ikinci dereceden terimi düşürür; halka/dizi-paralel dikkat ise diziyi GPU’lar arasında böler.
Neden “etkin bağlam” ≠ reklamı yapılan bağlam: “samanlıkta iğne” kıyaslaması, uzun bir bağlamda belirli bir konuma benzersiz bir gerçek yerleştirir ve modelden bunu geri getirmesini ister. Sınır modelleri bu kıyaslamada reklamı yapılan pencerelere kadar %100’e yakın puan alır. Çok gerçekli alım, uzun bağlam üzerinden çok adımlı akıl yürütme ve tüm giriş üzerinden sentezleyen özetleme gibi daha zorlu kıyaslamalar, 1M-token modellerde bile ~50-100k token’ın ötesinde anlamlı ölçüde düşük puan gösterir. İlgili: GPT token, LLM. Referans: Liu N ve ark. — Lost in the Middle (2023).
Frequently asked questions
- Bağlam penceresi nedir?
- Bağlam penceresi, bir LLM’nin tek bir çıkarım çağrısında işleyebileceği maksimum token sayısıdır — hem giriş (istem + konuşma geçmişi) hem de çıktı birlikte. 200.000 token bağlam penceresine sahip modeller aynı anda yaklaşık 150.000 kelimeyi işleyebilir.
- Bağlam penceresi LLM kullanımını pratikte nasıl etkiler?
- GPT-4 ile (128k bağlam) 500 sayfalık bir hukuki belgeyi özetlerken, belge pencereyi aştığından geliştirici onu parçalara bölmek zorunda kalır. 200k token penceresine sahip Claude 3.5 ise belgenin tamamını tek bir çağrıda parçalamadan işleyebilir.
- Bağlam penceresi ile bellek arasındaki fark nedir?
- Bağlam penceresi, etkin konuşmadaki tüm token’ları tutar — oturumlar arasında temizlenir. Bellek (çok oturumlu ajanlarda), ilgili geçmiş etkileşimleri depolayan ve getiren ayrı bir alım sistemidir. Bağlam hızlı ve kesindir; bellek kalıcı ama yaklaşık olarak çalışır.
- Daha büyük bir bağlam penceresi daha yavaş yanıt anlamına mı gelir?
- Evet — transformer’lardaki dikkat mekanizmaları dizi uzunluğuyla O(n²) olarak ölçeklenir; bu nedenle bağlamı iki katına çıkarmak dikkat hesaplamasını yaklaşık dört katına çıkarır. Çok büyük bağlam pencereli modeller bu maliyeti azaltmak için optimize edilmiş dikkat kullanır, ancak uzun bağlamlar gecikmeyi ve API maliyetini artırmaya devam eder.
Related
Published May 14, 2026 · Last reviewed May 31, 2026