Guide
LLM API fiyatlandırması gerçekte nasıl işler (ve sizi nerede ısırır)
Çıkış token’ları girişten 4-5 kat pahalı. Önbelleğe alınmış istemler 10 kat ucuz. Çoğu fatura sürprizi bu iki sayıyı yanlış anlamaktan geliyor.
By Buğra SözeriPublished
Her büyük LLM API — OpenAI, Anthropic, Google, bulut aracılığıyla Meta — token başına ücret alır. Pazarlama sayfaları “giriş token’ı başına 5 dolar, çıkış token’ı başına 15 dolar” gibi fiyatlar alıntılar. Matematik basit görünüyor. Gerçek faturanın basit tahminden saptığı beş yer:
1. Çıkış, girişten 4-5× daha pahalı
Her modern sınır modeli çıkış için girişten anlamlı ölçüde daha fazla ücret alır. Yazı anında tipik oranlar: OpenAI GPT-4 ailesi ~5×, Claude ailesi ~3-5×, Gemini ailesi ~4×. Ekonomi doğrudur: giriş token’ları modelin bağlam işleme geçişi tarafından bir kez tüketilir; çıkış token’ları düzinelerce veya yüzlerce ileri geçiş aracılığıyla tek tek oluşturulur.
2. Önbelleğe alınmış istemler radikal ölçüde daha ucuz
OpenAI ve Anthropic her ikisi de istem önbelleğe almayı sunar: yakın zamanda görülen bir önekle eşleşen giriş token’ları normal giriş fiyatlandırmasının %10-90 indirimiyle fatura edilir. Önbellek genellikle 5-10 dakika yaşar.
Pratik sonuç: istemleri çağrılar arasında önekin sabit olacağı şekilde tasarlayın. Sistem talimatlarını ve statik bağlamı üste; kullanıcının istek başına varyasyonunu alta koyun. Tutarlı bir sistem istemi olan bir sohbet botu, çok turlu bir konuşmada önbellek isabetlerinden giriş faturalarını %70-90 düşürebilir.
3. Toplu API’ler %50 daha ucuz
OpenAI’nin toplu uç noktası ve Anthropic’in mesaj toplu işleme API’si, eş zamansız teslimat karşılığında (genellikle 24 saat içinde) liste fiyatından %50 indirim sunar. Anlık yanıt gerektirmeyen iş yükleri için — gece veri işleme, içerik oluşturma hatları, gömülü doldurmalar — toplu işleme ücretsiz %50 tasarruftur.
4. Alım adımlarında daha düşük modellere geçiş yapın
Üretimdeki yaygın bir yapay zeka modeli: ilk adımın “ne alınacağına karar ver” ve ikinci adımın “alınanları kullanarak yanıtla” olduğu bir model çağrısı zinciri. Karar adımı nadiren en akıllı modele ihtiyaç duyar — GPT-4o-mini veya Claude Haiku genellikle yeterlidir. Sınır katman modelini son yanıt adımı için ayırmak, minimal kalite etkisiyle boru hattı maliyetini genellikle %80-90 azaltır.
5. Çıkış uzunluğunu agresif şekilde tahmin edin
Fatura sürprizlerinin en büyük kaynağı: modelin kısa bir yanıt üreteceğini varsayıyorsunuz; uzun bir tane üretiyor. Bir “max_tokens: 4096” güvenlik sınırı, çağrı başına 4096 çıkış token’ı için ödeme yapabileceğiniz anlamına gelir.
Pratik: max_tokens’u gerçekten beklediğiniz uzunluğun ~1,5×’ine, tolerans gösterebileceğiniz maksimuma değil, ayarlayın. Daha düşük max_tokens ayrıca modeli daha kısa yanıtlar üretmeye iter. Tasarruf birikir.
Tahmin aracı
Yapay zeka token sayacımız giriş token’larını tahmin eder ve büyük model aileleri arasında çağrı başına maliyeti hesaplar. Boyutlandırma kararları için kaba ama kullanışlı heuristic kullanır. Kesin maliyet tahmini için satıcının resmi tokenleştirici kütüphanesini kullanın.
Örnek çalışma: ayda 100K konuşmalı müşteri destek sohbet botu
Somut boru hattı. Her kullanıcı turu 3.500 token’lık bir sistem istemi (ürün belgeleri, ton yönergeleri, ret kuralları), ortalama 200 token’lık kullanıcı mesajı ve ortalama 400 token’lık model yanıtı içerir. Konuşmalar ortalama 4 tur sürer. Konuşma başına:
- Tur başına giriş: 3.500 (sistem) + birikmiş geçmiş + 200 (yeni kullanıcı) ≈ ilk turda 3.700, 4. turda ~5.800. Tur başına ortalama ~4.750.
- Toplam giriş/konuşma: 4 × 4.750 = 19.000 giriş token’ı
- Toplam çıkış/konuşma: 4 × 400 = 1.600 çıkış token’ı
Claude Sonnet 4 (giriş başına 3 dolar/milyon, çıkış başına 15 dolar/milyon) ile 100K konuşmada naif maliyet:
- Giriş: 100.000 × 19.000 × 3 dolar / 1M = 5.700 dolar
- Çıkış: 100.000 × 1.600 × 15 dolar / 1M = 2.400 dolar
- Toplam: 8.100 dolar/ay
Şimdi istem önbelleğe almayı uygulayın. 3.500 token’lık sistem istemi tüm 100K × 4 = 400K turda aynıdır. Anthropic’in önbelleği ile (önbellek okumaları 0,30 dolar/M, önbelleğe alınmış girişte %90 indirim) yalnızca kullanıcı mesajları ve büyüyen geçmiş tam fiyat öder.
- Yeni giriş maliyeti: 420 dolar + 1.500 dolar = 1.920 dolar (5.700 dolardan düşüş)
- Çıkış değişmez: 2.400 dolar
- Yeni toplam: 4.320 dolar/ay
Tek bir yapılandırma değişikliğiyle %47 azalma. Kolay %30 konuşmayı (tam modele ihtiyaç duymayanları) Haiku 4.5’e geçirmek (~1 dolar/5 dolar/milyon) faturayı ~1.000 dolar daha düşürür. Toplam tasarruf — %59 — önbelleğe alma ve kademelendirmeden gelir; ikisi de otomatik değil.
Faturayı şişiren yaygın hatalar
- Kullanıcı mesajını istemin en üstüne koymak.Önbellek anahtarları önek üzerinden hash’ler. Yapınız
[kullanıcı varyasyonu] [statik sistem]ise önbellek hiçbir zaman isabet etmez. Statik parçaları her zaman önce koyun. max_tokens’u model tavanına ayarlamak.Çoğu API gerçek oluşturmayı fatura eder, limiti değil — ama model limiti uzunluk sinyali olarak kullanır.- Her dokümanı tekrar tekrar gömmek.Aynı corpus’u her sorguda yeniden gömen alım hatları zaten sahip oldukları gömüler için ödeme yapıyor. Gömüleri vektör deponuzda önbelleğe alın.
- Sınıflandırma için GPT-4 / Opus / Gemini Pro kullanmak.5 sınıflı bir niyet sınıflandırıcı neredeyse hiçbir zaman sınır model gerektirmez. Haiku, GPT-4o-mini veya Gemini Flash 10-30× ucuza çalışır.
- İhtiyaç yokken akışlı yayın yapmak.Akış ekstra ücret gerektirmez, ancak bir müşteri akışın ortasında zaman aşımı nedeniyle iptal ederse üretilen kısım için ödeme yaparsınız.
Bu rehberin geçerli olmadığı durumlar
- Kendi kendine barındırılan / açık ağırlıklı modeller.Kendi GPU’larınızda Llama, Mistral, Qwen, token başına API maliyetini GPU-saat maliyetine dönüştürür.
- İnce ayarlı ve özel kapasiteli dağıtımlar.OpenAI’nin Sağlanan Verim Birimleri, Anthropic’in ayrılmış kapasitesi ve Google’ın “Sağlanan Verim”inin tamamı, garantili kapasite için aylık sabit ücret alır.
- Yalnızca gömme iş yükleri.Gömme modelleri sohbet tamamlamadan 100-1000× daha ucuzdur. Yukarıdaki beş kaldıraç çoğunlukla geçerli değildir.
Faturalandırmanın altındaki birimlerin çalışma tanımları için GPT token sözlük girişimize ve bağlam penceresi girişine bakın. Somut modele göre maliyet karşılaştırması için LLM maliyet hesaplayıcısı satıcı başına fiyat listelerini işler.
Dürüst özet
Küçük ölçekte (ayda birkaç bin çağrı) LLM fiyatlandırması bu kadar ucuz ki hiçbir şey önemli değil. Orta ila büyük ölçekte, naif maliyet tahmini ile gerçek fatura arasındaki uçurum, çıkış şişmesi, önbellek kaçırma ve gereksiz sınır model kullanımını hesaba kattığınızda kolayca 5-10× olabilir.
Token sayma araçları ve doğrulukları
Her büyük satıcı farklı bir tokenleştirici kullanır. Token’ları önceden saymak için eşleşen kütüphane gerekir:
- OpenAI tiktoken. GPT-4 ve önceki OpenAI modelleri için kanonik tokenleştirici. BPE varyantı, İngilizce için ~4 karakter/token.
- Anthropic tokenleştirici. Claude özel bir BPE tokenleştirici kullanır. SDK artık bütçeleme için istemci tarafı sayaç içeriyor.
- Google sentencepiece (Gemini). Gemini API’nin
count_tokensuç noktası aracılığıyla. - Karakter oranı heuristic’leri.Satıcılar arasında kaba tahmin için: İngilizce metin ortalama 4 karakter/token; kod 2,5; Latin dışı yazılar 1-2.
Milyon token başına oran tablosu (2026 başı)
| Model | Giriş ($/M tok) | Çıkış ($/M tok) | Önbelleğe alınmış giriş |
|---|---|---|---|
| OpenAI GPT-4.1 | 2,00 $ | 8,00 $ | 0,50 $ (%75 indirim) |
| OpenAI GPT-4.1 mini | 0,40 $ | 1,60 $ | 0,10 $ |
| OpenAI o1 | 15,00 $ | 60,00 $ | 7,50 $ |
| Anthropic Claude Opus 4 | 15,00 $ | 75,00 $ | 1,50 $ (%90 indirim) |
| Anthropic Claude Sonnet 4 | 3,00 $ | 15,00 $ | 0,30 $ |
| Anthropic Claude Haiku 4.5 | 1,00 $ | 5,00 $ | 0,10 $ |
| Google Gemini 2.5 Pro | 1,25 $ | 10,00 $ | 0,31 $ |
| Google Gemini 2.5 Flash | 0,30 $ | 2,50 $ | 0,075 $ |
Dikkat edilecek üç örüntü. Birincisi, çıkış/giriş oranı neredeyse her satıcıda 4-5× — bu piyasa genelinde mimari bir maliyettir. İkincisi, en ucuz ve en pahalı sınır model arasındaki uçurum 12-15×. Üçüncüsü, önbelleğe alınmış giriş tipik olarak normal girişin %10-25’i kadardır.
Frequently asked questions
- LLM API’leri neden çıkış token’ları için giriş token’larından daha fazla ücret alır?
- Giriş token’ları modelden tek bir paralel geçişte işlenir; çıkış token’ları düzinelerce veya yüzlerce ardışık ileri geçiş aracılığıyla tek tek oluşturulur. Çıkış token’ı başına hesaplama maliyeti 4-5× daha yüksektir; bu durum OpenAI, Anthropic ve Google genelinde fiyatlandırmaya yansır.
- İstem önbelleğe alma nedir ve LLM API faturamı ne kadar azaltabilir?
- İstem önbelleğe alma, tekrarlanan istem öneki için KV önbelleğini depolar ve önbellek isabetlerinde normal giriş oranlarının %10-25’ini tahsil eder. 400.000 turda tekrarlanan 3.500 token’lık sistem istemi olan bir sohbet botu, giriş maliyetlerini %70-90 azaltabilir.
- OpenAI veya Anthropic toplu API ne kadar indirim sağlar?
- OpenAI’nin toplu uç noktası ve Anthropic’in mesaj toplu işleme API’si, 24 saat içinde eş zamansız teslimat karşılığında liste fiyatından %50 indirim sunar.
- Ayda 100.000 konuşmayla bir müşteri destek sohbet botunu çalıştırmanın yaklaşık maliyeti nedir?
- Optimizasyon olmaksızın: yaklaşık 8.100 dolar/ay. Statik sistem istemine istem önbelleğe alma ile: yaklaşık 4.320 dolar/ay (%47 azalma). Model kademelendirmesi eklemek (daha basit konuşmaları Haiku’ya yönlendirmek) faturayı yaklaşık 3.300 dolara daha düşürür — toplamda %59 tasarruf.
- Tipik bir İngilizce kelimede kaç token var?
- İngilizce düzyazı için kabaca 1,3 token/kelime (token başına yaklaşık 4 karakter). Kod, token başına yaklaşık 2,5 karakter ortalamasına sahiptir. Çince ve Japonca gibi Latin dışı yazılar, token başına ortalama 1-2 karakter içerir ve işlemesi orantılı olarak daha pahalıdır.
Related
Published May 14, 2026