Skip to content

Data study

Haziran 2026 LLM API fiyatlandırması: giriş ve çıkış token maliyeti dökümü

Çıkış tokenları, en gelişmiş modellerin büyük çoğunluğunda giriş tokenlarından 3-6 kat daha pahalı. Oran, mutlak fiyat kadar önemli.

By Published

LLM API fiyatlandırması tutarlı bir yapı izler: giriş tokenleri (isteğiniz) ve çıkış tokenleri (modelin yanıtı) için ayrı ayrı ödeme yaparsınız. Çıkış tokenleri neredeyse her zaman giriş tokenlerinden daha pahalıdır; çünkü her çıkış tokeni üretmek model üzerinden tam bir ileri geçiş gerektirir, giriş tokenleri ise paralel işlenir. Oranı anlamak, fiyat başlığını anlamak kadar önemlidir.

Bu tablodaki fiyatları kullanarak belirli istek ve yanıt uzunluklarınız için maliyet tahmini yapmak üzere LLM maliyet hesaplayıcımızı kullanın.

Fiyat tablosu — Haziran 2026

Tüm fiyatlar 1 milyon token başına ABD doları ($/1M) olarak verilmiştir. Fiyatlar Haziran 2026 itibarıyla her sağlayıcının kamuya açık fiyat sayfasından alınmıştır ve değişebilir. Standart (toplu olmayan, önbelleksiz) API fiyatlandırması gösterilmektedir.

ModelSağlayıcıGiriş $/1MÇıkış $/1MÇıkış/Giriş oranıBağlam penceresi
GPT-4oOpenAI$2,50$10,004,0×128K
GPT-4o miniOpenAI$0,15$0,604,0×128K
GPT-4.1OpenAI$2,00$8,004,0×1M
o3OpenAI$10,00$40,004,0×200K
o4-miniOpenAI$1,10$4,404,0×200K
Claude Sonnet 4Anthropic$3,00$15,005,0×200K
Claude Haiku 3.5Anthropic$0,80$4,005,0×200K
Gemini 2.5 ProGoogle$1,25$10,008,0×1M
Gemini 2.5 FlashGoogle$0,15$0,604,0×1M
Gemini 1.5 FlashGoogle$0,075$0,304,0×1M
Llama 3.3 70B (Together)Together.ai$0,18$0,181,0×128K
Llama 3.1 405B (Together)Together.ai$3,50$3,501,0×128K
Mistral Large 2Mistral$2,00$6,003,0×128K
Mistral Small 3.1Mistral$0,10$0,303,0×128K
Command R+Cohere$2,50$10,004,0×128K

Fiyatlar Haziran 2026'da sağlayıcı fiyat sayfalarından doğrulandı. Bir üretim bütçesine karar vermeden önce her zaman sağlayıcının güncel fiyat sayfasını kontrol edin.

Çıkış/giriş oranı analizi

Çıkış/giriş maliyet oranı, her sağlayıcının fiyatlandırma felsefesini ortaya koyar. Veride dört kalıp görülüyor:

  • 4× oran (OpenAI, Gemini Flash, Cohere). En yaygın oran. Paralel ön doldurmaya karşın öz-yinelemeli üretimin hesaplama asimetrisini yansıtır.
  • 5× oran (Anthropic Claude). Anthropic, daha uzun ortalama çıkış kıyaslamaları ve genişletilmiş düşünme yetenekleriyle tutarlı biçimde daha yüksek çıkış primi talep ediyor.
  • 8× oran (Gemini 2.5 Pro). Tablomuzun en yüksek oranı — Gemini 2.5 Pro'nun çıkış primi, genişletilmiş akıl yürütme ve uzun bağlam üretim yeteneklerini yansıtıyor.
  • 1× oran (Meta Llama, Together.ai aracılığıyla). Çıkarım sağlayıcılarında barındırılan açık ağırlıklı modeller genellikle giriş ve çıkış için aynı ücreti alır; tokenları üretim yönüne göre farklılaştırmak yerine temel bir işlem birimi olarak değerlendirir.

Çıkışın girişe oranla uzun olduğu iş yüklerinde (örn. belge üretimi, kod sentezi, özetleme) çıkış token ücreti toplam maliyete egemen olur. Büyük bağlam pencereli ve kısa yanıtlı RAG boru hatlarında ise giriş ücreti egemendir.

10.000 token başına maliyet

10.000 token yaklaşık 7.500 İngilizce kelimelik düz yazıya karşılık gelir — kısa bir makale, orta büyüklükte bir kod dosyası veya çok turlu bir konuşma. 1.000 giriş tokenına karşılık 100 çıkış tokeni oranında (tipik RAG tarzı oran):

ModelMaliyet / 10K giriş tokeniMaliyet / 10K çıkış tokeni10K giriş + 1K çıkış başına maliyet
GPT-4o$0,025$0,100$0,026
GPT-4o mini$0,0015$0,006$0,00156
Claude Sonnet 4$0,030$0,150$0,0315
Gemini 2.5 Flash$0,0015$0,006$0,00156
Gemini 1.5 Flash$0,00075$0,003$0,00078
Llama 3.3 70B (Together)$0,0018$0,0018$0,00198
Mistral Large 2$0,020$0,060$0,026
o3$0,100$0,400$0,104

Gerçek istek/çıkış oranınızı modellemek ve sağlayıcılar arasında toplam aylık maliyeti karşılaştırmak için LLM maliyet hesaplayıcısını kullanın.

Temel gözlemler

  • Token başına en ucuz (giriş): Gemini 1.5 Flash — $0,075/1M — 1.000 token için bir sentin yüzde biri bile değil.
  • Token başına en pahalı (çıkış): o3 — $40/1M çıkış — Gemini 1.5 Flash'ın $0,30/1M çıkışından 533 kat daha pahalı.
  • En iyi maliyet dengesi (giriş = çıkış): Meta Llama 3.3 70B, Together.ai aracılığıyla $0,18/1M her iki yönde. Simetrik iş yükleri için uygun.
  • Uzun bağlam RAG için en iyi maliyet: Gemini 1.5 Flash — hem en düşük giriş fiyatı hem de 1M token bağlam penceresi.
  • İstem önbellekleme indirimleri (gösterilmemiyor), tekrarlanan sistem istemleri için giriş maliyetlerini etkin biçimde %50-90 oranında düşürebilir. Anthropic, OpenAI (Batch API) ve Google'ın tümü, yüksek hacimli üretim kullanımında ekonomiyi önemli ölçüde değiştiren önbellekleme veya toplu indirimler sunuyor.

Sınırlamalar ve uyarılar

  • Fiyatlar sık değişiyor. LLM API fiyatlandırması 2023'ten bu yana karşılaştırılabilir yetenekler için yılda ~10× düştü. Bu tablodaki değerler Haziran 2026 itibarıyla kamuya açık fiyatları yansıtıyor ve okunduğu anda güncel olmayabilir.
  • Kalite eşit değil. Token başına daha düşük fiyat, eşdeğer görev performansı için modelin daha uzun istemler, daha fazla yeniden deneme veya son işlem gerektirmesi durumunda daha düşük toplam maliyet anlamına gelmez.
  • İşlem hızı ve gecikme değişiyor. Gemini 1.5 Flash'ın düşük fiyatı paylaşılan kota limitleriyle geliyor; GPT-4o'da sağlanan işlem hızı token başına daha fazla maliyet çıkarıyor ama kapasite garanti ediyor.
  • İnce ayar, gömme ve görsel tokenlar hariç. Bu tablo yalnızca metin üretimini kapsıyor.

Kaynaklar

OpenAI fiyat sayfası (openai.com/api/pricing); Anthropic API fiyatlandırması (anthropic.com/pricing); Google AI Studio ve Vertex AI fiyatlandırması (ai.google.dev/pricing); Together.ai fiyatlandırması (together.ai/pricing); Mistral AI fiyatlandırması (mistral.ai/technology); Cohere fiyatlandırması (cohere.com/pricing). Tüm fiyatlar Haziran 2026'da doğrulandı.

Related

Published May 31, 2026