Token sayılarım neden tam olarak eşleşmiyor?

Her model ailesi farklı bir tokenizer kullanır. OpenAI’nin yeni modelleri o200k_base; GPT-4 Turbo ve 3.5 cl100k_base kullanır; Anthropic kendi SentencePiece türevi tokenizer’ını sunar; Google SentencePiece kullanır; Llama tiktoken uyumlu bir varyant kullanır. 'Metin yapıştır' modu, İngilizce metin için bu değerlerden herhangi birinin ±%10 içinde kalan token başına 4 karakter buluşsallığı kullanır; ancak kod veya Latin dışı yazılar için sapma artabilir. Tam sayı için her sağlayıcının kendi tokenizer’ından aldığınız sayıyla 'Token belirt' modunu kullanın.

Çıktı oranı neden girişten yüksek?

Çıktı tokenları sıralı olarak üretilir ve her biri modelin tam bir ileri geçişini gerektirir — bu, toplu işlenebilen giriş tokenlarına kıyasla daha fazla hesaplama demektir. Sağlayıcılar bunu fiyatlarına yansıtır: çoğu çıktıyı giriş oranının 3–5 katında fiyatlandırır. Bu nedenle toplam harcama için çıktı:giriş oranı bu kadar önemlidir.

Bu toplu API indirimlerini içeriyor mu?

Hayır. OpenAI, Anthropic ve Google, gerçek zamanlı olmayan iş yükleri için yaklaşık %50 indirimle toplu uç noktalar sunar. 24 saatlik beklemeye katlanabilirseniz buradaki rakamları yarıya bölün. İstem önbelleğe alma (önbelleğe alınan kısımda %50–90 indirim) de dahil edilmemiştir — önbelleğe alınan kısmı ayrıca modelleyin.

LLM API Maliyet Hesaplayıcı

Çağrı başı maliyet, aylık projeksiyon, tüm büyük modeller tek ekranda.

Buğra SözeriYapay Zeka

Updated June 10, 2026 · Published June 10, 2026

Reviewed by Convertitive

Büyük barındırılan LLM’ler arasındaki fiyatlandırma iki büyüklük sırası kadar farklılık gösteriyor — GPT-4o, çıktı token başına Gemini 1.5 Flash’tan yaklaşık 17 kat daha pahalı; Claude Opus ise bunun 7 kat üzerinde. Doğru modeli seçmek hem bütçe hem de kapasite sorusudur. Bir istem yapıştırın (ya da token sayacımızdan aldığınız token sayısını girin), iş yükü şeklini seçin; hesaplayıcı çağrı başı maliyeti, aylık projeksiyonu ve tablodaki her model için yan yana karşılaştırmayı gösterir.

Prompt text

Heuristic token estimate (~4 chars/token for prose). Drop a real prompt — system message + user turn + any tool defs — for the closest cost reading.

Workload preset

Model

Calls per day

Input tokens: 42
Output tokens: 42
Per call: $0.000756
Per month: $22.68

Claude 3.5 Sonnet — $3.00 / 1M input, $15.00 / 1M output · context 200k. Output ratio 1×. Monthly = per-call × calls/day × 30.

Compare all models

Model	Provider	Per call	Per month
Gemini 1.5 Flash	Google	<$0.0001	$0.4725
Gemini 2.0 Flash	Google	<$0.0001	$0.6300
GPT-4o mini	OpenAI	<$0.0001	$0.9450
Llama 3.3 70B (Together / Fireworks)	Meta	<$0.0001	$2.22
GPT-3.5 Turbo	OpenAI	<$0.0001	$2.52
Claude 3.5 Haiku	Anthropic	$0.000202	$6.05
Gemini 1.5 Pro	Google	$0.000263	$7.88
Llama 3.1 405B (Together / Fireworks)	Meta	$0.000294	$8.82
GPT-4o	OpenAI	$0.000525	$15.75
o1-mini	OpenAI	$0.00063	$18.90
Claude Sonnet 4	Anthropic	$0.000756	$22.68
Claude 3.5 Sonnet	Anthropic	$0.000756	$22.68
GPT-4 Turbo	OpenAI	$0.00168	$50.40
o1 (reasoning)	OpenAI	$0.00315	$94.50
Claude Opus 4	Anthropic	$0.00378	$113.40

Pricing as of 2026-05-30. Discounts (batch API, prompt caching, enterprise contracts) and fine-tuning surcharges are not applied — check the vendor’s live pricing page before committing to spend.

How to use

Giriş modunu seçin
Buluşsal token sayısı için tam istemi (sistem mesajı + kullanıcı turu + araç tanımları) yapıştırın ya da tiktoken veya Anthropic’in count_tokens uç noktasından sayıyı zaten biliyorsanız 'Token say' moduna geçin.
İş yükü ön ayarını seçin
Çıktı:giriş oranı maliyetin büyük bölümünü belirler — çoğu sağlayıcıda çıktı tokenları girişten 3–5 kat daha pahalıdır. Sohbet ≈ 1×, sınıflandırma ≈ 0,05×, kod üretme 3×, özetleme 0,2×.
Günlük çağrı sayısını ayarlayın
Çağrı başı maliyet × günlük çağrı × 30 = aylık projeksiyon. Trafik düzeyinizde bütçe dahilinde hangi modelin kaldığını görmek için karşılaştırma tablosunu kullanın.
Karşılaştırmayı kopyalayın
'Markdown tablosu olarak kopyala' düğmesine tıklayarak yan yana maliyet matrisini bir belgeye, tikete veya Slack mesajına yapıştırın.

Frequently asked questions

Token sayılarım neden tam olarak eşleşmiyor?: Her model ailesi farklı bir tokenizer kullanır. OpenAI’nin yeni modelleri o200k_base; GPT-4 Turbo ve 3.5 cl100k_base kullanır; Anthropic kendi SentencePiece türevi tokenizer’ını sunar; Google SentencePiece kullanır; Llama tiktoken uyumlu bir varyant kullanır. 'Metin yapıştır' modu, İngilizce metin için bu değerlerden herhangi birinin ±%10 içinde kalan token başına 4 karakter buluşsallığı kullanır; ancak kod veya Latin dışı yazılar için sapma artabilir. Tam sayı için her sağlayıcının kendi tokenizer’ından aldığınız sayıyla 'Token belirt' modunu kullanın.
Çıktı oranı neden girişten yüksek?: Çıktı tokenları sıralı olarak üretilir ve her biri modelin tam bir ileri geçişini gerektirir — bu, toplu işlenebilen giriş tokenlarına kıyasla daha fazla hesaplama demektir. Sağlayıcılar bunu fiyatlarına yansıtır: çoğu çıktıyı giriş oranının 3–5 katında fiyatlandırır. Bu nedenle toplam harcama için çıktı:giriş oranı bu kadar önemlidir.
Bu toplu API indirimlerini içeriyor mu?: Hayır. OpenAI, Anthropic ve Google, gerçek zamanlı olmayan iş yükleri için yaklaşık %50 indirimle toplu uç noktalar sunar. 24 saatlik beklemeye katlanabilirseniz buradaki rakamları yarıya bölün. İstem önbelleğe alma (önbelleğe alınan kısımda %50–90 indirim) de dahil edilmemiştir — önbelleğe alınan kısmı ayrıca modelleyin.

LLM API Maliyet Hesaplayıcı

Compare all models

How to use

Giriş modunu seçin

İş yükü ön ayarını seçin

Günlük çağrı sayısını ayarlayın

Karşılaştırmayı kopyalayın

Frequently asked questions

İlgili Türkçe araçlar