Skip to content

Methodology

Yapay zeka token metodolojisi

Token sayısı buluşsal bir tahmindir. Fiyatlandırma güncelleme anında kesindir. Farklı hassasiyet tabanları.

By Published

Token sayacı belirli bir büyük dil modeli API’si için bir metnin kaç token kullanacağını tahmin eder ve yayımlanan güncel fiyatlandırmayla çarparak maliyeti hesaplar. Bu cümlenin her iki yarısının da anlamlı hassasiyet sınırları vardır.

Token tahmini: buluşsal, kesin değil

Her modern LLM, metni bir tamsayı token ID dizisine dönüştüren bir tokenizör kullanır — GPT ve Claude için genellikle BPE (Byte Pair Encoding), Gemini ve Llama için SentencePiece. Tam eşleme modele özgü ve tescillidir; gerçek tokenizörü çalıştırmak, istemciye paketlenmiş tokenizör model dosyasını (genellikle 1-5 MB) gerektirir.

Tokenizörleri paketlemiyoruz çünkü model sürümleriyle güncelleniyor ve 4+ satıcıda paket boyutu birikir. Bunun yerine her satıcının belgelerinden yayımlanan karakter-token oranlarını kullanırız:

  • GPT-3.5/4/5: İngilizce için ~4 karakter/token; kod için daha yüksek; Latin dışı yazılar için daha düşük.
  • Claude 3/4: ~3,5 karakter/token. Claude tokenizörü GPT’ye göre biraz daha agresiftir.
  • Gemini: İngilizce için ~4 karakter/token.
  • Llama 3/4: ~4 karakter/token.

Bu oranlar, tipik İngilizce düzyazı için gerçek token sayısının ~%10’u dahilindedir. Kod (tanımlayıcı bölünmeleri nedeniyle daha fazla parçaya tokenize olur), Latin dışı yazılar (Çince, Japonca, Arapça — bazen karakter başına 2-3× daha fazla token) ve yapılandırılmış veri (JSON, XML — İngilizce ile kod arasında bir yerde) için daha fazla sapma gösterirler.

Fiyatlandırma: kesin ama bayat

Her modelin giriş ve (ayrıca) çıkış tokenleri için yayımlanan token başına fiyatlandırması vardır. Bu fiyatları, satıcılar fiyatlarını güncellediğinde (genellikle yeni modeller çıktıkça ve eskiler yeniden fiyatlandırıldıkça her 1-3 ayda bir) elle güncellediğimiz bir kayıt defterinde sabit kodlarız.

Kayıt defterindeki fiyatlandırma, en son dağıtım itibarıyla doğrudur. Gerçek üretim maliyet tahmini için satıcının fiyatlandırma sayfasına çift kontrol yapın — ve gerçek maliyet belirsizleyici olan çıktı uzunluğuna bağlı olduğundan %15-30 bütçe payı ayırın.

Neyi modelliyoruz

Her model için hesaplayıcı şunları tahmin eder:

  • Giriş tokenleri (kullanıcının isteminden).
  • Çıkış tokenleri (kullanıcı tarafından belirtilen tahminden veya satıcı varsayılanından).
  • Maliyet = giriş_tokenleri × giriş_fiyatı + çıkış_tokenleri × çıkış_fiyatı.
  • 6 ondalık basamakla USD cinsinden toplam.

Neyi modellemiyoruz

  • Önbelleğe alınmış giriş fiyatlandırması. Çeşitli satıcılar (OpenAI, Anthropic) yakın zamanda görülen bir istem önekiyle eşleşen giriş tokenleri için indirimli fiyatlandırma sunar. Bilinmesi gereken bir konu; burada modellenmedi.
  • Toplu API indirimleri. Async toplu uç noktalar genellikle %50 indirim sunar; modellenmedi.
  • Görüntü/ses/video girdileri. Çok modlu token maliyetleri modele göre değişir ve metinden farklı hesaplanır. Yol haritasında.
  • İnce ayarlı model fiyatlandırması. Satıcılar ince ayarları temel modellerden farklı fiyatlandırır.

Algoritma ayrıntıları: BPE birleştirme döngüsü

Hem GPT hem de Claude tokenizörleri Byte Pair Encoding varyantlarıdır. Eğitim zamanı prosedürü (Sennrich ve diğ., 2016) tek baytların temel sözcük dağarcığından başlar ve şu birleştirmeyi sürekli uygular:derlemdeki en sık komşu çifti (a, b) bul, sözcük dağarcığına yeni “ab” tokeni ekle, her (a, b) oluşumunu onunla değiştir. Prosedür sözcük dağarcığı hedef boyuta ulaştığında durur — GPT-4o’nun cl100k_base’i için 100.277, Llama 3 için ~128k, Gemini için ~256k. Çıkarım zamanında tokenizör kaydedilen birleştirme listesini girdiye açgözlü bir şekilde uygular.

Karakter oranı buluşsalımız birleştirme döngüsünü tamamen atlar.N karakterli ve gözlemlenen ortalama token-karakter oranır olan bir metin parçası için: token ≈ ⌈N × r⌉. Kullandığımız sabitler:

Model ailesir (token/karakter)1/r (karakter/token)Kaynak
GPT-4o / 4.10,254,0OpenAI belgeleri & tiktoken kıyası
Claude 3.5 / 40,2863,5Anthropic belgeleri
Gemini 1.5+0,254,0Google AI Studio belgeleri
Llama 3 / 40,254,0Meta model kartı

Maliyet türetme: giriş tokeni T_in, çıkış tokeni T_out ve satıcının milyon token başına tarifeleri p_in ve p_out verildiğinde, toplam USD maliyeti = (T_in × p_in + T_out × p_out) / 1.000.000. Kısa istemler için sent altı hassasiyeti korumak amacıyla altı ondalık basamağa yuvarlıyoruz.

Kaynaklar ve referanslar

Bu sayfadaki buluşsallar OpenAI’nin kendi tiktoken referans tokenizörüne karşı 100k örnekli İngilizce Vikipedi derleminde kalibre edilmiştir. BPE algoritması Sennrich, Haddow & Birch (2016)’da; Gemini ve Llama tarafından kullanılan SentencePiece, Kudo & Richardson (2018)’da belgelenmiştir. Birincil alıntılar ve yansıttığımız satıcı fiyatlandırma sayfaları için aşağıdaki Kaynaklar & referanslar bloğuna bakın.

Varsayımlar ve sınırlamalar

  • Yalnızca İngilizce düzyazı kalibrasyonu. Token başına karakter sabitleri İngilizce Vikipedi metnine uydurulmuştur. Kod, JSON, Çince, Japonca, Arapça ve diğer Latin dışı yazılar %30-300 sapabilir (Çince tipik olarak karakter başına 2-3× daha fazla token kullanır).
  • Önbelleğe alınmış giriş fiyatlandırması desteklenmiyor. OpenAI ve Anthropic, yeniden kullanılan önek tokenlar için %50-90 indirim sunar. Maliyet tahmini tam önbelleksiz fiyatlandırma kullanır.
  • Toplu API indirimi yok. Async toplu uç noktalar genellikle token başına maliyeti yarıya indirir; burada yansıtılmaz.
  • Çıktı uzunluğu kullanıcı tarafından sağlanır. Yanıt uzunluğunu tahmin edemeyiz; isteğe bağlı olarak T_out’ta ±%50 tipiktir.
  • Görüntü ve ses girdileri modellenmiyor. Her satıcı metin dışı tokenleri farklı sayar.
  • Fiyatlandırma anlık görüntüdür. Kayıt defteri aylık güncellenir; ay ortası satıcı fiyat değişiklikleri bir sonraki dağıtıma kadar yansıtılmaz.
  • İnce ayarlı ve rezerv kapasite fiyatlandırması farklıdır. Tahmin yalnızca standart isteğe bağlı tarifeleri kullanır.

Tahmin gerçekte ne kadar doğru?

Orta uzunlukta (50-5000 karakter) tipik İngilizce düzyazı için token sayımız gerçek sayının %10’u dahilindedir ve maliyet tahminimiz gerçek API faturasının %10-15’i dahilindedir. Bu, kabataslak boyutlandırma için yeterlidir — “bu istem 1 sent mi yoksa 1 dolar mı?” — ve sent hassasiyetli faturalandırma için yetersizdir. İkincisi için satıcının resmi tokenizörünü kullanın; diğer her şey için bizimki yararlı bir sağlama kontrolüdür.

Frequently asked questions

Convertitive token sayısını nasıl tahmin eder?
Token sayıları, kesin değerler değil buluşsal tahminlerdir. Yaklaşım, İngilizce düzyazı için Sennrich ve diğ. (2016) tarafından tanımlanan Byte Pair Encoding (BPE) algoritmasıyla uyumlu, yaygın olarak gözlemlenen ~4 karakter başına token oranını izler. Kod, çok dilli metin veya emoji için oran farklılık gösterir — kod ortalama ~3 karakter/token ve GPT-4o'nun cl100k_base sözcük dağarcığında Temel Çok Dilli Düzlem dışındaki birçok Unicode kod noktası her biri 1–3 token tüketir.
OpenAI modelleri hangi tokenizasyon algoritmasını kullanır?
GPT-3.5, GPT-4 ve GPT-4o, cl100k_base sözcük dağarcığıyla (100.000 token) Byte Pair Encoding (BPE) kullanır. BPE, sözcük dağarcığı boyutuna ulaşana kadar sık bayt çiftlerini yinelemeli olarak birleştirir. tiktoken kütüphanesi (GitHub'da openai/tiktoken) kanonik açık kaynak uygulamadır. Claude ve Gemini, örtüşen ancak farklı sözcük dağarcıklarına sahip SentencePiece tabanlı tokenizörler kullanır — tam token sayıları sağlayıcılar arasında farklılık gösterir.
LLM maliyet tahmini ne kadar doğru?
Fiyatlandırma bileşeni son elle güncelleme zamanında kesindir; maliyet tahminleri yalnızca gömülü fiyat tablosu kadar günceldir. Token sayısı buluşsaldır (içerik türüne bağlı olarak ±%10–30), dolayısıyla nihai maliyet tahmini aynı varyansı taşır. Üretim faturalandırma tahmini için sağlayıcının kendi tokenizörünü ve canlı fiyatlandırma API'sini kullanın.
Token maliyet hesaplamasının arkasındaki varsayımlar nelerdir?
Şunları varsayarız: (1) tüm tokenlar önbellek indirimi olmaksızın standart giriş/çıkış tarifeleriyle faturalandırılır; (2) tam girdi her istekte gönderilir (bağlam kısaltması yok); (3) çıktı uzunluğu ya kullanıcı tarafından sağlanır ya da satıcı tarafından yayımlanan bir varsayılana ayarlanır. Toplu API indirimleri (örn. OpenAI Batch API için %50 indirim) ve bağlam önbelleğe alma kredileri (örn. Anthropic'in istem önbelleğe alması) yansıtılmaz.
Fiyatlandırma verileri nereden geliyor?
Fiyatlar her sağlayıcının genel fiyatlandırma sayfasından elle alınır: openai.com/pricing, anthropic.com/pricing, ai.google.dev/pricing, together.ai ve replicate.com. En iyi çaba esasında güncellenir ve sağlayıcının duyurduğu değişikliklerin günler ila haftalar gerisinde kalabilir. Bir üretim bütçesine bağlanmadan önce her zaman sağlayıcının fiyatlandırma sayfasındaki güncel tarifeleri doğrulayın.

Related

Published May 14, 2026