Skip to content

Guide

GPT tokenizasyonu gerçekte nasıl çalışır (ve faturanız neden buna bağlı)

Yaygın kelimeler = 1 token. Nadir kelimeler = 2-5 token. Emoji, kod sembolleri ve İngilizce olmayan metin tokeni hızla tüketir.

By Published Updated

Büyük bir dil modeline yapılan her API çağrısı, tokencinsinden ölçülür — ne karakter ne de kelime. Token, metin bir bayt çifti kodlama(BPE) tokenizatörü tarafından kodlandıktan sonra modelin gerçekte tükettiği birimdir. Tokenizasyonun nasıl çalıştığını anlamak önemlidir çünkü (a) faturanızı belirler ve (b) “1000 kelimelik belge”nin “1000 tokenlik maliyet tahminine” temiz bir şekilde dönüşmemesinin nedeni budur.

BPE tokenizatörlerinin çalışma şekli

Algoritma birkaç satırda:

  1. 256 girişlik tek bayt sözlüğüyle başla.
  2. Büyük bir eğitim korpüsünde en sık geçen bitişik sözlük çiftini bul.
  3. Bu çifti yeni sözlük girdisi olarak ekle.
  4. Sözlük hedef boyuta ulaşana kadar tekrarla (modern modeller için 50k-100k girdi).
  5. Yeni metni tokenize etmek için çiftleri uzundan kısaya doğru açgözlü olarak değiştir.

Sonuç: “the”, “and”, “understanding” gibi yaygın İngilizce kelimeler birer tek token olur. “Rambunctious” gibi nadir kelimeler 2-4 tokena bölünür. Emoji ve İngilizce olmayan karakterler çoğunlukla 2-6 token alır.

Yaygın içerik için token sayıları

GPT-4 (cl100k_base tokenizatörü) için yaklaşık token sayıları:

İçerikTokenlerToken / kelime
İngilizce düz yazı~1,3 / kelime1,3
Haber makaleleri~1,3 / kelime1,3
Teknik / bilimsel yazı~1,5 / kelime1,5
Programlama kodu (Python)~2 / kelime2,0
JSON / XML (çok noktalama)~2,5 / kelime2,5
İspanyolca / Fransızca / Almanca~1,6 / kelime1,6
Rusça / Yunanca (Kiril / Yunan)~3-4 / kelime3-4
Çince (basitleştirilmiş)~1,5 / karakter1,5/kar
Japonca / Korece~1-2 / karakter1-2/kar
Emoji ✨~2-3 her biri

İngilizce için referans rakam 1.000 tokenda ~750 kelimedir. Latin olmayan betikler, eğitim korpüsünde o kadar yoğun temsil edilmediğinden karakter başına önemli ölçüde daha fazla token maliyeti çıkarır.

Maliyet farkı neden önemli

Token başına fiyatlandırma, aynı fikir için İngilizce olmayan içeriğin 2-4 kat daha pahalıya mal olduğu anlamına gelir. 1.000 kelimelik belge:

  • İngilizce: ~1.300 token → GPT-4o girdi fiyatında 0,013 dolar (~10 $/M token).
  • Rusça: ~3.500 token → 0,035 dolar (aynı içerik için 2,7 kat daha fazla).
  • Çince: ~1.500 token → 0,015 dolar.

Çeviri işletmeleri veya çok dilli destek sistemleri için dil başına maliyet asimetrisi hızla katlanır. Anthropic, OpenAI ve Google model başına token maliyetleri yayınlar; gerçek içerik maliyeti hangi dil ve biçim için ödeme yaptığınıza bağlıdır.

Modeller arasında tokenizatör farklılıkları

Her model ailesi kendi tokenizatörüne sahiptir:

  • OpenAI cl100k_base (GPT-3.5, GPT-4): ~100.000 tokenlik sözlük. Referans modern İngilizce tokenizatörü.
  • OpenAI o200k_base(GPT-4o, o serisi): 200.000 tokenlik sözlük. İngilizce olmayan diller ve kod için daha iyi. Belirli bir belge, cl100k’ya kıyasla ~%10-15 daha az token gerektirir.
  • Anthropic Claude tokenizatörü:özel. İngilizce için cl100k’ya yakın yoğunluk; kod ve İngilizce olmayan diller için ölçülebilir farklılık gösterir. Anthropic, göndermeden önce tahmin etmek için token sayma uç noktası yayınlar.
  • Google Gemini:SentencePiece kullanır. cl100k’ya kabaca benzer yoğunluk.

Tokenizasyonun istem tasarımını etkilediği yerler

  1. Uzun bağlam maliyetleri. Tüm belgelerinizi tutan 100k tokenlik bağlam penceresi, çağrı başına maliyetin 1+ dolar olduğunu fark edene kadar harika görünür.
  2. JSON ile doğal dil. JSON çıktısı istemek, karşılaştırılabilir düz yazıdan ~%30-50 daha fazla token maliyeti çıkarır.
  3. Kod görevleri. Kod düz yazıdan yaklaşık 2 kat daha fazla token yoğunluğundadır. 200 satırlık bir dosya 2.000-3.000 token olabilir.
  4. İngilizce olmayan diller. Karakter başına 2-4 kat daha fazla token. Çok dilli ürünler için bu birinci dereceden maliyettir.

Ödeme yapmadan önce token sayısı nasıl tahmin edilir

  1. Token sayma aracı kullanın. AI token sayacımız birden fazla tokenizatör uygular ve girdiniz için tam sayıyı raporlar.
  2. Resmi tokenizatör kütüphanesini kullanın. OpenAI’nin tiktoken’ı (Python), Anthropic’ün tokenizatör API’si veya barındırılan token sayaçları. Bunlar faturalama için gerçeğin kaynağıdır.
  3. Pratik kural. İngilizce düz yazı için: 1 kelime ≈ 1,3 token. Kod için: 1 satır ≈ 8-15 token. Çince için: 1 karakter ≈ 1,5 token.
  4. Çıktıyı da bütçeleyin. Pek çok sağlayıcı girdi yerine çıktı için daha fazla ücret alır (genellikle token başına 3-5 kat). 2.000 tokenlik çıktı, 2.000 tokenlik girdiden daha pahalıdır.

BPE için daha derin yapısal neden

Modern LLM’ler karakter değil, token görür. Modelin gömme, dikkat ve çıktısı hepsi sonlu token sözlüğü üzerinde tanımlanır. Karakter düzeyinde modeller mevcuttur ancak daha yavaştır ve eğitmesi daha zordur. Kelime düzeyinde modeller görülmemiş kelimeleri işleyemez. BPE, kazanan uzlaşmadır.

Daha derin arka plan için GPT token sözlük girdimize ve token fiyatlandırması nasıl çalışır rehberine bakın.

İzleme: tek bir cümleyi tokenize etmek

Cümle: “The rambunctious cat’s purr 😺 was unmistakable.” (9 kelime, emoji ile 49 karakter.)

cl100k_base (GPT-4) altında:

  • The → 1 token.
  • rambunctious → 3 token ( ram + bunct + ious).
  • cat → 1 token.
  • ’s → 1 token.
  • purr → 1 token.
  • 😺 → 3 token (emojinin UTF-8 baytları).
  • was → 1 token.
  • unmistakable → 2 token.
  • . → 1 token.

Toplam: 9 kelime için 14 tokenrambunctious(3 token) ve emoji (3 token) nedeniyle 1,56 token/kelime oranına yükselir. Her ikisini de yaygın alternatiflerle değiştirmek maliyeti düşürür. Yüksek hacimli API kullanımında bu tür sözcük mühendisliği katlanarak etkiler.

Yaygın hatalar

  • Karakter sayısından token tahmini yapmak. “1 token ≈ 4 karakter” pratik kuralı, kod, JSON ve İngilizce olmayan diller için büyük ölçüde yanlıştır.
  • Sistem istemi tokenlarını unutmak. 2.000 tokenlik sistem istemi her isteğe dahil edilir ve her çağrıda faturalandırılır. Büyüyen sohbet geçmişi olan çok turlu ajanlar, yalnızca en yeni mesaj için değil, önceki konuşmanın tamamı için ödeme yapar.
  • Önbelleğe alma avantajlarının önek kararlılığına bağlı olduğunu bilmemek. İstem önbelleğe alma (mevcut olduğunda) yalnızca token dizisi önekte bayt özdeş olduğunda devreye girer.
  • Maliyet tahmini için yanlış tokenizatör kullanmak. cl100k_base ve o200k_base aynı girdi için ~%10-15 farklı token sayısı üretir.
  • Boşlukları agresif biçimde kaldırmak. Pek çok token öncü bir boşlukla başlar. Tüm boşlukları kaldırmak ve kelimeleri birleştirmek daha az değil daha fazla token üretebilir.

Frequently asked questions

GPT ve LLM bağlamında token nedir?
Token, bir dil modelinin işlediği temel metin birimidir — ne bir karakter ne de tam bir kelime. ’the’ veya ’cat’ gibi yaygın İngilizce kelimeler tek tokendir; daha az sık kullanılan kelimeler 2-5 alt kelime parçasına bölünür. Bir token, İngilizce metin için ortalama yaklaşık 4 karakter veya 0,75 kelimeye karşılık gelir.
Bayt çifti kodlama (BPE) tokenizasyonu nasıl çalışır?
BPE, tek baytları sözlük olarak başlatır, ardından büyük bir eğitim korpüsündeki en sık geçen bitişik çifti yinelemeli olarak yeni bir token olarak birleştirir. Yüz binlerce birleştirmenin ardından elde edilen sözlük, yaygın kelimeleri ve alt kelime parçalarını verimli şekilde yakalar.
Neden İngilizce olmayan metin İngilizce’den daha fazla token kullanır?
GPT tokenizatörleri ağırlıklı olarak İngilizce metin üzerinde eğitildiğinden, İngilizce olmayan betiklerdeki nadir karakterler (Çince, Arapça, Korece) tam kelimeler yerine 1-3 bayt veya tek karakterlere dönüşebilir. Bir Çince cümle, eşdeğer İngilizce’ye kıyasla kelime başına 2-4 kat daha fazla token kullanabilir.
Tipik bir metin sayfası kaç token içerir?
500 kelimelik düz İngilizce metin içeren bir sayfa yaklaşık 650-700 token içerir; kısa kelimeler ve noktalama işaretleri de token tüketir. Kod, JSON ve alışılmadık semboller içeren teknik metinler, düz yazıdan kelime başına %20-40 daha fazla token çalıştırabilir.
Emoji her zaman bir token olarak mı sayılır?
Hayır — tek bir emoji çoğunlukla 2-8 token kapsar çünkü karmaşık emojiler (özellikle ten rengi değiştiriciler ve ZWJ dizileri) birden fazla UTF-8 baytına bölünür ve her biri ayrı tokenize edilebilir. Ten rengine sahip aile emojisi 6-10 token kullanabilir.
Tokenizasyon LLM API maliyetini neden etkiler?
OpenAI ve Anthropic gibi LLM API’leri hem girdi (istem) hem de çıktı (tamamlama) için token başına ücret alır. Verimsiz dilde (çok sayıda nadir kelime, kod, İngilizce olmayan metin) yazılmış bir istem, anlamsal olarak eşdeğer ancak yaygın İngilizce ifadede yazılmış bir istemden 2-3 kat daha pahalı olabilir.

Related

Published May 16, 2026 · Last reviewed May 31, 2026