Glossary
Çeyrekler arası aralık
Q3 − Q1: ortadaki %50
By Buğra SözeriPublished Updated
Çeyrekler arası aralık (ÇAA), 75. yüzdelik (Q3) ile 25. yüzdelik (Q1) arasındaki farktır. Bir veri kümesinin ortadaki %50'sini — "tipik" değerleri içeren aralığı — yakalar.
[1, 3, 4, 5, 6, 7, 8, 9, 10, 20] veri kümesi için: Q1 = 4, Q3 = 9, ÇAA = 5. Verinin orta yarısı 4 ile 9 arasında yer alır. 20'lik aykırı değer ÇAA'yı hiç etkilemez.
ÇAA neden önemli: standart sapmanın yapamadığı şekilde aykırı değerlere karşı dayanıklıdır. Çarpık dağılımlar (gelir, yanıt süreleri, dosya boyutları) için ÇAA, yayılımı standart sapmadan çok daha iyi tanımlar. Yaygın 1,5 × ÇAA kuralı, aykırı değerleri Q1 − 1,5×ÇAA'nın altındaki veya Q3 + 1,5×ÇAA'nın üzerindeki değerler olarak tanımlar — Tukey'in kuralı ve kutu grafiklerinin temeli.
ÇAA'yı ne zaman kullanmalısınız: veri çarpık olduğunda, aykırı değerler yaygın olduğunda veya yanıltmayacak tek sayılık bir özet istediğinizde. Standart sapmayı ne zaman kullanmalısınız: veri yaklaşık normal dağıldığında ve aşağı akış istatistiklerine (güven aralıkları, regresyon) beslemek istediğinizde.
Çalışılmış örnek
Örnek HTTP istek gecikmeleri (ms): [12, 14, 18, 22, 25, 28, 31, 33, 38, 42, 45, 48, 52, 58, 64, 71, 89, 110, 180, 4200]. Ortalama: 264 ms — 4200 ms'lik aykırı değer (muhtemelen bir ağ aksaklığı veya soğuk başlatma) tarafından yukarı çekiliyor. Medyan (Q2): 43,5 ms. Q1: 25,75 ms. Q3: 67,25 ms. ÇAA = Q3 − Q1 = 41,5 ms. Tukey'in 1,5 × ÇAA üst çiti = Q3 + 62,25 = 129,5 ms. Dolayısıyla 180 ms'lik istek sınır aykırı değer; 4200 ms'lik istek çok ötede — araştırılmaya değer açık bir anomali. Aynı veri kümesinin standart sapması, tamamen 4200 ms'lik nokta tarafından domine edilerek yaklaşık 920 ms'dir ve tipik gecikmenin 264 ± 920 ms olduğunu önerir — bu anlamsızdır (gecikme negatif olamaz). ÇAA tabanlı özet ("medyan 43,5 ms, ÇAA 25,75 ile 67,25 ms arasında"), tipik performansın dürüst tanımıdır.
Çeyrek aritmetiği de geneller: desiller veriyi on parçaya, beştebirlikler beşe, yüzdelikler yüze böler. Gelir istatistikleri tipik olarak desilleri ("ABD kazananlarının en üst desili"), kredi puanlama yüzdelikleri ("FICO'nuz 78. yüzdelikte"), klinik büyüme grafikleri ise çocuk boy/ağırlığını yaş ve cinsiyete göre yüzdeliklere göre çizer. Zihinsel model aynıdır: değerlerin ölçeğini yok sayan, sıra tabanlı özet.
Ne zaman ve neden önemli
ÇAA, veri çarpık olduğunda önemlidir — ki gerçekte fizik deneyleri dışındaki gerçek dünya verilerinin büyük çoğunluğu çarpıktır. Yanıt süreleri, gelir dağılımları, dosya boyutları, dikkat süreleri, mağaza başına satışlar ve teknoloji ürünü analizlerindeki neredeyse her şey, birkaç büyük değerin ortalamaya hükmettiği sağa çarpık bir dağılıma sahiptir. Bir API için "ortalama yanıt süresi" raporlamak okuyucuları yanıltır; p50, p90, p99 — üç yüzdelik — raporlamak dağılım şeklini iletir. Site güvenilirliği mühendisleri bu dersi 2000'lerde zorlu biçimde öğrendi; modern gözlemlenebilirlik platformları (Datadog, Honeycomb, Prometheus histogramları) gecikme için varsayılan olarak yüzdelik tabanlı metriklere geçmiştir. Kaçınılacak hata, yalnızca "ortalama" hesaplamak ve buna göre hareket etmektir: kullanıcı acısı p99'dayken ortalama gecikmeyi optimize etmek mühendislik çabasını boşa harcar. Referans: NIST/SEMATECH e-Handbook — Çeyrekler.
Neden bir çeyreği hesaplamak için dokuz farklı yol vardır: N değerlik bir veri kümesinde Q1'in konumu, N, 4 + 1'in katı olmadığında belirsizdir; istatistikçiler komşu değerler arasında enterpolasyon için dokuz kural önermiştir. R'nin quantile() işlevi varsayılan olarak Tip 7'yi kullanır (sıra istatistikleri arasında doğrusal enterpolasyon), Excel'in QUARTILE.INC işlevi Tip 7 ile eşleşir, NumPy'nin np.percentile() işlevi de doğrusal kullanır, ancak SAS, Minitab ve Tukey'in orijinal menteşe yöntemi farklı formüller kullanır. ÇAA'lar, küçük örneklemler için yöntemler arasında birkaç yüzde kadar farklılık gösterir ve N büyüdükçe yakınsarlar. Convertitive'nin istatistik hesaplayıcısı, en yaygın kullanılan analiz araçlarıyla eşleştiği için Tip 7'yi kullanır.
Kutu grafikleri, ÇAA ve üretim sistemlerinde aykırı değer tespiti: Tukey'in 1,5 × ÇAA çiti, kutu grafiği bıyıklarının temelidir ve normal bir dağılım varsaymadan gecikme aykırı değerlerini işaretlemek için gözlemlenebilirlik panolarında (Datadog, Grafana, Prometheus kantil toplayıcıları) yaygın olarak kullanılır. Çok ağır kuyruklu veriler için (web istek gecikmesi, finansal getiriler), 1,5 × ÇAA bile çok agresiftir — istek gecikmeleri tasarım gereği "aykırı değer" kuyruğunda düzenli olarak yer alır ve bunları anomali olarak işaretlemek gürültü üretir. Pragmatik çözüm, aşırı aykırı değer tanımları için 3 × ÇAA'ya genişletmek veya tamamen yüzdelik tabanlı hizmet düzeyi hedeflerine (p95, p99) geçmektir. İlgili: yüzdelik, medyan, varyans.
Frequently asked questions
- Çeyrekler arası aralık (ÇAA) nedir?
- ÇAA, bir veri kümesinin 75. yüzdeliği (Q3) ile 25. yüzdeliği (Q1) arasındaki farktır. Ortadaki %50'lik değerlerin yayılımını ölçer ve uç değerleri yok sayar.
- ÇAA aykırı değerleri tespit etmek için nasıl kullanılır?
- Standart kural, Q1 − 1,5×ÇAA'nın altında veya Q3 + 1,5×ÇAA'nın üzerindeki herhangi bir değeri potansiyel aykırı değer olarak işaretler. Kutu grafikleri, bıyık uç noktalarını belirlemek ve uç noktaları işaretlemek için tam olarak bu kuralı kullanır.
- ÇAA ile standart sapma arasındaki fark nedir?
- Standart sapma, ortalamaya göre yayılımı ölçer ve aykırı değerlere duyarlıdır; ÇAA, medyana göre yayılımı ölçer ve aykırı değerlere dayanıklıdır. Çarpık dağılımlar veya aykırı değer içeren veriler için ÇAA, daha bilgilendirici bir yayılım ölçüsüdür.
- ÇAA'yı standart sapma yerine ne zaman raporlamalıyım?
- Veri çarpık olduğunda veya aykırı değerler içerdiğinde ÇAA raporlayın — klinik deneme sonuçları, gelir dağılımları ve yanıt süresi metrikleri tipik durumlar. Standart sapmanın ortalama ile doğal bir ikilisi olduğu gibi ÇAA da medyanla doğal bir ikili oluşturur.
Related
Published May 16, 2026 · Last reviewed May 31, 2026