Glossary
Regresyon
Yordayıcıları sonuçlara uydurmak
By Buğra SözeriPublished Updated
Regresyon, bağımlı bir değişken (tahmin etmek istediğiniz sonuç) ile bir veya daha fazla bağımsız değişken (yordayıcılar) arasındaki ilişkiyi modellemek için kullanılan istatistiksel bir yöntemdir. Çıktı, genellikle tarihsel verilere uydurulan parametrelerle bir fonksiyondur ve yeni yordayıcı değerlerinden sonucu tahmin etmenizi sağlar.
En basit biçimi doğrusal regresyondur: y = β₀ + β₁x + ε. Algoritma, artıkların (hataların) kareler toplamını en aza indiren β katsayılarını bulur. (boy, ağırlık) çiftlerinden oluşan bir veri kümesi için doğrusal regresyon, noktalardan geçen en iyi uyum doğrusunu oluşturur ve herhangi bir yeni boydan ağırlık tahmini yapmanızı sağlar.
Standart türler:
- Çoklu doğrusal regresyon: birden fazla yordayıcı.
y = β₀ + β₁x₁ + β₂x₂ + ... + ε. - Polinom regresyon: yordayıcılar x’in üslerini içerir.
y = β₀ + β₁x + β₂x² + .... Eğri ilişkileri uydurur. - Lojistik regresyon: sonuç ikilidir (0/1). Model, lojistik fonksiyon aracılığıyla bir olasılık çıktısı verir.
- Ridge / lasso / elastic-net: büyük katsayılar için ceza içeren doğrusal regresyon. Çok sayıda yordayıcı olduğunda ve aşırı öğrenmeyi önlemek istediğinizde kullanılır.
Her regresyon için temel akıl yürütme kontrolleri: eğitim verilerine ne kadar iyi uyuyor (R², artık grafikler), yeni verilere ne kadar genelliyor (çapraz doğrulama, ayrılmış test kümesi), artıklar rastgele görünüyor mu (yoksa modelin kaçırdığı örüntüler var mı)?
Regresyon, deneysel bilimin temel aracıdır. Korelasyon iki değişkenin ne kadar güçlü birlikte hareket ettiğini söyler; regresyon ise birini diğerine dönüştüren denklemi verir.
Klasik varsayımlar ve nerede çöktükleri: doğrusal regresyonun standart çıkarımsal mekanizması (katsayılar üzerinde p-değerleri, güven aralıkları, F-testleri) dört varsayıma dayanır — doğrusallık, bağımsız artıklar, eşit varyanslı artıklar (homoscedasticity) ve normal artıklar. Gerçek dünya verileri bunlardan bir veya daha fazlasını düzenli olarak ihlal eder: zaman serisi verileri bağımsızlığı ihlal eder; finansal getiriler homoscedasticity’yi ihlal eder; küçük örneklemler normalliği ihlal eder. Modern istatistikçiler ya standart hataları düzeltir (heteroscedasticity sağlam “sandviç” tahmin ediciler, kümelenmiş SE’ler) ya da çıkarımsal aygıtı tamamen atlayarak güven aralıklarını ampirik olarak tahmin etmek için bootstrap yeniden örneklemesi kullanır. Katsayı nokta tahminlerinin kendisi çok daha zayıf koşullar altında yansızsızdır — yalnızca belirsizlik tahminleri kurtarılmaya ihtiyaç duyar.
Regresyonun sessizce başarısız olduğu durum — “ortalamayla regresyon” tuzağı: teknik, adını Francis Galton’ın 1886’da yaptığı gözlemden alır: uzun boylu ebeveynlerin çocukları biraz daha kısa, kısa boylu ebeveynlerin çocukları ise biraz daha uzun olma eğilimindedir; her ikisi de popülasyon ortalamasına doğru hareket eder. Çocukları ebeveynler üzerine yapılan bir regresyondan “eğilimi” naifçe ekstrapolesyon yapmak, popülasyonun nesiller boyunca aynı boya yakınsayacağını düşündürür; bu olmaz. Bu fenomen saf istatistikseldir (aşırı değerlerde seçim + gürültülü ölçüm = ortalamasına daha yakın tahmin edilen değerler) ve “ortalamayla regresyon”u gerçek bir nedensel etki ile karıştırmanın ders kitabı tuzağını üretir. Spor performansı, müşteri memnuniyeti ve tıbbi sonuçların tümü bunu gösterir; “aşırılarda insanlara yardımcı olan müdahale”nin gerçek etkiyi ortalamaya dönüşten ayırt etmesi için bir kontrol grubuna ihtiyacı vardır. Kaynak: NIST/SEMATECH e-El Kitabı — Doğrusal Regresyon.
Frequently asked questions
- İstatistikte regresyon nedir?
- Regresyon, bir veya daha fazla yordayıcı değişken ile sürekli bir sonuç değişkeni arasındaki ilişkiyi modellemek için kullanılan istatistiksel bir yöntemdir. Doğrusal regresyon, tahmin edilen ve gözlemlenen değerler arasındaki artıkların kareler toplamını en aza indiren bir doğru uydurur.
- Regresyon pratikte nasıl kullanılır?
- Bir perakendeci, reklam harcaması ve mevsimsellikten satışları tahmin etmek için doğrusal regresyon kullanır. Bir doktor, klinik göstergelerden hastanın diyabet geliştirme olasılığını tahmin etmek için lojistik regresyon kullanır. Her ikisi de yeni girdilerden nicel tahminler yapmak için modeli kullanır.
- Doğrusal regresyon ile lojistik regresyon arasındaki fark nedir?
- Doğrusal regresyon sürekli sayısal bir sonucu (örneğin ev fiyatı) tahmin eder. Lojistik regresyon, çıktıyı 0 ile 1 arasına sıkıştırmak için bir sigmoid fonksiyonu kullanarak ikili bir sonucun (örneğin kredi temerrüdü evet/hayır) olasılığını tahmin eder. Uydurma yöntemi ve yorum önemli ölçüde farklıdır.
Related
Published May 16, 2026 · Last reviewed May 31, 2026