Tüm yazılar
Matematik3 Ocak 2025

Bias-Variance Trade-off: Makine Öğrenmesinin Merkez Gerilimi

Basit model sürekli aynı yere ama yanlış vurur (bias). Karmaşık model her yere ama tutarsız vurur (variance). Çözüm: ikisi arasında denge.

Matematik Karavanı 6 dk okuma 5 soru
Nişan tahtası — bias-variance metaforu

Nişan tahtası örneği

İki okçu hayal edin:

  • Okçu A: hep aynı yere vurur — ama hep merkezin dışında.
  • Okçu B: bazen merkeze, bazen çok uzak — dağınık.

İkisi de kötü, ama farklı sebeplerle. ML modelleri de aynı.

  • Bias yüksek (Okçu A): sistematik hata — model fazla basit.
  • Variance yüksek (Okçu B): tutarsızlık — model fazla karmaşık.

İyi okçu: küçük bias + küçük variance.

Matematik

Bir modelin beklenen hata'sı (squared loss için):

E[(yf^(x))2]=(E[f^(x)]f(x))2Bias2+Var(f^(x))Variance+σ2Irreducible\mathbb{E}[(y - \hat{f}(x))^2] = \underbrace{(\mathbb{E}[\hat{f}(x)] - f(x))^2}_{\text{Bias}^2} + \underbrace{\text{Var}(\hat{f}(x))}_{\text{Variance}} + \underbrace{\sigma^2}_{\text{Irreducible}}

Üç parça:

  • Bias²: modelin gerçek ff'den ortalama farkı.
  • Variance: modelin farklı eğitim setlerine duyarlılığı.
  • Irreducible noise: temel veri gürültüsü.

Karmaşıklık ile değişim

KarmaşıklıkBiasVarianceToplam hata
Çok düşük (1.dereceden polinom)YüksekDüşükYüksek (underfit)
OrtaDüşükDüşükDüşük (en iyi)
Çok yüksek (50.dereceden)DüşükYüksekYüksek (overfit)

Underfitting

Belirtileri:

  • Eğitim hatası yüksek.
  • Test hatası eğitime yakın (her ikisi de kötü).
  • Model basit.

Tedavi:

  • Daha karmaşık model.
  • Daha çok özellik (feature engineering).
  • Daha derin sinir ağı.

Overfitting

Belirtileri:

  • Eğitim hatası çok düşük.
  • Test hatası çok yüksek.
  • Model eğitim verisini ezberlemiş.

Tedavi:

  • Düzenlileştirme (L1, L2).
  • Veri augmentation.
  • Daha çok veri.
  • Dropout, batch norm.
  • Erken durdurma.
  • Daha basit model.

Klasik öğrenme eğrileri

X ekseni: model karmaşıklığı.
Y ekseni: hata.

  • Eğitim hatası: monoton düşer (sıfıra kadar).
  • Test hatası: önce düşer (bias azalır), sonra çıkar (variance artar). U şekli.

En iyi nokta: U'nun dibi.

Modern AI'da paradoks

Klasik ML: daha karmaşık model → overfit. Bias-variance trade-off.

Modern derin öğrenme: çok daha karmaşık model (milyarlarca parametre), az veriyle mümkün. Bias düşük, variance düşük gibi.

Bu çift düşüş (double descent) fenomeni 2018'de keşfedildi:

  1. Karmaşıklık az → underfit.
  2. Karmaşıklık orta → optimal (klasik U).
  3. Karmaşıklık çok → tekrar düşer!

Sebep tam anlaşılmadı; implicit regularization hipotezi.

Pratik teşhis

Eğitim hatası > Test hatası farkı:

  • Küçük fark + ikisi de yüksek: underfit.
  • Küçük fark + ikisi de düşük: optimal.
  • Büyük fark: overfit.

Bagging vs Boosting

  • Bagging (Random Forest): variance azaltır, bias değişmez.
  • Boosting (Gradient Boosting): bias azaltır, variance artırabilir.

Birleştir → optimal model.

Düzenlileştirme matematiği

L2 regularization:
L=MSE+λw22\mathcal{L} = \text{MSE} + \lambda \|w\|_2^2

λ\lambda artırılırsa:

  • Variance düşer (model basitleşir).
  • Bias artar.

λ\lambda trade-off ayarı.

Cross-validation rolü

K-fold cross-validation:

  • Modeli K farklı bölünmede dene.
  • Ortalama hata = beklenen test hatası.
  • Bias-variance ayarı için doğru araç.

Türk endüstri örneği

  • Bankacılık skoru: lojistik regresyon (yüksek bias, düşük variance) vs gradient boosting (düşük bias, orta variance) — kurum tercih farkı.
  • Tıbbi tanı: yüksek variance kabul edilmez → ensemble.
  • Reklam tıklama: çok veri var → düşük variance, model karmaşıklığı serbest.

"Bias" iki anlam

Dikkat: ML'de "bias" iki farklı anlamda:

  1. Bias-variance trade-off: model sistematik hata.
  2. Algorithmic bias / Fairness: ayrımcılık (cinsiyet, ırk).

İkincisi tamamen farklı bir konu (etik AI).

Felsefe

Andrew Ng'in mesajı: "Yüksek bias varsa eğitim hatasına bak; yüksek variance varsa eğitim-test farkına bak. Sonra ona göre çözüm uygula."

Bu basit kural milyonlarca ML projesinin teşhis ağacı.

Kapanış

Bias-variance trade-off ML'nin merkez konseptidir. Underfit vs overfit, regularization vs serbest, basit model vs karmaşık — hepsinin matematiksel açıklaması burada. Modern derin öğrenmenin double descent paradoksu hâlâ araştırılıyor.

Bir ML mühendisinin olgunluk işareti: hatayı gördükten sonra hangi taraf (bias mı variance mı) sorusunu sormak.

Etiketler

bias-varianceoverfittingunderfittingML temellerimodel seçimi

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Bias yüksek modeller?

2. Variance yüksek modeller?

3. Düzenlileştirme ne yapar?

4. Modern derin öğrenmede paradoks?

5. Bagging ve Boosting farkı?