Bias yüksek modeller?

Underfit — model çok basit, eğitim ve test hatası ikisi de yüksek

Variance yüksek modeller?

Overfit — eğitim hatası çok düşük, test çok yüksek (ezberleme)

Düzenlileştirme ne yapar?

Variance'ı azaltır, bias'ı (genelde) artırır — trade-off'u ayarlar

Modern derin öğrenmede paradoks?

Double descent — çok büyük modellerde tekrar düşüş, implicit regularization

Bagging ve Boosting farkı?

Bagging variance düşürür, Boosting bias düşürür

Bias-Variance Trade-off: Makine Öğrenmesinin Merkez Gerilimi

Nişan tahtası örneği

İki okçu hayal edin:

Okçu A: hep aynı yere vurur — ama hep merkezin dışında.
Okçu B: bazen merkeze, bazen çok uzak — dağınık.

İkisi de kötü, ama farklı sebeplerle. ML modelleri de aynı.

Bias yüksek (Okçu A): sistematik hata — model fazla basit.
Variance yüksek (Okçu B): tutarsızlık — model fazla karmaşık.

İyi okçu: küçük bias + küçük variance.

Matematik

Bir modelin beklenen hata'sı (squared loss için):

$\mathbb{E}[(y - \hat{f}(x))^2] = \underbrace{(\mathbb{E}[\hat{f}(x)] - f(x))^2}_{\text{Bias}^2} + \underbrace{\text{Var}(\hat{f}(x))}_{\text{Variance}} + \underbrace{\sigma^2}_{\text{Irreducible}}$

Üç parça:

Bias²: modelin gerçek $f$ 'den ortalama farkı.
Variance: modelin farklı eğitim setlerine duyarlılığı.
Irreducible noise: temel veri gürültüsü.

Karmaşıklık ile değişim

Karmaşıklık	Bias	Variance	Toplam hata
Çok düşük (1.dereceden polinom)	Yüksek	Düşük	Yüksek (underfit)
Orta	Düşük	Düşük	Düşük (en iyi)
Çok yüksek (50.dereceden)	Düşük	Yüksek	Yüksek (overfit)

Underfitting

Belirtileri:

Eğitim hatası yüksek.
Test hatası eğitime yakın (her ikisi de kötü).
Model basit.

Tedavi:

Daha karmaşık model.
Daha çok özellik (feature engineering).
Daha derin sinir ağı.

Overfitting

Belirtileri:

Eğitim hatası çok düşük.
Test hatası çok yüksek.
Model eğitim verisini ezberlemiş.

Tedavi:

Düzenlileştirme (L1, L2).
Veri augmentation.
Daha çok veri.
Dropout, batch norm.
Erken durdurma.
Daha basit model.

Klasik öğrenme eğrileri

X ekseni: model karmaşıklığı.
Y ekseni: hata.

Eğitim hatası: monoton düşer (sıfıra kadar).
Test hatası: önce düşer (bias azalır), sonra çıkar (variance artar). U şekli.

En iyi nokta: U'nun dibi.

Modern AI'da paradoks

Klasik ML: daha karmaşık model → overfit. Bias-variance trade-off.

Modern derin öğrenme: çok daha karmaşık model (milyarlarca parametre), az veriyle mümkün. Bias düşük, variance düşük gibi.

Bu çift düşüş (double descent) fenomeni 2018'de keşfedildi:

Karmaşıklık az → underfit.
Karmaşıklık orta → optimal (klasik U).
Karmaşıklık çok → tekrar düşer!

Sebep tam anlaşılmadı; implicit regularization hipotezi.

Pratik teşhis

Eğitim hatası > Test hatası farkı:

Küçük fark + ikisi de yüksek: underfit.
Küçük fark + ikisi de düşük: optimal.
Büyük fark: overfit.

Bagging vs Boosting

Bagging (Random Forest): variance azaltır, bias değişmez.
Boosting (Gradient Boosting): bias azaltır, variance artırabilir.

Birleştir → optimal model.

Düzenlileştirme matematiği

L2 regularization:
$\mathcal{L} = \text{MSE} + \lambda \|w\|_2^2$

$\lambda$ artırılırsa:

Variance düşer (model basitleşir).
Bias artar.

$\lambda$ trade-off ayarı.

Cross-validation rolü

K-fold cross-validation:

Modeli K farklı bölünmede dene.
Ortalama hata = beklenen test hatası.
Bias-variance ayarı için doğru araç.

Türk endüstri örneği

Bankacılık skoru: lojistik regresyon (yüksek bias, düşük variance) vs gradient boosting (düşük bias, orta variance) — kurum tercih farkı.
Tıbbi tanı: yüksek variance kabul edilmez → ensemble.
Reklam tıklama: çok veri var → düşük variance, model karmaşıklığı serbest.

"Bias" iki anlam

Dikkat: ML'de "bias" iki farklı anlamda:

Bias-variance trade-off: model sistematik hata.
Algorithmic bias / Fairness: ayrımcılık (cinsiyet, ırk).

İkincisi tamamen farklı bir konu (etik AI).

Felsefe

Andrew Ng'in mesajı: "Yüksek bias varsa eğitim hatasına bak; yüksek variance varsa eğitim-test farkına bak. Sonra ona göre çözüm uygula."

Bu basit kural milyonlarca ML projesinin teşhis ağacı.

Kapanış

Bias-variance trade-off ML'nin merkez konseptidir. Underfit vs overfit, regularization vs serbest, basit model vs karmaşık — hepsinin matematiksel açıklaması burada. Modern derin öğrenmenin double descent paradoksu hâlâ araştırılıyor.

Bir ML mühendisinin olgunluk işareti: hatayı gördükten sonra hangi taraf (bias mı variance mı) sorusunu sormak.