$\sigma(z) = 1/(1+e^{-z})$ — (0,1) aralığında S-şekli

Binary cross-entropy (negatif log-likelihood)

Lojistik regresyon modern AI'da nerede?

Her sinir ağının son katmanı — LLM token tahmini de softmax (multi-class logistic)

Çok sınıf genelleştirmesi?

Softmax (multinomial logistic regression)

Yorumlanabilirlik avantajı?

Her w_i log-odds katkısı; e^{w_i} odds çarpanı — tıp/finansta kritik

Lojistik Regresyon: Makine Öğrenmesinin "Gizli Bel Kemiği"

Soru: "Evet mi, hayır mı?"

Modern dünyanın yarısı bu soruyla başlar:

Bu e-posta spam mi?
Hasta ilacı kullanmalı mı?
Bu işlem dolandırıcılık mı?
Modelin tahmin ettiği sonraki kelime "kedi" mi yoksa başkası mı?

Hepsi ikili sınıflandırma. Klasik çözüm: lojistik regresyon (1944, Joseph Berkson).

Doğrusal regresyondan farkı

Doğrusal regresyon: $y = w^T x + b$ — sayısal hedef.

Sınıflandırma için problem: çıktı (0,1) aralığında olmalı. Çözüm: sigmoid.

$\sigma(z) = \frac{1}{1+e^{-z}}$

Lojistik regresyon:

$p(y=1 \mid x) = \sigma(w^T x + b)$

Sigmoid'in özellikleri

$\sigma(0) = 0.5$ .
$z \to \infty: \sigma \to 1$ .
$z \to -\infty: \sigma \to 0$ .
Türev: $\sigma'(z) = \sigma(z)(1-\sigma(z))$ — backprop için güzel.

Eğitim: maximum likelihood

Veriden olasılığı en yüksek hale getir:

$\mathcal{L} = -\sum_i \left[ y_i \log \hat{y}_i + (1-y_i)\log(1-\hat{y}_i) \right]$

Bu binary cross-entropy kaybı. Konvekstir → tek optimumu var, gradient descent garantili olarak bulur.

Yorumlanabilirlik

Lojistik regresyon şeffaftır:

Her $w_i$ özelliğin log-odds katkısı.
$e^{w_i}$ özelliğin odds çarpanı.

Örnek: tıpta "sigara $w=0.8$ " → sigara odds'u $e^{0.8} \approx 2.2$ kat artırır.

Bu, kara kutu modellere göre muazzam avantaj.

Çok sınıf: softmax

İki yerine $K$ sınıf?

$p(y=k \mid x) = \frac{e^{w_k^T x}}{\sum_j e^{w_j^T x}}$

Bu softmax. Lojistik regresyonun çok sınıflı genelleştirmesi = multinomial logistic.

Modern AI bağlantısı

Her sinir ağının son katmanı lojistik regresyondan ibarettir:

Görüntü sınıflandırma: ResNet son katmanı softmax → 1000 sınıf üzerinde lojistik.
LLM token tahmini: transformer çıkışı → vocabulary boyutunda softmax → her token bir lojistik regresyon.

Yani GPT-4 bile son katmanda lojistik regresyon yapıyor. Önceki katmanlar sadece iyi özellik üretiyor.

Düzenlileştirme

Aşırı uyumdan korunmak için:

L2 (Ridge): $\|w\|_2^2$ — küçük ağırlıkları sever.
L1 (Lasso): $\|w\|_1$ — seyrek modeller (özellik seçimi).
Elastic Net: ikisinin karışımı.

Modern derin öğrenmedeki weight decay bunun aynısı.

Hangi durumlarda iyi?

Doğrusal ayrılabilir veri: mükemmel.
Az veri: aşırı uyum riski düşük (parametre sayısı az).
Yorumlanabilirlik gereken alanlar: tıp, finans, hukuk.
Baseline: her ML projesinde ilk çalıştırılan model.

Sınırlamalar

Doğrusal olmayan ilişkileri modelleyemez — özellik mühendisliği şart.
Yüksek boyutta zayıf — derin ağ alır.
Görüntü, metin gibi ham veride başarısız — temsil öğrenmesi lazım.

Modern kombinasyon: derin ağ özellikler öğrenir + son katmanda lojistik.

Tarihsel önem

1838: Verhulst — lojistik fonksiyonu nüfus modeli için.
1944: Joseph Berkson — "logit" terimini uydurdu, istatistiksel teorisi.
1972: David Cox — modern eğitim algoritmaları.
1986: Sinir ağında "perceptron" + sigmoid → ilk gizli katmanlı ağlar.
Bugün: tüm derin öğrenmenin son katmanı.

"Lojistik" adı nereden?

Verhulst'un nüfus modeli — "düzenli/oranlı büyüme". Latince logisticus ("hesap, mantık"). Sonradan logit = log(odds) ile ilişkilendirildi.

Kapanış

Lojistik regresyon basit görünür ama modern AI'ın temel taşı. Her LLM, her CNN, her tıbbi karar destek sistemi sonunda bir lojistik regresyonla biter. Öğrenmesi 1 saat, faydası ömür boyu.

Ders: yeni bir ML problemi → önce lojistik regresyon dene. Eğer çalışırsa, derin ağa ihtiyacın yok.