Tüm yazılar
Matematik29 Ocak 2025

Lojistik Regresyon: Makine Öğrenmesinin "Gizli Bel Kemiği"

En basit denetimli öğrenme modeli — ama her sinir ağının son katmanı, her LLM'in token tahmini hâlâ lojistik regresyondan ibaret.

Matematik Karavanı 6 dk okuma 5 soru
Grafik ve istatistik — lojistik regresyon metaforu

Soru: "Evet mi, hayır mı?"

Modern dünyanın yarısı bu soruyla başlar:

  • Bu e-posta spam mi?
  • Hasta ilacı kullanmalı mı?
  • Bu işlem dolandırıcılık mı?
  • Modelin tahmin ettiği sonraki kelime "kedi" mi yoksa başkası mı?

Hepsi ikili sınıflandırma. Klasik çözüm: lojistik regresyon (1944, Joseph Berkson).

Doğrusal regresyondan farkı

Doğrusal regresyon: y=wTx+by = w^T x + b — sayısal hedef.

Sınıflandırma için problem: çıktı (0,1) aralığında olmalı. Çözüm: sigmoid.

σ(z)=11+ez\sigma(z) = \frac{1}{1+e^{-z}}

Lojistik regresyon:

p(y=1x)=σ(wTx+b)p(y=1 \mid x) = \sigma(w^T x + b)

Sigmoid'in özellikleri

  • σ(0)=0.5\sigma(0) = 0.5.
  • z:σ1z \to \infty: \sigma \to 1.
  • z:σ0z \to -\infty: \sigma \to 0.
  • Türev: σ(z)=σ(z)(1σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z)) — backprop için güzel.

Eğitim: maximum likelihood

Veriden olasılığı en yüksek hale getir:

L=i[yilogy^i+(1yi)log(1y^i)]\mathcal{L} = -\sum_i \left[ y_i \log \hat{y}_i + (1-y_i)\log(1-\hat{y}_i) \right]

Bu binary cross-entropy kaybı. Konvekstir → tek optimumu var, gradient descent garantili olarak bulur.

Yorumlanabilirlik

Lojistik regresyon şeffaftır:

  • Her wiw_i özelliğin log-odds katkısı.
  • ewie^{w_i} özelliğin odds çarpanı.

Örnek: tıpta "sigara w=0.8w=0.8" → sigara odds'u e0.82.2e^{0.8} \approx 2.2 kat artırır.

Bu, kara kutu modellere göre muazzam avantaj.

Çok sınıf: softmax

İki yerine KK sınıf?

p(y=kx)=ewkTxjewjTxp(y=k \mid x) = \frac{e^{w_k^T x}}{\sum_j e^{w_j^T x}}

Bu softmax. Lojistik regresyonun çok sınıflı genelleştirmesi = multinomial logistic.

Modern AI bağlantısı

Her sinir ağının son katmanı lojistik regresyondan ibarettir:

  • Görüntü sınıflandırma: ResNet son katmanı softmax → 1000 sınıf üzerinde lojistik.
  • LLM token tahmini: transformer çıkışı → vocabulary boyutunda softmax → her token bir lojistik regresyon.

Yani GPT-4 bile son katmanda lojistik regresyon yapıyor. Önceki katmanlar sadece iyi özellik üretiyor.

Düzenlileştirme

Aşırı uyumdan korunmak için:

  • L2 (Ridge): w22\|w\|_2^2 — küçük ağırlıkları sever.
  • L1 (Lasso): w1\|w\|_1 — seyrek modeller (özellik seçimi).
  • Elastic Net: ikisinin karışımı.

Modern derin öğrenmedeki weight decay bunun aynısı.

Hangi durumlarda iyi?

  • Doğrusal ayrılabilir veri: mükemmel.
  • Az veri: aşırı uyum riski düşük (parametre sayısı az).
  • Yorumlanabilirlik gereken alanlar: tıp, finans, hukuk.
  • Baseline: her ML projesinde ilk çalıştırılan model.

Sınırlamalar

  • Doğrusal olmayan ilişkileri modelleyemez — özellik mühendisliği şart.
  • Yüksek boyutta zayıf — derin ağ alır.
  • Görüntü, metin gibi ham veride başarısız — temsil öğrenmesi lazım.

Modern kombinasyon: derin ağ özellikler öğrenir + son katmanda lojistik.

Tarihsel önem

  • 1838: Verhulst — lojistik fonksiyonu nüfus modeli için.
  • 1944: Joseph Berkson — "logit" terimini uydurdu, istatistiksel teorisi.
  • 1972: David Cox — modern eğitim algoritmaları.
  • 1986: Sinir ağında "perceptron" + sigmoid → ilk gizli katmanlı ağlar.
  • Bugün: tüm derin öğrenmenin son katmanı.

"Lojistik" adı nereden?

Verhulst'un nüfus modeli — "düzenli/oranlı büyüme". Latince logisticus ("hesap, mantık"). Sonradan logit = log(odds) ile ilişkilendirildi.

Kapanış

Lojistik regresyon basit görünür ama modern AI'ın temel taşı. Her LLM, her CNN, her tıbbi karar destek sistemi sonunda bir lojistik regresyonla biter. Öğrenmesi 1 saat, faydası ömür boyu.

Ders: yeni bir ML problemi → önce lojistik regresyon dene. Eğer çalışırsa, derin ağa ihtiyacın yok.

Etiketler

lojistik regresyonmakine öğrenmesisigmoidsoftmaxsınıflandırma

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Sigmoid fonksiyonu?

2. Kayıp fonksiyonu?

3. Lojistik regresyon modern AI'da nerede?

4. Çok sınıf genelleştirmesi?

5. Yorumlanabilirlik avantajı?