Backpropagation'ın matematik temeli nedir?

Newton-Leibniz zincir kuralının (17. yüzyıl) akıllı, geriye doğru düzeni

Backpropagation'ı sinir ağları için ilk kim tanıttı?

Paul Werbos (1974, PhD tezi); 1986'da Rumelhart-Hinton-Williams popüler yaptı

Backpropagation'ın karmaşıklık avantajı nedir?

Forward pass kadar — tek geçişte tüm parametrelerin gradyanı (sayısal türevden trilyonda biri)

Gradyan kaybolması/patlaması problemi nasıl çözülür?

ReLU, batch normalization, residual connections, dikkatli başlangıç

Modern AI sistemleri backpropagation'ı nasıl kullanır?

Otomatik türev kütüphaneleri (PyTorch, TensorFlow, JAX) ile, programcı el ile yapmaz

Backpropagation: Derin Öğrenmeyi Mümkün Kılan Zincir Kuralı

Milyonlarca parametreye gradyan?

GPT-4: yaklaşık 1.8 trilyon parametre. Her birinin gradyanı (loss'a göre türev) gerekiyor — eğitimin her adımında.

Eğer her parametreyi ayrı ayrı sayısal türev ile hesaplarsanız: 1.8 trilyon kere ağı çalıştırın → imkansız.

Çözüm: backpropagation (geri yayılım). Zincir kuralı'nın akıllı düzeniyle, tek bir geri-geçişte tüm gradyanlar hesaplanır.

Bu, modern derin öğrenmenin mucize algoritmasıdır.

Sinir ağı: forward pass

Tek bir nöron:

$y = \sigma(w^T x + b)$

$\sigma$ = aktivasyon fonksiyonu (sigmoid, ReLU, tanh).

Çok katlı:

$h_1 = \sigma(W_1 x + b_1)$
$h_2 = \sigma(W_2 h_1 + b_2)$
$\vdots$
$\hat y = W_L h_{L-1} + b_L$

Forward pass: girdiden çıkışa hesapla. Tahmin $\hat y$ , loss $L = \frac{1}{2}(\hat y - y)^2$ .

Zincir kuralı

Kalkülüsten:

$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat y} \cdot \frac{\partial \hat y}{\partial h} \cdot \frac{\partial h}{\partial w}$

Backpropagation'ın özü: gradyanları arkadan öne doğru, zincir kuralıyla, tek bir geçişte hesaplamak.

Algoritma

Forward pass: aktivasyonları sakla.
Loss'u hesapla.
Backward pass: çıkıştan girişe doğru:
- Hata sinyalini geriye taşı.
- Her parametre için gradyanı zincir kuralı ile hesapla.

Karmaşıklık: forward pass kadar — yani doğrusal parametre sayısına. Sayısal türevin trilyonda biri.

Klasik örnek

3-katlı ağ:

$h_1 = \sigma(W_1 x)$
$h_2 = \sigma(W_2 h_1)$
$\hat y = W_3 h_2$
$L = \frac{1}{2}(\hat y - y)^2$

Gradyanlar (zincir kuralıyla):

$\delta_3 = \hat y - y$
$\delta_2 = (W_3^T \delta_3) \odot \sigma'(h_2)$
$\delta_1 = (W_2^T \delta_2) \odot \sigma'(h_1)$

Sonra:

$\partial L/\partial W_3 = \delta_3 h_2^T$
$\partial L/\partial W_2 = \delta_2 h_1^T$
$\partial L/\partial W_1 = \delta_1 x^T$

Bir geri-geçişte hepsi.

Tarihsel köken

Backpropagation bağımsız olarak birden fazla kez keşfedildi:

Henry Kelley (1960): kontrol teorisi.
Arthur Bryson (1961): mühendislik.
Stuart Dreyfus (1962): dinamik optimizasyon.
Paul Werbos (1974, PhD tezi): sinir ağları bağlamı.
Rumelhart, Hinton, Williams (1986): popüler hale getirdi.

Werbos'un 1974 tezi sinir ağları için backpropagation'ı tanıttı, ama akademik camia dikkate almadı. Rumelhart-Hinton-Williams 1986 makalesi (Nature) tüm dünyaya yaydı.

Niçin 60'lardan sonra bekledi?

Bilgisayarlar yetersizdi: 1960'larda CPU'lar yavaş, sinir ağları için yetersiz.
Sinir ağları gözden düşmüştü: Minsky-Papert 1969 sonrası AI kışı.
Veri eksik: büyük veri setleri 90'lardan sonra.

1980'ler sonrası iki rejim birleşti:

Donanım: hızlı CPU, sonra GPU.
Yazılım: backpropagation kütüphaneleri.

Sonuç: 2010'larda derin öğrenme patladı.

Otomatik türev (Autograd)

Modern derin öğrenme kütüphaneleri (PyTorch, TensorFlow, JAX) otomatik türev kullanır:

Forward pass: hesaplama grafiği oluştur.
Backward pass: grafiği geriye doğru dolaş, zincir kuralı uygula.

Programcı gradyanı manuel hesaplamaz — kütüphane otomatik yapar.

Bu, derin öğrenmenin erişilebilir olmasını sağladı. Önceden her ağ yapısı için el ile gradyan formülü gerekirdi.

Hata patlaması ve kaybolması

Backpropagation'ın bir sorunu: gradyan kaybolması/patlaması.

Çok katlı ağda zincir kuralı çarpımlar üretir. Eğer çoğu çarpan < 1 → gradyan kaybolur. > 1 → patlar.

Modern çözümler:

ReLU aktivasyonu: sigmoid yerine, gradyan korur.
Batch normalization, layer normalization: normalleştirme.
Residual connections (ResNet): gradyanın "shortcut" yolu.
Initialization (Xavier, He): dikkatli başlangıç.

Modern uygulamalar

Her büyük AI modeli backpropagation ile eğitildi:

GPT-4, Claude, Gemini: dil modelleri.
AlexNet, ResNet, ViT: görüntü modelleri.
AlphaGo, AlphaZero: oyun AI'leri.
Stable Diffusion, DALL-E: görüntü üretim.

Sonuç

Backpropagation:

Zincir kuralının akıllı düzeni.
Werbos (1974), Rumelhart-Hinton-Williams (1986) keşfi.
Forward pass karmaşıklığında tüm gradyanları hesaplar.
Modern derin öğrenmenin sessiz mucizesi.
Otomatik türev'in temeli.

Bir tek kalkülüs kuralı: $\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} \cdot \frac{\partial y}{\partial x}$ . Newton ve Leibniz'in 17. yüzyıldaki keşfi. 350 yıl sonra, bir tek akıllı algoritma düzeniyle, modern AI mucizesinin kalbi.

"Zincir kuralı, ama geriye doğru." Modern derin öğrenmenin paradigma cümlesi.