Tüm yazılar
Matematik3 Ağustos 2025

Backpropagation: Derin Öğrenmeyi Mümkün Kılan Zincir Kuralı

Çok katlı sinir ağında milyonlarca parametre var. **Her birine** gradyan nasıl hesaplanır? Cevap: **kalkülüsteki zincir kuralı**, ama akıllı sırada uygulanmış. Modern AI'nin sessiz mucizesi.

Matematik Karavanı Editörü 5 dk okuma 5 soru
Domino zinciri — backpropagation'ın geri yön kaskadı

Milyonlarca parametreye gradyan?

GPT-4: yaklaşık 1.8 trilyon parametre. Her birinin gradyanı (loss'a göre türev) gerekiyor — eğitimin her adımında.

Eğer her parametreyi ayrı ayrı sayısal türev ile hesaplarsanız: 1.8 trilyon kere ağı çalıştırın → imkansız.

Çözüm: backpropagation (geri yayılım). Zincir kuralı'nın akıllı düzeniyle, tek bir geri-geçişte tüm gradyanlar hesaplanır.

Bu, modern derin öğrenmenin mucize algoritmasıdır.

Sinir ağı: forward pass

Tek bir nöron:

y=σ(wTx+b)y = \sigma(w^T x + b)

σ\sigma = aktivasyon fonksiyonu (sigmoid, ReLU, tanh).

Çok katlı:

h1=σ(W1x+b1)h_1 = \sigma(W_1 x + b_1)
h2=σ(W2h1+b2)h_2 = \sigma(W_2 h_1 + b_2)
\vdots
y^=WLhL1+bL\hat y = W_L h_{L-1} + b_L

Forward pass: girdiden çıkışa hesapla. Tahmin y^\hat y, loss L=12(y^y)2L = \frac{1}{2}(\hat y - y)^2.

Zincir kuralı

Kalkülüsten:

Lw=Ly^y^hhw\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat y} \cdot \frac{\partial \hat y}{\partial h} \cdot \frac{\partial h}{\partial w}

Backpropagation'ın özü: gradyanları arkadan öne doğru, zincir kuralıyla, tek bir geçişte hesaplamak.

Algoritma

  1. Forward pass: aktivasyonları sakla.
  2. Loss'u hesapla.
  3. Backward pass: çıkıştan girişe doğru:
    • Hata sinyalini geriye taşı.
    • Her parametre için gradyanı zincir kuralı ile hesapla.

Karmaşıklık: forward pass kadar — yani doğrusal parametre sayısına. Sayısal türevin trilyonda biri.

Klasik örnek

3-katlı ağ:

  • h1=σ(W1x)h_1 = \sigma(W_1 x)
  • h2=σ(W2h1)h_2 = \sigma(W_2 h_1)
  • y^=W3h2\hat y = W_3 h_2
  • L=12(y^y)2L = \frac{1}{2}(\hat y - y)^2

Gradyanlar (zincir kuralıyla):

  • δ3=y^y\delta_3 = \hat y - y
  • δ2=(W3Tδ3)σ(h2)\delta_2 = (W_3^T \delta_3) \odot \sigma'(h_2)
  • δ1=(W2Tδ2)σ(h1)\delta_1 = (W_2^T \delta_2) \odot \sigma'(h_1)

Sonra:

  • L/W3=δ3h2T\partial L/\partial W_3 = \delta_3 h_2^T
  • L/W2=δ2h1T\partial L/\partial W_2 = \delta_2 h_1^T
  • L/W1=δ1xT\partial L/\partial W_1 = \delta_1 x^T

Bir geri-geçişte hepsi.

Tarihsel köken

Backpropagation bağımsız olarak birden fazla kez keşfedildi:

  • Henry Kelley (1960): kontrol teorisi.
  • Arthur Bryson (1961): mühendislik.
  • Stuart Dreyfus (1962): dinamik optimizasyon.
  • Paul Werbos (1974, PhD tezi): sinir ağları bağlamı.
  • Rumelhart, Hinton, Williams (1986): popüler hale getirdi.

Werbos'un 1974 tezi sinir ağları için backpropagation'ı tanıttı, ama akademik camia dikkate almadı. Rumelhart-Hinton-Williams 1986 makalesi (Nature) tüm dünyaya yaydı.

Niçin 60'lardan sonra bekledi?

  • Bilgisayarlar yetersizdi: 1960'larda CPU'lar yavaş, sinir ağları için yetersiz.
  • Sinir ağları gözden düşmüştü: Minsky-Papert 1969 sonrası AI kışı.
  • Veri eksik: büyük veri setleri 90'lardan sonra.

1980'ler sonrası iki rejim birleşti:

  1. Donanım: hızlı CPU, sonra GPU.
  2. Yazılım: backpropagation kütüphaneleri.

Sonuç: 2010'larda derin öğrenme patladı.

Otomatik türev (Autograd)

Modern derin öğrenme kütüphaneleri (PyTorch, TensorFlow, JAX) otomatik türev kullanır:

  • Forward pass: hesaplama grafiği oluştur.
  • Backward pass: grafiği geriye doğru dolaş, zincir kuralı uygula.

Programcı gradyanı manuel hesaplamaz — kütüphane otomatik yapar.

Bu, derin öğrenmenin erişilebilir olmasını sağladı. Önceden her ağ yapısı için el ile gradyan formülü gerekirdi.

Hata patlaması ve kaybolması

Backpropagation'ın bir sorunu: gradyan kaybolması/patlaması.

Çok katlı ağda zincir kuralı çarpımlar üretir. Eğer çoğu çarpan < 1 → gradyan kaybolur. > 1patlar.

Modern çözümler:

  • ReLU aktivasyonu: sigmoid yerine, gradyan korur.
  • Batch normalization, layer normalization: normalleştirme.
  • Residual connections (ResNet): gradyanın "shortcut" yolu.
  • Initialization (Xavier, He): dikkatli başlangıç.

Modern uygulamalar

Her büyük AI modeli backpropagation ile eğitildi:

  • GPT-4, Claude, Gemini: dil modelleri.
  • AlexNet, ResNet, ViT: görüntü modelleri.
  • AlphaGo, AlphaZero: oyun AI'leri.
  • Stable Diffusion, DALL-E: görüntü üretim.

Sonuç

Backpropagation:

  • Zincir kuralının akıllı düzeni.
  • Werbos (1974), Rumelhart-Hinton-Williams (1986) keşfi.
  • Forward pass karmaşıklığında tüm gradyanları hesaplar.
  • Modern derin öğrenmenin sessiz mucizesi.
  • Otomatik türev'in temeli.

Bir tek kalkülüs kuralı: fx=fyyx\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} \cdot \frac{\partial y}{\partial x}. Newton ve Leibniz'in 17. yüzyıldaki keşfi. 350 yıl sonra, bir tek akıllı algoritma düzeniyle, modern AI mucizesinin kalbi.

"Zincir kuralı, ama geriye doğru." Modern derin öğrenmenin paradigma cümlesi.

Etiketler

backpropagationzincir kuralısinir ağı eğitimiderin öğrenmeotomatik türev

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Backpropagation'ın matematik temeli nedir?

2. Backpropagation'ı sinir ağları için ilk kim tanıttı?

3. Backpropagation'ın karmaşıklık avantajı nedir?

4. Gradyan kaybolması/patlaması problemi nasıl çözülür?

5. Modern AI sistemleri backpropagation'ı nasıl kullanır?