SGD klasik GD'den nasıl farklıdır?

Her adımda tüm veri yerine rastgele bir mini-batch ile gradyan tahmin eder

SGD'nin yakınsama teorisini ilk veren teorem hangisidir?

Robbins-Monro teoremi (1951): öğrenme oranı koşullarıyla olasılıkla yakınsama

Modern derin öğrenmenin standart optimizer'ı nedir?

Adam (2014, Kingma-Ba) — momentum + uyarlamalı öğrenme oranı

SGD'nin gürültüsünün şaşırtıcı bir yararı nedir?

Implicit düzenleştirme: yerel minimuma takılmayı önler, geniş ve genelleştirilebilir çözümler bulur

Momentum (Polyak 1964) ne yapar?

Önceki gradyan yönünün biraz ağırlığını taşır — "top tepeden yuvarlanma" sezgisi; yerel dalgalanmaları yumuşatır

Stokastik Gradyan İniş (SGD): Modern Derin Öğrenmenin Sessiz İşgücü

"Bütün veriyi bir kerede çalıştırmak için yeterli RAM yok"

GPT-4 eğitilirken: 1 trilyon token veri. Her bir gradyan adımı için tüm veriyi işlemek? İmkansız. Yetersiz RAM, yetersiz GPU, yetersiz zaman.

Çözüm: stokastik gradyan iniş (Stochastic Gradient Descent, SGD).

Fikir: her adımda tüm veri yerine küçük rastgele alt küme (mini-batch) kullan. Gradyan tahmini gürültülü, ama ortalama doğru yön.

Bu basit fikir, modern derin öğrenmenin tek eğitim algoritmasıdır.

Klasik gradyan iniş (GD)

Loss fonksiyonu $L(\theta) = \frac{1}{N} \sum_{i=1}^N \ell_i(\theta)$ .

Klasik gradyan iniş:

$\theta_{t+1} = \theta_t - \alpha \nabla L(\theta_t) = \theta_t - \frac{\alpha}{N} \sum_{i=1}^N \nabla \ell_i(\theta_t)$

Her adımda tüm $N$ örnek için gradyan hesaplanır. Pahalı.

Stokastik gradyan iniş

SGD bir farklı:

$\theta_{t+1} = \theta_t - \alpha \nabla \ell_{i_t}(\theta_t)$

Burada $i_t$ rastgele seçilmiş örnek. Sadece bir örnekle güncelle.

Mini-batch SGD (yaygın versiyon):

$\theta_{t+1} = \theta_t - \frac{\alpha}{|B_t|} \sum_{i \in B_t} \nabla \ell_i(\theta_t)$

$B_t$ = rastgele seçilmiş batch (genelde 32-1024 örnek).

Niçin işe yarar?

1. Hesap maliyeti

Her güncelleme $|B|/N$ kez daha az hesap. GPT-4: $N = 10^{12}$ , $|B| = 4 \times 10^6$ — bir adım için %0.0004 hesap.

2. Gürültü → düzenleştirme

Gürültülü gradyan yerel minimuma takılmayı önler. Çukurlardan rastgele çıkma.

Modern derin öğrenme non-konveks — bu önemli avantaj.

3. Güncellemeler hızlı

Daha sık güncelleme → daha hızlı yakınsama (büyük veri seti için).

4. Online öğrenme

Yeni veri geldikçe model güncellenebilir. Streaming data için ideal.

Yakınsama analizi

Robbins-Monro teoremi (1951): öğrenme oranı $\alpha_t \to 0$ ve $\sum \alpha_t = \infty$ koşulu altında SGD olasılıkla doğru parametreye yakınsar.

Konveks loss için $O(1/\sqrt{T})$ yakınsama hızı. Tam GD'nin $O(1/T)$ 'sinden yavaş ama örnek-verimli.

Modern varyantlar

Momentum (1964)

$v_{t+1} = \beta v_t + \nabla L, \quad \theta_{t+1} = \theta_t - \alpha v_{t+1}$

Polyak (1964). "Top tepeden yuvarlanma" sezgisi. Yerel dalgalanmaları yumuşatır.

Nesterov ivmeli gradyan (NAG, 1983)

Yurii Nesterov'un katkısı. Momentum'un geliştirilmiş versiyonu. Konveks fonksiyonlar için optimum yakınsama hızı.

AdaGrad (2011)

Duchi, Hazan, Singer. Her parametre için ayrı öğrenme oranı. Sparse veriler için iyi.

RMSProp (2012)

Hinton Coursera dersinde tanıttı. AdaGrad'in yumuşatılmış versiyonu.

Adam (2014)

Kingma, Ba. Momentum + RMSProp kombinasyonu. Modern derin öğrenmenin standart optimizer'ı.

$m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t \quad \text{(momentum)}$
$v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2 \quad \text{(uyarlamalı ölçek)}$
$\theta_{t+1} = \theta_t - \alpha \frac{\hat m_t}{\sqrt{\hat v_t} + \epsilon}$

GPT, BERT, ResNet — hepsi Adam ile eğitildi.

AdamW (2017)

Loshchilov, Hutter. Adam + L2 düzenleştirmenin doğru uygulanması. Modern büyük dil modelleri standartı.

Tarihsel köken

Robbins, Monro (1951): stokastik yaklaşım. Modern SGD'nin matematik temeli.
Rosenblatt (1958): Perceptron algoritması — ilk SGD uygulaması.
Widrow, Hoff (1960): LMS (Least Mean Squares) — adaptive filtre.
Polyak (1964): momentum.
Bottou (1991+): büyük ölçekli SGD.
Modern derin öğrenme (2010+): GPU'larla devrim.

Hiperparametreler

SGD'nin pratik kullanımı dikkatli ayarlama gerektirir:

Öğrenme oranı $\alpha$ : çok büyük → kararsız, çok küçük → yavaş.
Batch boyutu: küçük → gürültülü, büyük → yavaş.
Momentum $\beta$ : 0.9 standart.
Learning rate schedule: zamanla azaltma (cosine, step decay).

Bu "hiperparametre ayarı" modern makine öğrenmesinin kara büyüsüdür.

Genelleştirme

Şaşırtıcı gözlem: SGD'nin gürültüsü, eğitim seti üzerinde global optimuma değil, iyi genelleştiren noktaya yöneliyor.

Implicit regularization: SGD doğal olarak basit (geniş minima) çözümler bulur. Sinir ağlarının "çok fazla parametre yine de iyi genelleştirme" mucizesinin sebebi.

Modern teori (Bottou, Bach, Belkin) bu gözlemi anlamaya çalışıyor.

Uygulamalar

Derin sinir ağları: standart eğitim.
Lojistik regresyon, SVM: büyük veri.
Pekiştirmeli öğrenme: policy gradient.
Online öğrenme: streaming ortamlar.
Bayes inference: stokastik gradyan MCMC.

Sonuç

Stokastik gradyan iniş:

Modern makine öğrenmesinin işgücü algoritması.
Robbins-Monro (1951)'in modern türevi.
Adam, AdamW gibi varyantlarla pratik standart.
Implicit düzenleştirme: derin öğrenmenin mucize genelleştirmesinin sebebi.
GPT, BERT, AlphaGo, ChatGPT — hepsi SGD ile eğitildi.

Bir basit prensip: "Tüm veriyi kullanma — küçük rastgele alt kümeyle yön tahmin et." Bu sade fikir, derin öğrenme devrimini mümkün kıldı.

Modern AI sistemlerini eğitirken, her saniye milyonlarca SGD güncellemesi gerçekleşiyor. Görünmez ama vazgeçilmez.