Stokastik Gradyan İniş (SGD): Modern Derin Öğrenmenin Sessiz İşgücü
Tüm veriyle gradyan hesaplamak zor — milyonlarca örnek. **Rastgele bir alt kümeyle** gradyan tahmin et, sonra güncelle. Bu basit fikir, modern derin öğrenmenin **yalnız eğitim algoritması**dır.

"Bütün veriyi bir kerede çalıştırmak için yeterli RAM yok"
GPT-4 eğitilirken: 1 trilyon token veri. Her bir gradyan adımı için tüm veriyi işlemek? İmkansız. Yetersiz RAM, yetersiz GPU, yetersiz zaman.
Çözüm: stokastik gradyan iniş (Stochastic Gradient Descent, SGD).
Fikir: her adımda tüm veri yerine küçük rastgele alt küme (mini-batch) kullan. Gradyan tahmini gürültülü, ama ortalama doğru yön.
Bu basit fikir, modern derin öğrenmenin tek eğitim algoritmasıdır.
Klasik gradyan iniş (GD)
Loss fonksiyonu .
Klasik gradyan iniş:
Her adımda tüm örnek için gradyan hesaplanır. Pahalı.
Stokastik gradyan iniş
SGD bir farklı:
Burada rastgele seçilmiş örnek. Sadece bir örnekle güncelle.
Mini-batch SGD (yaygın versiyon):
= rastgele seçilmiş batch (genelde 32-1024 örnek).
Niçin işe yarar?
1. Hesap maliyeti
Her güncelleme kez daha az hesap. GPT-4: , — bir adım için %0.0004 hesap.
2. Gürültü → düzenleştirme
Gürültülü gradyan yerel minimuma takılmayı önler. Çukurlardan rastgele çıkma.
Modern derin öğrenme non-konveks — bu önemli avantaj.
3. Güncellemeler hızlı
Daha sık güncelleme → daha hızlı yakınsama (büyük veri seti için).
4. Online öğrenme
Yeni veri geldikçe model güncellenebilir. Streaming data için ideal.
Yakınsama analizi
Robbins-Monro teoremi (1951): öğrenme oranı ve koşulu altında SGD olasılıkla doğru parametreye yakınsar.
Konveks loss için yakınsama hızı. Tam GD'nin 'sinden yavaş ama örnek-verimli.
Modern varyantlar
Momentum (1964)
Polyak (1964). "Top tepeden yuvarlanma" sezgisi. Yerel dalgalanmaları yumuşatır.
Nesterov ivmeli gradyan (NAG, 1983)
Yurii Nesterov'un katkısı. Momentum'un geliştirilmiş versiyonu. Konveks fonksiyonlar için optimum yakınsama hızı.
AdaGrad (2011)
Duchi, Hazan, Singer. Her parametre için ayrı öğrenme oranı. Sparse veriler için iyi.
RMSProp (2012)
Hinton Coursera dersinde tanıttı. AdaGrad'in yumuşatılmış versiyonu.
Adam (2014)
Kingma, Ba. Momentum + RMSProp kombinasyonu. Modern derin öğrenmenin standart optimizer'ı.
GPT, BERT, ResNet — hepsi Adam ile eğitildi.
AdamW (2017)
Loshchilov, Hutter. Adam + L2 düzenleştirmenin doğru uygulanması. Modern büyük dil modelleri standartı.
Tarihsel köken
- Robbins, Monro (1951): stokastik yaklaşım. Modern SGD'nin matematik temeli.
- Rosenblatt (1958): Perceptron algoritması — ilk SGD uygulaması.
- Widrow, Hoff (1960): LMS (Least Mean Squares) — adaptive filtre.
- Polyak (1964): momentum.
- Bottou (1991+): büyük ölçekli SGD.
- Modern derin öğrenme (2010+): GPU'larla devrim.
Hiperparametreler
SGD'nin pratik kullanımı dikkatli ayarlama gerektirir:
- Öğrenme oranı : çok büyük → kararsız, çok küçük → yavaş.
- Batch boyutu: küçük → gürültülü, büyük → yavaş.
- Momentum : 0.9 standart.
- Learning rate schedule: zamanla azaltma (cosine, step decay).
Bu "hiperparametre ayarı" modern makine öğrenmesinin kara büyüsüdür.
Genelleştirme
Şaşırtıcı gözlem: SGD'nin gürültüsü, eğitim seti üzerinde global optimuma değil, iyi genelleştiren noktaya yöneliyor.
Implicit regularization: SGD doğal olarak basit (geniş minima) çözümler bulur. Sinir ağlarının "çok fazla parametre yine de iyi genelleştirme" mucizesinin sebebi.
Modern teori (Bottou, Bach, Belkin) bu gözlemi anlamaya çalışıyor.
Uygulamalar
- Derin sinir ağları: standart eğitim.
- Lojistik regresyon, SVM: büyük veri.
- Pekiştirmeli öğrenme: policy gradient.
- Online öğrenme: streaming ortamlar.
- Bayes inference: stokastik gradyan MCMC.
Sonuç
Stokastik gradyan iniş:
- Modern makine öğrenmesinin işgücü algoritması.
- Robbins-Monro (1951)'in modern türevi.
- Adam, AdamW gibi varyantlarla pratik standart.
- Implicit düzenleştirme: derin öğrenmenin mucize genelleştirmesinin sebebi.
- GPT, BERT, AlphaGo, ChatGPT — hepsi SGD ile eğitildi.
Bir basit prensip: "Tüm veriyi kullanma — küçük rastgele alt kümeyle yön tahmin et." Bu sade fikir, derin öğrenme devrimini mümkün kıldı.
Modern AI sistemlerini eğitirken, her saniye milyonlarca SGD güncellemesi gerçekleşiyor. Görünmez ama vazgeçilmez.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. SGD klasik GD'den nasıl farklıdır?
2. SGD'nin yakınsama teorisini ilk veren teorem hangisidir?
3. Modern derin öğrenmenin standart optimizer'ı nedir?
4. SGD'nin gürültüsünün şaşırtıcı bir yararı nedir?
5. Momentum (Polyak 1964) ne yapar?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?