Gradient Descent: Derin Öğrenmenin Temel Optimizasyon Algoritması
Bir dağdan aşağı kayboluyor musunuz? Her adımda en dik yöne gidin. Sinir ağları aynı mantıkla öğreniyor.

"Dağdan aşağı yuvarlan"
Bir dağın en dipini bulmak istiyorsunuz. Yöntem:
- Hangi yön en dik aşağı bak.
- O yönde bir adım at.
- Tekrarla.
Bu gradient descent.
Matematiksel: bir fonksiyonun minimum'unu bulmak için negatif gradyan yönüne hareket et.
Formül
: parametre (ağırlıklar).
: kayıp fonksiyonu.
: öğrenme hızı.
Yani: parametreleri gradyan ters yönünde güncelle.
Üç tür
Batch GD
Tüm veri üzerinde gradyan hesapla.
- Doğru ama yavaş.
- Bellek yetmez büyük veriyle.
Stochastic GD (SGD)
Tek örnek üzerinde gradyan.
- Hızlı, gürültülü.
- Yerel minimumdan kaçma şansı.
Mini-batch SGD
Küçük batch (örn. 32-256 örnek).
- Praktik seçim, modern derin öğrenmede standart.
Öğrenme hızı
çok küçük: yavaş.
çok büyük: salınır, ıraksar.
Tipik değer: 0.001 - 0.1.
Hyperparameter'ın en kritiği.
Yerel minimum
Vanilla GD yerel minimumda sıkışabilir:
- Düzlemde "L" görünür.
- Gerçek "V" altında olabilir.
Modern derin öğrenmede yerel minimumdan daha büyük sorun: saddle point (eyer noktası).
Momentum
Sezgi: bir top yokuştan inerken hız kazanır.
tipik 0.9.
Etki:
- Saddle point'lerden geçer.
- Gürültüyü azaltır.
- 2-5x hızlı yakınsama.
Nesterov Accelerated Gradient (NAG)
Momentum + ileri bakış:
Bir adım önce nerede olacağına bak.
Hassas problemler için daha iyi.
AdaGrad
Sezgi: sık görülen feature'lar için küçük adım, nadir feature'lar için büyük adım.
: gradyan karelerinin toplamı.
Problem: monoton artar → öğrenme hızı zamanla sıfıra düşer.
RMSProp
AdaGrad düzeltmesi: hareketli ortalama kullan.
Eski gradyanları unutur.
Adam (2014)
ADAptive Moment estimation. Momentum + RMSProp birleşimi.
Standart parametre: , , .
Çoğu modern derin öğrenmenin seçimi.
AdamW
Adam + weight decay doğru entegrasyonu:
- Weight decay loss'a değil, direkt güncellemeye eklenir.
- Modern transformer eğitiminin standartı.
Tüm modern LLM'ler AdamW kullanır.
Learning rate schedules
Step decay
Belirli epoch'larda LR yarıya indir.
Cosine annealing
LR sinüs eğrisi ile yavaş azalt.
Warmup
İlk birkaç step'te LR'yi küçükten büyüğe.
One-cycle
Warmup + cosine decay.
LLM eğitimi standart: warmup + cosine.
Modern LR strategies
Lion (2024)
EvoSearch ile bulunan optimizer.
- Çok az bellek.
- Çoğu durumda Adam ile eşit veya iyi.
Sophia (2023)
İkinci dereceden bilgi ile.
- LLM ön-eğitimi için tasarlandı.
- 2x hız iddiası.
Muon (2024)
Newton-Schulz tabanlı.
- Çok yeni, deneme aşamasında.
Hyperparameter ipuçları
Modern LLM eğitimi
- Optimizer: AdamW.
- LR: 3e-4 (büyük model), 1e-3 (küçük).
- Weight decay: 0.1.
- Warmup: 1-3% toplam step.
- LR schedule: cosine.
- Beta1: 0.9.
- Beta2: 0.95 (büyük model için 0.95, klasik 0.999).
Türk endüstri için
- Modern derin öğrenme projeleri default AdamW.
- Klasik ML'de L-BFGS veya SGD.
- LR finder (fast.ai): otomatik LR seçimi.
Felsefe
Gradient descent temel mesajı: "Yerel bilgi (gradyan) ile global hedefe (minimum) yaklaş".
Bu bilim metodolojisinin matematiksel modeli: küçük adımlar, sürekli düzeltme.
Kapanış
Gradient descent, modern AI'ın temel öğrenme algoritmasıdır. Adam ve türevleri endüstri standardı.
Bir derin öğrenme mühendisinin olgunluk işareti: hangi optimizer için hangi hyperparameter kullanacağını sezgi ile bilmek.
50 yıl önce yazılan formül trilyon dolarlık AI ekonomisinin temelidir.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Gradient descent ne yapar?
2. Mini-batch SGD neden popüler?
3. Momentum ne ekler?
4. Adam ne birleştirir?
5. LLM eğitiminde optimizer?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?