Adam optimizer neyi takip eder?

Gradyanın hareketli ortalaması $m_t$ ve karelerinin hareketli ortalaması $v_t$

AdamW'nin Adam'dan farkı nedir?

Weight decay'i kayıp gradyanından ayırıp doğrudan ağırlığa uygular

AdamW'nin bellek maliyeti nedir?

Parametre başına 3x — ağırlık + $m_t$ + $v_t$ tutulmalı

Hangi modeller AdamW kullanır?

GPT-2, GPT-3, GPT-4, Llama, Mistral, Claude, Gemini — modern büyük modellerin standardı

Lion ve Adafactor nedir?

AdamW'ye modern alternatifler — Lion daha hızlı, Adafactor daha az bellek

AdamW: Modern LLM Eğitimlerinin Tek Optimizatörü

Bir satırlık fark, evrensel adopsiyon

Modern derin öğrenmenin tek bir sorusu var: hangi optimizer? Cevap son 6 yıldır neredeyse tek: AdamW. GPT-3, GPT-4, Llama, Claude, Gemini — hepsi AdamW ile eğitildi.

Ama AdamW, Adam'dan tek satırlık bir farkla ayrılır. O satırın hikâyesi bir önemli ders.

Önce: gradient descent

Modeli eğitmek bir tepe iniş problemidir. Hata yüzeyinde en alçak noktayı ara. Adımlar:

\theta_{t+1} = \theta_t - \eta \nabla L(\theta_t)

$\eta$ öğrenme oranı, $\nabla L$ kayıp gradyanı. Bu vanilla SGD.

Sorunu: bir boyutta dik, başka boyutta düz bir alanda iniş zigzag yapar. Çözüm: her parametre için adım büyüklüğünü ayarla.

Adam (2014)

Kingma ve Ba (Toronto'dan, Hinton'un öğrencileri) Adam'ı önerdi. Fikir iki istatistik tut:

$m_t$ : gradyanın hareketli ortalaması (momentum)
$v_t$ : gradyan karelerinin hareketli ortalaması (varyans)

Güncelleme:

\theta_{t+1} = \theta_t - \eta \cdot \frac{m_t}{\sqrt{v_t} + \epsilon}

Yorum: "Gradyan büyükse hızlı git, gürültülüyse yavaş git." Her parametre kendi uyarlanabilir öğrenme oranına sahip.

Adam derin öğrenmenin standart yöntemi oldu. Hızlı yakınsama, hiper-parametre seçimine az duyarlı.

Weight decay — regularizasyon

Aşırı uyumu (overfitting) engellemek için bir trick: ağırlıkları küçük tut. Kayıp fonksiyonuna küçük bir ceza ekle:

L_{\text{toplam}} = L_{\text{veri}} + \frac{\lambda}{2} \|\theta\|^2

Bunun gradyan etkisi: her adımda $\theta$ küçücük küçülür. Buna L2 regularization ya da weight decay denir. SGD'de ikisi eşittir.

Adam ile uyumsuzluk

Adam'ın orijinal implementasyonu weight decay'i kayıp gradyanına ekledi:

\nabla L_{\text{toplam}} = \nabla L + \lambda \theta

Sonra bu gradyan Adam'ın momentum ve varyans tutucusuna girer. Yani decay bilgisi de $m_t$ ve $v_t$ ile bozulur.

Problem: büyük gradyana sahip parametreler daha az decay görür (varyans büyük, bölünür). Küçük gradyanlılar daha çok decay görür. Bu hiç istemediğimiz bir davranış.

AdamW (2017)

Loshchilov ve Hutter (Freiburg, Almanya) bu uyumsuzluğu fark etti. Çözüm: weight decay'i kayıp gradyanından ayır, doğrudan ağırlığa uygula:

\theta_{t+1} = \theta_t - \eta \left( \frac{m_t}{\sqrt{v_t} + \epsilon} + \lambda \theta_t \right)

"W" decoupled weight decay'in W'sidir. Bu satır farkı, sonuçta bir kuyumcunun ayar farkı gibi: kayıp aynı görünür ama eğitim eğrisi farklı yere gider.

Etki — ne kadar değişti?

Loshchilov ve Hutter makalede gösterdi: aynı modelle aynı hiper-parametrelerle AdamW Adam'dan sürekli daha iyi. CIFAR-10 test hatasında ~%5 azalma. ImageNet'te de benzer.

Ama asıl etki LLM dünyasında:

GPT-2 (2019): AdamW
GPT-3 (2020): AdamW, $\beta_1=0.9, \beta_2=0.95, \lambda=0.1$ — sektör standardı
Llama, Mistral, Claude, Gemini: Hep AdamW

Adam ile eğitilen bir LLM gözle görülür biçimde daha kötü sonuç verir. Bu, 2017'de bir makale farklı bir alan icat etmedi, sadece düzeltme yaptı ama o düzeltme tüm endüstrinin standardını belirledi.

Bellek maliyeti

AdamW'nin bedeli: parametre başına 3x bellek. Çünkü $\theta$ + $m_t$ + $v_t$ tutulmalı.

70B model için:

Sadece parametreler: 140 GB (fp16)
AdamW state: 280 GB
Gradyanlar: 140 GB
Toplam: ~560 GB

Bir H100 GPU'nun bellek toplamı: 80 GB. Yani 70B modeli AdamW ile eğitmek için 8 H100 paralel + ZeRO/FSDP gibi optimizasyon gerek.

Modern alternatifler

AdamW'nin tahta kazınmışlığını kıran yok ama denenenler var:

Lion (Google, 2023): Adam'ın "sign-only" varyantı. AdamW'den biraz daha hızlı ama hassas hiper-parametre.
Adafactor (Google, 2018): Faktörize varyans tutucu; bellek $O(n)$ yerine $O(\sqrt{n})$ . PaLM, T5 kullandı.
Shampoo (Google, 2018): İkinci derece bilgi (eğriyi de gör). Pahalı ama bazı görevlerde üstün.

2024-2025 araştırmalarında AdamW hâlâ baseline. Yeni bir optimizer üstün olmasına rağmen "AdamW'den şu kadar iyi" diye karşılaştırılır.

Sade ders

AdamW hikâyesinden iki şey:

Küçük düzeltmeler büyük etki yapabilir. Bir satırlık değişiklik tüm endüstrinin standardını belirledi.
Akademik dikkat değerlidir. Loshchilov ve Hutter Adam ile L2 regularization arasındaki görünmez uyumsuzluğu fark etti. Çoğu mühendis bunu görmedi.

Bağlam

Gradient descent için: [[gradient-descent-egim-inisi]] (varsa), [[geri-yayilim-backpropagation]]. Momentum ve adaptive optimizasyon için: [[sgd-adam-momentum-optimizasyon]]. Eğitim altyapısı için: [[ddp-fsdp-dagitik-egitim]]. LLM eğitiminin diğer ana bileşeni: [[chinchilla-yasalari-veri-parametre]] (varsa).