Tüm yazılar
Matematik22 Haziran 2025

AdamW: Modern LLM Eğitimlerinin Tek Optimizatörü

Adam ile weight decay arasındaki sessiz bir tutarsızlığı düzelten makale, derin öğrenmenin altyapı standardını belirledi.

Matematik Karavanı 6 dk okuma 5 soru
İniş merdiveni — gradyan tabanlı optimizasyon temsili

Bir satırlık fark, evrensel adopsiyon

Modern derin öğrenmenin tek bir sorusu var: hangi optimizer? Cevap son 6 yıldır neredeyse tek: AdamW. GPT-3, GPT-4, Llama, Claude, Gemini — hepsi AdamW ile eğitildi.

Ama AdamW, Adam'dan tek satırlık bir farkla ayrılır. O satırın hikâyesi bir önemli ders.

Önce: gradient descent

Modeli eğitmek bir tepe iniş problemidir. Hata yüzeyinde en alçak noktayı ara. Adımlar:

θt+1=θtηL(θt)\theta_{t+1} = \theta_t - \eta \nabla L(\theta_t)

η\eta öğrenme oranı, L\nabla L kayıp gradyanı. Bu vanilla SGD.

Sorunu: bir boyutta dik, başka boyutta düz bir alanda iniş zigzag yapar. Çözüm: her parametre için adım büyüklüğünü ayarla.

Adam (2014)

Kingma ve Ba (Toronto'dan, Hinton'un öğrencileri) Adam'ı önerdi. Fikir iki istatistik tut:

  • mtm_t: gradyanın hareketli ortalaması (momentum)
  • vtv_t: gradyan karelerinin hareketli ortalaması (varyans)

Güncelleme:

θt+1=θtηmtvt+ϵ\theta_{t+1} = \theta_t - \eta \cdot \frac{m_t}{\sqrt{v_t} + \epsilon}

Yorum: "Gradyan büyükse hızlı git, gürültülüyse yavaş git." Her parametre kendi uyarlanabilir öğrenme oranına sahip.

Adam derin öğrenmenin standart yöntemi oldu. Hızlı yakınsama, hiper-parametre seçimine az duyarlı.

Weight decay — regularizasyon

Aşırı uyumu (overfitting) engellemek için bir trick: ağırlıkları küçük tut. Kayıp fonksiyonuna küçük bir ceza ekle:

Ltoplam=Lveri+λ2θ2L_{\text{toplam}} = L_{\text{veri}} + \frac{\lambda}{2} \|\theta\|^2

Bunun gradyan etkisi: her adımda θ\theta küçücük küçülür. Buna L2 regularization ya da weight decay denir. SGD'de ikisi eşittir.

Adam ile uyumsuzluk

Adam'ın orijinal implementasyonu weight decay'i kayıp gradyanına ekledi:

Ltoplam=L+λθ\nabla L_{\text{toplam}} = \nabla L + \lambda \theta

Sonra bu gradyan Adam'ın momentum ve varyans tutucusuna girer. Yani decay bilgisi de mtm_t ve vtv_t ile bozulur.

Problem: büyük gradyana sahip parametreler daha az decay görür (varyans büyük, bölünür). Küçük gradyanlılar daha çok decay görür. Bu hiç istemediğimiz bir davranış.

AdamW (2017)

Loshchilov ve Hutter (Freiburg, Almanya) bu uyumsuzluğu fark etti. Çözüm: weight decay'i kayıp gradyanından ayır, doğrudan ağırlığa uygula:

θt+1=θtη(mtvt+ϵ+λθt)\theta_{t+1} = \theta_t - \eta \left( \frac{m_t}{\sqrt{v_t} + \epsilon} + \lambda \theta_t \right)

"W" decoupled weight decay'in W'sidir. Bu satır farkı, sonuçta bir kuyumcunun ayar farkı gibi: kayıp aynı görünür ama eğitim eğrisi farklı yere gider.

Etki — ne kadar değişti?

Loshchilov ve Hutter makalede gösterdi: aynı modelle aynı hiper-parametrelerle AdamW Adam'dan sürekli daha iyi. CIFAR-10 test hatasında ~%5 azalma. ImageNet'te de benzer.

Ama asıl etki LLM dünyasında:

  • GPT-2 (2019): AdamW
  • GPT-3 (2020): AdamW, β1=0.9,β2=0.95,λ=0.1\beta_1=0.9, \beta_2=0.95, \lambda=0.1 — sektör standardı
  • Llama, Mistral, Claude, Gemini: Hep AdamW

Adam ile eğitilen bir LLM gözle görülür biçimde daha kötü sonuç verir. Bu, 2017'de bir makale farklı bir alan icat etmedi, sadece düzeltme yaptı ama o düzeltme tüm endüstrinin standardını belirledi.

Bellek maliyeti

AdamW'nin bedeli: parametre başına 3x bellek. Çünkü θ\theta + mtm_t + vtv_t tutulmalı.

70B model için:

  • Sadece parametreler: 140 GB (fp16)
  • AdamW state: 280 GB
  • Gradyanlar: 140 GB
  • Toplam: ~560 GB

Bir H100 GPU'nun bellek toplamı: 80 GB. Yani 70B modeli AdamW ile eğitmek için 8 H100 paralel + ZeRO/FSDP gibi optimizasyon gerek.

Modern alternatifler

AdamW'nin tahta kazınmışlığını kıran yok ama denenenler var:

  • Lion (Google, 2023): Adam'ın "sign-only" varyantı. AdamW'den biraz daha hızlı ama hassas hiper-parametre.
  • Adafactor (Google, 2018): Faktörize varyans tutucu; bellek O(n)O(n) yerine O(n)O(\sqrt{n}). PaLM, T5 kullandı.
  • Shampoo (Google, 2018): İkinci derece bilgi (eğriyi de gör). Pahalı ama bazı görevlerde üstün.

2024-2025 araştırmalarında AdamW hâlâ baseline. Yeni bir optimizer üstün olmasına rağmen "AdamW'den şu kadar iyi" diye karşılaştırılır.

Sade ders

AdamW hikâyesinden iki şey:

  1. Küçük düzeltmeler büyük etki yapabilir. Bir satırlık değişiklik tüm endüstrinin standardını belirledi.
  2. Akademik dikkat değerlidir. Loshchilov ve Hutter Adam ile L2 regularization arasındaki görünmez uyumsuzluğu fark etti. Çoğu mühendis bunu görmedi.

Bağlam

Gradient descent için: [[gradient-descent-egim-inisi]] (varsa), [[geri-yayilim-backpropagation]]. Momentum ve adaptive optimizasyon için: [[sgd-adam-momentum-optimizasyon]]. Eğitim altyapısı için: [[ddp-fsdp-dagitik-egitim]]. LLM eğitiminin diğer ana bileşeni: [[chinchilla-yasalari-veri-parametre]] (varsa).

Etiketler

AdamWoptimizerweight decayderin öğrenmeeğitim

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Adam optimizer neyi takip eder?

2. AdamW'nin Adam'dan farkı nedir?

3. AdamW'nin bellek maliyeti nedir?

4. Hangi modeller AdamW kullanır?

5. Lion ve Adafactor nedir?