AdamW: Modern LLM Eğitimlerinin Tek Optimizatörü
Adam ile weight decay arasındaki sessiz bir tutarsızlığı düzelten makale, derin öğrenmenin altyapı standardını belirledi.

Bir satırlık fark, evrensel adopsiyon
Modern derin öğrenmenin tek bir sorusu var: hangi optimizer? Cevap son 6 yıldır neredeyse tek: AdamW. GPT-3, GPT-4, Llama, Claude, Gemini — hepsi AdamW ile eğitildi.
Ama AdamW, Adam'dan tek satırlık bir farkla ayrılır. O satırın hikâyesi bir önemli ders.
Önce: gradient descent
Modeli eğitmek bir tepe iniş problemidir. Hata yüzeyinde en alçak noktayı ara. Adımlar:
öğrenme oranı, kayıp gradyanı. Bu vanilla SGD.
Sorunu: bir boyutta dik, başka boyutta düz bir alanda iniş zigzag yapar. Çözüm: her parametre için adım büyüklüğünü ayarla.
Adam (2014)
Kingma ve Ba (Toronto'dan, Hinton'un öğrencileri) Adam'ı önerdi. Fikir iki istatistik tut:
- : gradyanın hareketli ortalaması (momentum)
- : gradyan karelerinin hareketli ortalaması (varyans)
Güncelleme:
Yorum: "Gradyan büyükse hızlı git, gürültülüyse yavaş git." Her parametre kendi uyarlanabilir öğrenme oranına sahip.
Adam derin öğrenmenin standart yöntemi oldu. Hızlı yakınsama, hiper-parametre seçimine az duyarlı.
Weight decay — regularizasyon
Aşırı uyumu (overfitting) engellemek için bir trick: ağırlıkları küçük tut. Kayıp fonksiyonuna küçük bir ceza ekle:
Bunun gradyan etkisi: her adımda küçücük küçülür. Buna L2 regularization ya da weight decay denir. SGD'de ikisi eşittir.
Adam ile uyumsuzluk
Adam'ın orijinal implementasyonu weight decay'i kayıp gradyanına ekledi:
Sonra bu gradyan Adam'ın momentum ve varyans tutucusuna girer. Yani decay bilgisi de ve ile bozulur.
Problem: büyük gradyana sahip parametreler daha az decay görür (varyans büyük, bölünür). Küçük gradyanlılar daha çok decay görür. Bu hiç istemediğimiz bir davranış.
AdamW (2017)
Loshchilov ve Hutter (Freiburg, Almanya) bu uyumsuzluğu fark etti. Çözüm: weight decay'i kayıp gradyanından ayır, doğrudan ağırlığa uygula:
"W" decoupled weight decay'in W'sidir. Bu satır farkı, sonuçta bir kuyumcunun ayar farkı gibi: kayıp aynı görünür ama eğitim eğrisi farklı yere gider.
Etki — ne kadar değişti?
Loshchilov ve Hutter makalede gösterdi: aynı modelle aynı hiper-parametrelerle AdamW Adam'dan sürekli daha iyi. CIFAR-10 test hatasında ~%5 azalma. ImageNet'te de benzer.
Ama asıl etki LLM dünyasında:
- GPT-2 (2019): AdamW
- GPT-3 (2020): AdamW, — sektör standardı
- Llama, Mistral, Claude, Gemini: Hep AdamW
Adam ile eğitilen bir LLM gözle görülür biçimde daha kötü sonuç verir. Bu, 2017'de bir makale farklı bir alan icat etmedi, sadece düzeltme yaptı ama o düzeltme tüm endüstrinin standardını belirledi.
Bellek maliyeti
AdamW'nin bedeli: parametre başına 3x bellek. Çünkü + + tutulmalı.
70B model için:
- Sadece parametreler: 140 GB (fp16)
- AdamW state: 280 GB
- Gradyanlar: 140 GB
- Toplam: ~560 GB
Bir H100 GPU'nun bellek toplamı: 80 GB. Yani 70B modeli AdamW ile eğitmek için 8 H100 paralel + ZeRO/FSDP gibi optimizasyon gerek.
Modern alternatifler
AdamW'nin tahta kazınmışlığını kıran yok ama denenenler var:
- Lion (Google, 2023): Adam'ın "sign-only" varyantı. AdamW'den biraz daha hızlı ama hassas hiper-parametre.
- Adafactor (Google, 2018): Faktörize varyans tutucu; bellek yerine . PaLM, T5 kullandı.
- Shampoo (Google, 2018): İkinci derece bilgi (eğriyi de gör). Pahalı ama bazı görevlerde üstün.
2024-2025 araştırmalarında AdamW hâlâ baseline. Yeni bir optimizer üstün olmasına rağmen "AdamW'den şu kadar iyi" diye karşılaştırılır.
Sade ders
AdamW hikâyesinden iki şey:
- Küçük düzeltmeler büyük etki yapabilir. Bir satırlık değişiklik tüm endüstrinin standardını belirledi.
- Akademik dikkat değerlidir. Loshchilov ve Hutter Adam ile L2 regularization arasındaki görünmez uyumsuzluğu fark etti. Çoğu mühendis bunu görmedi.
Bağlam
Gradient descent için: [[gradient-descent-egim-inisi]] (varsa), [[geri-yayilim-backpropagation]]. Momentum ve adaptive optimizasyon için: [[sgd-adam-momentum-optimizasyon]]. Eğitim altyapısı için: [[ddp-fsdp-dagitik-egitim]]. LLM eğitiminin diğer ana bileşeni: [[chinchilla-yasalari-veri-parametre]] (varsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Adam optimizer neyi takip eder?
2. AdamW'nin Adam'dan farkı nedir?
3. AdamW'nin bellek maliyeti nedir?
4. Hangi modeller AdamW kullanır?
5. Lion ve Adafactor nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?