RMSNorm: LayerNorm'un Daha Hızlı Kardeşi
2019'da bir makale, LayerNorm'un yarısını kullanmadan aynı sonucu aldığını gösterdi. Llama, Mistral, Gemma bu farkı standart yaptı.

"Daha az" yapmak mümkün
LayerNorm, transformer'ın temel bileşenlerinden biri. 2016'da Ba, Kiros ve Hinton tarafından önerildi. Standart formül:
Burada:
- : ortalama
- : standart sapma
- : öğrenilen ölçek ve kaydırma
Sezgi: her vektörü "ortala ve normalize et", sonra modeli istediği şekilde geri esnetsin.
"Ortala" gerek mi?
2019'da Biao Zhang ve Rico Sennrich (Edinburgh Üniversitesi) bir soru sordular:
"Ortalama çıkarma adımı gerçekten gerek mi?"
Test ettiler. Cevap: hayır. RMSNorm'u önerdiler:
Yani: sadece karelerin ortalamasının karekökü (RMS = Root Mean Square) ile bölme. Ortalama hesaplamak yok, parametre yok.
Sonuç: aynı kalite, %7-64 daha hızlı.
Niye işe yarar
LayerNorm'un asıl etkisi gradient akışını stabilize etmek. Bunun için:
- Ortalama çıkarma: Aktivasyonları merkeze çek.
- Varyans ile bölme: Büyüklüğünü kontrol et.
İkinci adım birinciyi büyük ölçüde tutarlı kılıyor. Eğer ortalama zaten küçükse (çoğu sinir ağında öyle), çıkarmak fark yaratmıyor.
Ablation çalışmaları: LayerNorm'un performansının %90'ı sadece varyans normalizasyonundan, %10'u ortalama çıkarmasından gelir. Buna karşılık ortalama çıkarma iki kat hesap gerektirir.
Endüstri benimsemesi
RMSNorm 2019'da yayımlandı ama 2022'ye kadar görmezden gelindi. Sonra:
- LLaMA (2023): Meta'nın modeli RMSNorm kullandı. Bu önemli bir referans.
- Llama 2, Llama 3: Hep RMSNorm.
- Mistral, Mixtral: RMSNorm.
- Gemma: RMSNorm.
- DeepSeek: RMSNorm.
Yani: modern açık LLM'lerin tamamı RMSNorm.
GPT-3 ve GPT-4 LayerNorm kullanır (eski varsayım). Yeni eğitilen modeller hep RMSNorm'a geçti.
Bellek ve hız etkisi
70B model için:
- LayerNorm parametre sayısı: ~250K (her katman için 2 parametre × dim).
- RMSNorm: ~125K (her katman için 1 parametre × dim).
Fark küçük gibi ama:
- Eğitim hızı: %3-5.
- Çıkarım hızı: %2-4.
- Bellek: %0.5.
Tek tek küçük ama trilyon parametrelik model çağında toplam tasarruf büyük.
Pre-norm vs Post-norm
RMSNorm tartışması ile beraber normalizasyon yeri sorusu da revize edildi:
- Post-norm: Orijinal transformer. Residual'dan sonra normalize.
- Pre-norm: Residual'dan önce normalize. Eğitim daha stabil.
GPT-2 ve sonrası pre-norm kullanır. RMSNorm + pre-norm modern standardın iki ayağı.
Klasik benzetme
Bir orkestra şefi düşün. Eski yöntem (LayerNorm): önce sesleri ortalayan bir kalibratör, sonra eşitleyen bir kompresör. İki cihaz.
Yeni yöntem (RMSNorm): sadece kompresör. Sesler zaten yaklaşık ortalanmış olduğu için kalibratör gereksiz. Aynı sonuç, daha az ekipman.
Sade ders
RMSNorm hikâyesinden iki şey:
- Sadeleştirme bir yetenektir. LayerNorm 3 yıl boyunca standartdı. Birinin "ortalama gerek mi?" sorusu tüm endüstriyi değiştirdi.
- Akademik fikirler hemen kabul edilmez. RMSNorm 2019'da yayımlandı, 2023'te Llama ile yaygınlaştı. 4 yıllık gecikme. Akademik makale ile endüstri benimsemesi arasındaki tipik gap.
Bağlam
LayerNorm için: [[batch-normalization-derin-aglarin-sessiz-katalizoru]] (Batch Norm ve LayerNorm). Transformer için: [[transformer-attention-is-all-you-need]]. Llama mimarisi için: [[lora-buyuk-modeli-tek-gpu-da-fine-tune-etmek]] ve [[rope-rotary-position-embedding-transformer-in-pozisyon-dilini]]. Modern LLM bileşenleri için: [[kv-cache-llm-belleginin-sessiz-darbogazi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. RMSNorm LayerNorm'dan ne ile ayrılır?
2. Niye işe yarar?
3. Hangi modeller RMSNorm kullanır?
4. RMSNorm hız avantajı ne kadar?
5. Pre-norm nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?