Tüm yazılar
Matematik23 Mayıs 2025

RMSNorm: LayerNorm'un Daha Hızlı Kardeşi

2019'da bir makale, LayerNorm'un yarısını kullanmadan aynı sonucu aldığını gösterdi. Llama, Mistral, Gemma bu farkı standart yaptı.

Matematik Karavanı 5 dk okuma 5 soru
Sade beyaz masa — RMSNorm'un sadeleştirme felsefesi

"Daha az" yapmak mümkün

LayerNorm, transformer'ın temel bileşenlerinden biri. 2016'da Ba, Kiros ve Hinton tarafından önerildi. Standart formül:

LN(x)=γxμσ2+ϵ+β\text{LN}(x) = \gamma \cdot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta

Burada:

  • μ\mu: ortalama
  • σ\sigma: standart sapma
  • γ,β\gamma, \beta: öğrenilen ölçek ve kaydırma

Sezgi: her vektörü "ortala ve normalize et", sonra modeli istediği şekilde geri esnetsin.

"Ortala" gerek mi?

2019'da Biao Zhang ve Rico Sennrich (Edinburgh Üniversitesi) bir soru sordular:

"Ortalama çıkarma adımı gerçekten gerek mi?"

Test ettiler. Cevap: hayır. RMSNorm'u önerdiler:

RMSNorm(x)=γx1nixi2+ϵ\text{RMSNorm}(x) = \gamma \cdot \frac{x}{\sqrt{\frac{1}{n}\sum_i x_i^2 + \epsilon}}

Yani: sadece karelerin ortalamasının karekökü (RMS = Root Mean Square) ile bölme. Ortalama hesaplamak yok, β\beta parametre yok.

Sonuç: aynı kalite, %7-64 daha hızlı.

Niye işe yarar

LayerNorm'un asıl etkisi gradient akışını stabilize etmek. Bunun için:

  1. Ortalama çıkarma: Aktivasyonları merkeze çek.
  2. Varyans ile bölme: Büyüklüğünü kontrol et.

İkinci adım birinciyi büyük ölçüde tutarlı kılıyor. Eğer ortalama zaten küçükse (çoğu sinir ağında öyle), çıkarmak fark yaratmıyor.

Ablation çalışmaları: LayerNorm'un performansının %90'ı sadece varyans normalizasyonundan, %10'u ortalama çıkarmasından gelir. Buna karşılık ortalama çıkarma iki kat hesap gerektirir.

Endüstri benimsemesi

RMSNorm 2019'da yayımlandı ama 2022'ye kadar görmezden gelindi. Sonra:

  • LLaMA (2023): Meta'nın modeli RMSNorm kullandı. Bu önemli bir referans.
  • Llama 2, Llama 3: Hep RMSNorm.
  • Mistral, Mixtral: RMSNorm.
  • Gemma: RMSNorm.
  • DeepSeek: RMSNorm.

Yani: modern açık LLM'lerin tamamı RMSNorm.

GPT-3 ve GPT-4 LayerNorm kullanır (eski varsayım). Yeni eğitilen modeller hep RMSNorm'a geçti.

Bellek ve hız etkisi

70B model için:

  • LayerNorm parametre sayısı: ~250K (her katman için 2 parametre × dim).
  • RMSNorm: ~125K (her katman için 1 parametre × dim).

Fark küçük gibi ama:

  • Eğitim hızı: %3-5.
  • Çıkarım hızı: %2-4.
  • Bellek: %0.5.

Tek tek küçük ama trilyon parametrelik model çağında toplam tasarruf büyük.

Pre-norm vs Post-norm

RMSNorm tartışması ile beraber normalizasyon yeri sorusu da revize edildi:

  • Post-norm: Orijinal transformer. Residual'dan sonra normalize.
  • Pre-norm: Residual'dan önce normalize. Eğitim daha stabil.

GPT-2 ve sonrası pre-norm kullanır. RMSNorm + pre-norm modern standardın iki ayağı.

Klasik benzetme

Bir orkestra şefi düşün. Eski yöntem (LayerNorm): önce sesleri ortalayan bir kalibratör, sonra eşitleyen bir kompresör. İki cihaz.

Yeni yöntem (RMSNorm): sadece kompresör. Sesler zaten yaklaşık ortalanmış olduğu için kalibratör gereksiz. Aynı sonuç, daha az ekipman.

Sade ders

RMSNorm hikâyesinden iki şey:

  1. Sadeleştirme bir yetenektir. LayerNorm 3 yıl boyunca standartdı. Birinin "ortalama gerek mi?" sorusu tüm endüstriyi değiştirdi.
  2. Akademik fikirler hemen kabul edilmez. RMSNorm 2019'da yayımlandı, 2023'te Llama ile yaygınlaştı. 4 yıllık gecikme. Akademik makale ile endüstri benimsemesi arasındaki tipik gap.

Bağlam

LayerNorm için: [[batch-normalization-derin-aglarin-sessiz-katalizoru]] (Batch Norm ve LayerNorm). Transformer için: [[transformer-attention-is-all-you-need]]. Llama mimarisi için: [[lora-buyuk-modeli-tek-gpu-da-fine-tune-etmek]] ve [[rope-rotary-position-embedding-transformer-in-pozisyon-dilini]]. Modern LLM bileşenleri için: [[kv-cache-llm-belleginin-sessiz-darbogazi]].

Etiketler

RMSNormLayerNormnormalizasyonLLMoptimizasyon

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. RMSNorm LayerNorm'dan ne ile ayrılır?

2. Niye işe yarar?

3. Hangi modeller RMSNorm kullanır?

4. RMSNorm hız avantajı ne kadar?

5. Pre-norm nedir?