RMSNorm LayerNorm'dan ne ile ayrılır?

Ortalama çıkarma adımı yok — sadece RMS (kareler ortalamasının kökü) ile bölme

LayerNorm performansının %90'ı varyans normalizasyonundan, %10'u ortalama çıkarmasından

Hangi modeller RMSNorm kullanır?

LLaMA, Llama 2/3, Mistral, Mixtral, Gemma, DeepSeek — modern açık LLM'lerin tamamı

RMSNorm hız avantajı ne kadar?

%7-64 eğitim hızı, daha az bellek; ölçek büyüdükçe toplam tasarruf önemli

Residual'dan önce normalize — GPT-2 ve sonrası standart; RMSNorm ile birlikte modern norm

RMSNorm: LayerNorm'un Daha Hızlı Kardeşi

"Daha az" yapmak mümkün

LayerNorm, transformer'ın temel bileşenlerinden biri. 2016'da Ba, Kiros ve Hinton tarafından önerildi. Standart formül:

\text{LN}(x) = \gamma \cdot \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta

Burada:

$\mu$ : ortalama
$\sigma$ : standart sapma
$\gamma, \beta$ : öğrenilen ölçek ve kaydırma

Sezgi: her vektörü "ortala ve normalize et", sonra modeli istediği şekilde geri esnetsin.

"Ortala" gerek mi?

2019'da Biao Zhang ve Rico Sennrich (Edinburgh Üniversitesi) bir soru sordular:

"Ortalama çıkarma adımı gerçekten gerek mi?"

Test ettiler. Cevap: hayır. RMSNorm'u önerdiler:

\text{RMSNorm}(x) = \gamma \cdot \frac{x}{\sqrt{\frac{1}{n}\sum_i x_i^2 + \epsilon}}

Yani: sadece karelerin ortalamasının karekökü (RMS = Root Mean Square) ile bölme. Ortalama hesaplamak yok, $\beta$ parametre yok.

Sonuç: aynı kalite, %7-64 daha hızlı.

Niye işe yarar

LayerNorm'un asıl etkisi gradient akışını stabilize etmek. Bunun için:

Ortalama çıkarma: Aktivasyonları merkeze çek.
Varyans ile bölme: Büyüklüğünü kontrol et.

İkinci adım birinciyi büyük ölçüde tutarlı kılıyor. Eğer ortalama zaten küçükse (çoğu sinir ağında öyle), çıkarmak fark yaratmıyor.

Ablation çalışmaları: LayerNorm'un performansının %90'ı sadece varyans normalizasyonundan, %10'u ortalama çıkarmasından gelir. Buna karşılık ortalama çıkarma iki kat hesap gerektirir.

Endüstri benimsemesi

RMSNorm 2019'da yayımlandı ama 2022'ye kadar görmezden gelindi. Sonra:

LLaMA (2023): Meta'nın modeli RMSNorm kullandı. Bu önemli bir referans.
Llama 2, Llama 3: Hep RMSNorm.
Mistral, Mixtral: RMSNorm.
Gemma: RMSNorm.
DeepSeek: RMSNorm.

Yani: modern açık LLM'lerin tamamı RMSNorm.

GPT-3 ve GPT-4 LayerNorm kullanır (eski varsayım). Yeni eğitilen modeller hep RMSNorm'a geçti.

Bellek ve hız etkisi

70B model için:

LayerNorm parametre sayısı: ~250K (her katman için 2 parametre × dim).
RMSNorm: ~125K (her katman için 1 parametre × dim).

Fark küçük gibi ama:

Eğitim hızı: %3-5.
Çıkarım hızı: %2-4.
Bellek: %0.5.

Tek tek küçük ama trilyon parametrelik model çağında toplam tasarruf büyük.

Pre-norm vs Post-norm

RMSNorm tartışması ile beraber normalizasyon yeri sorusu da revize edildi:

Post-norm: Orijinal transformer. Residual'dan sonra normalize.
Pre-norm: Residual'dan önce normalize. Eğitim daha stabil.

GPT-2 ve sonrası pre-norm kullanır. RMSNorm + pre-norm modern standardın iki ayağı.

Klasik benzetme

Bir orkestra şefi düşün. Eski yöntem (LayerNorm): önce sesleri ortalayan bir kalibratör, sonra eşitleyen bir kompresör. İki cihaz.

Yeni yöntem (RMSNorm): sadece kompresör. Sesler zaten yaklaşık ortalanmış olduğu için kalibratör gereksiz. Aynı sonuç, daha az ekipman.

Sade ders

RMSNorm hikâyesinden iki şey:

Sadeleştirme bir yetenektir. LayerNorm 3 yıl boyunca standartdı. Birinin "ortalama gerek mi?" sorusu tüm endüstriyi değiştirdi.
Akademik fikirler hemen kabul edilmez. RMSNorm 2019'da yayımlandı, 2023'te Llama ile yaygınlaştı. 4 yıllık gecikme. Akademik makale ile endüstri benimsemesi arasındaki tipik gap.

Bağlam

LayerNorm için: [[batch-normalization-derin-aglarin-sessiz-katalizoru]] (Batch Norm ve LayerNorm). Transformer için: [[transformer-attention-is-all-you-need]]. Llama mimarisi için: [[lora-buyuk-modeli-tek-gpu-da-fine-tune-etmek]] ve [[rope-rotary-position-embedding-transformer-in-pozisyon-dilini]]. Modern LLM bileşenleri için: [[kv-cache-llm-belleginin-sessiz-darbogazi]].

RMSNorm: LayerNorm'un Daha Hızlı Kardeşi

"Daha az" yapmak mümkün

"Ortala" gerek mi?

Niye işe yarar

Endüstri benimsemesi

Bellek ve hız etkisi

Pre-norm vs Post-norm

Klasik benzetme

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü