Tüm yazılar
Matematik5 Mayıs 2025

Aktivasyon Fonksiyonları: ReLU'dan SwiGLU'ya Evrim

Sinir ağındaki "doğrusal olmama"yı sağlayan fonksiyonların 70 yıllık hikâyesi: Sigmoid'den modern LLM'lerin SwiGLU'suna.

Matematik Karavanı 6 dk okuma 5 soru
Açma-kapama anahtarı — ReLU'nun ikili davranışı

Niye gerek?

Bir sinir ağı katmanı: y=Wx+by = Wx + b. Lineer. Birkaç tane üst üste koy: hâlâ lineer (matris çarpımları başka bir matris).

Lineer model = polinom yok, eğri yok, ezberlemek dışında anlamlı yetenek yok.

Çözüm: katmanlar arasına doğrusal olmayan bir fonksiyon koy. Buna aktivasyon fonksiyonu denir. Bu olmadan derin öğrenme imkansız.

Eski nesil: Sigmoid ve tanh

Sigmoid

σ(x)=11+ex\sigma(x) = \frac{1}{1 + e^{-x}}

Çıkış: (0,1)(0, 1). Olasılık gibi.

Tanh

tanh(x)=exexex+ex\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}

Çıkış: (1,1)(-1, 1). Sıfır merkezi.

İkisi de 1980-2010 arası standartdı. Sorunlar:

  • Vanishing gradient: x|x| büyüdüğünde gradient sıfıra gider. Derin ağ eğitilemez.
  • Hesap pahalı: Üstel hesap.

ReLU — devrim

2010'da Nair ve Hinton Rectified Linear Unit (ReLU) önerdi:

ReLU(x)=max(0,x)\text{ReLU}(x) = \max(0, x)

Çok sade. Pozitifsa kendisi, negatifse sıfır. Üstel yok, vanishing gradient yok.

ReLU sayesinde derin ağ eğitimi pratikleşti. AlexNet (2012) ReLU kullandı. 10 yıllık standart oldu.

Sorunlar

  • Ölü ReLU: Negatif giriş alan nöronlar hiç güncellenmez. Eğitim sürecinde "ölür".
  • Sıfır merkezi değil: Tüm çıktılar pozitif.

Leaky ReLU, PReLU, ELU

Ölü ReLU problemini çözmek için varyantlar:

Leaky ReLU (2013)

LReLU(x)=max(0.01x,x)\text{LReLU}(x) = \max(0.01 x, x)

Negatif tarafta küçük bir eğim. Nöronlar ölmez.

PReLU (He Kaiming, 2015)

PReLU(x)=max(αx,x)\text{PReLU}(x) = \max(\alpha x, x)

α\alpha öğrenilen parametre. ImageNet'te ResNet'e başarı.

ELU

ELU(x)={xx>0α(ex1)x0\text{ELU}(x) = \begin{cases} x & x > 0 \\ \alpha (e^x - 1) & x \leq 0 \end{cases}

Negatif tarafta üstel düşüş; sıfır merkezi.

Bunların hepsi marjinal iyileşmeler.

GELU — transformer çağı

2016'da Hendrycks ve Gimpel Gaussian Error Linear Unit (GELU)'yu önerdi:

GELU(x)=xΦ(x)\text{GELU}(x) = x \cdot \Phi(x)

Φ\Phi standart normal CDF. Sezgi: ReLU'nun "düz kesme" yerine "yumuşak kesme".

Pratikte: yaklaşık formül kullanılır:

GELU(x)0.5x(1+tanh(2/π(x+0.044715x3)))\text{GELU}(x) \approx 0.5 x \left(1 + \tanh\left(\sqrt{2/\pi} (x + 0.044715 x^3)\right)\right)

GELU BERT ve GPT-2'de standart kullanıldı. Modern transformer'ların temel aktivasyonu oldu.

Swish/SiLU

2017'de Google Swish önerdi (sonra SiLU olarak yeniden adlandırıldı):

SiLU(x)=xσ(x)=x1+ex\text{SiLU}(x) = x \cdot \sigma(x) = \frac{x}{1 + e^{-x}}

GELU'ya çok benzer. Pratik fark az.

EfficientNet, Llama bu kullanır.

SwiGLU — modern LLM standardı

2020'de Shazeer GLU varyantları üzerine bir tablo yazdı. Çıkan kazanan: SwiGLU:

SwiGLU(x)=Swish(xW1)(xW2)\text{SwiGLU}(x) = \text{Swish}(xW_1) \odot (xW_2)

Yani: girişi iki paralel lineer dönüşümle geçir. Birini Swish ile aktive et, diğerini değil. Element-wise çarp.

Bu gated mekanizma LSTM'in gate fikrinden gelir. Bilgi geçişini kontrol eder.

Llama 2/3, Mistral, Gemma, DeepSeek — modern LLM'lerin tamamı SwiGLU kullanır.

Bedeli

SwiGLU iki paralel lineer gerek: 1.5x daha çok parametre. Modeller bunu telafi etmek için gizli boyutu küçültür:

  • LLaMA: dff=8/3dmodeld_{ff} = 8/3 \cdot d_{model} (klasik 4× yerine).

Toplam parametre aynı, kalite biraz daha iyi.

"Aktivasyon evrimi"

Aktivasyon tarihinin özeti:

DönemStandartSebep
1980sSigmoidİlk biyolojik ilham
1990sTanhSıfır merkezi
2010-2017ReLUHızlı, vanishing yok
2017-2020GELUYumuşak kesme
2020+SwiGLUGated, LLM standardı

40 yıllık evrim. Her seferinde bir önceki sürümün eksikliklerini kapatma.

Niye küçük detay büyük etki yapar

Aktivasyon fonksiyonu her katmanda kullanılır. 100 katmanlı bir transformer'da 100 kez. Tek tek %1 iyileşme, toplamda dramatik olabilir.

Bu yüzden büyük laboratuvarlar aktivasyon seçimine ciddi yatırım yapar. Sade matematik, uzun vadeli kazanç.

Sade ders

Aktivasyon hikâyesinden iki şey:

  1. Mikro değişiklik makro etki yapar. Aktivasyon fonksiyonu modelin %0.001'i. Ama doğru seçim birkaç yüzde puan kalite kazandırır.
  2. Sade fikirler yaşar. ReLU 10 yıl standartdı. SwiGLU bugün standardı. Önemli olan sezgisel matematik — karmaşık fikirler genelde değil.

Bağlam

ResNet için: [[resnet-derin-aglari-egitebilen-residual-fikri]]. Modern LLM mimari için: [[rmsnorm-layernorm-un-daha-hizli-kardeshi]], [[rope-rotary-position-embedding-transformer-in-pozisyon-dilini]]. Hinton ve ReLU için: [[geoffrey-hinton-derin-ogrenmenin-baba-figuru]]. AdamW ile optimize için: [[adamw-modern-llm-egitimlerinin-tek-optimizatoru]].

Etiketler

ReLUGELUSwiGLUaktivasyonderin öğrenme

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Aktivasyon fonksiyonu neden gerek?

2. ReLU'nun sigmoid'e göre avantajı nedir?

3. GELU'nun ReLU'dan farkı nedir?

4. SwiGLU ne yapar?

5. SwiGLU'nun bedeli nedir?