Aktivasyon fonksiyonu neden gerek?

Doğrusal olmama (non-linearity) — yoksa derin ağ tek bir lineer modele indirgenir

ReLU'nun sigmoid'e göre avantajı nedir?

Vanishing gradient yok, hesap ucuz; derin ağ eğitimini pratikleştirdi

GELU'nun ReLU'dan farkı nedir?

Düz kesme yerine yumuşak kesme — Gaussian CDF ile ölçekli x

İki paralel lineer; birini Swish ile aktive et, diğeriyle çarp — gated mekanizma

SwiGLU'nun bedeli nedir?

1.5x daha çok parametre; modeller gizli boyutu küçülterek telafi eder

Aktivasyon Fonksiyonları: ReLU'dan SwiGLU'ya Evrim

Niye gerek?

Bir sinir ağı katmanı: $y = Wx + b$ . Lineer. Birkaç tane üst üste koy: hâlâ lineer (matris çarpımları başka bir matris).

Lineer model = polinom yok, eğri yok, ezberlemek dışında anlamlı yetenek yok.

Çözüm: katmanlar arasına doğrusal olmayan bir fonksiyon koy. Buna aktivasyon fonksiyonu denir. Bu olmadan derin öğrenme imkansız.

Eski nesil: Sigmoid ve tanh

Sigmoid

\sigma(x) = \frac{1}{1 + e^{-x}}

Çıkış: $(0, 1)$ . Olasılık gibi.

Tanh

\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}

Çıkış: $(-1, 1)$ . Sıfır merkezi.

İkisi de 1980-2010 arası standartdı. Sorunlar:

Vanishing gradient: $|x|$ büyüdüğünde gradient sıfıra gider. Derin ağ eğitilemez.
Hesap pahalı: Üstel hesap.

ReLU — devrim

2010'da Nair ve Hinton Rectified Linear Unit (ReLU) önerdi:

\text{ReLU}(x) = \max(0, x)

Çok sade. Pozitifsa kendisi, negatifse sıfır. Üstel yok, vanishing gradient yok.

ReLU sayesinde derin ağ eğitimi pratikleşti. AlexNet (2012) ReLU kullandı. 10 yıllık standart oldu.

Sorunlar

Ölü ReLU: Negatif giriş alan nöronlar hiç güncellenmez. Eğitim sürecinde "ölür".
Sıfır merkezi değil: Tüm çıktılar pozitif.

Leaky ReLU, PReLU, ELU

Ölü ReLU problemini çözmek için varyantlar:

Leaky ReLU (2013)

\text{LReLU}(x) = \max(0.01 x, x)

Negatif tarafta küçük bir eğim. Nöronlar ölmez.

PReLU (He Kaiming, 2015)

\text{PReLU}(x) = \max(\alpha x, x)

$\alpha$ öğrenilen parametre. ImageNet'te ResNet'e başarı.

ELU

\text{ELU}(x) = \begin{cases} x & x > 0 \\ \alpha (e^x - 1) & x \leq 0 \end{cases}

Negatif tarafta üstel düşüş; sıfır merkezi.

Bunların hepsi marjinal iyileşmeler.

GELU — transformer çağı

2016'da Hendrycks ve Gimpel Gaussian Error Linear Unit (GELU)'yu önerdi:

\text{GELU}(x) = x \cdot \Phi(x)

$\Phi$ standart normal CDF. Sezgi: ReLU'nun "düz kesme" yerine "yumuşak kesme".

Pratikte: yaklaşık formül kullanılır:

\text{GELU}(x) \approx 0.5 x \left(1 + \tanh\left(\sqrt{2/\pi} (x + 0.044715 x^3)\right)\right)

GELU BERT ve GPT-2'de standart kullanıldı. Modern transformer'ların temel aktivasyonu oldu.

Swish/SiLU

2017'de Google Swish önerdi (sonra SiLU olarak yeniden adlandırıldı):

\text{SiLU}(x) = x \cdot \sigma(x) = \frac{x}{1 + e^{-x}}

GELU'ya çok benzer. Pratik fark az.

EfficientNet, Llama bu kullanır.

SwiGLU — modern LLM standardı

2020'de Shazeer GLU varyantları üzerine bir tablo yazdı. Çıkan kazanan: SwiGLU:

\text{SwiGLU}(x) = \text{Swish}(xW_1) \odot (xW_2)

Yani: girişi iki paralel lineer dönüşümle geçir. Birini Swish ile aktive et, diğerini değil. Element-wise çarp.

Bu gated mekanizma LSTM'in gate fikrinden gelir. Bilgi geçişini kontrol eder.

Llama 2/3, Mistral, Gemma, DeepSeek — modern LLM'lerin tamamı SwiGLU kullanır.

Bedeli

SwiGLU iki paralel lineer gerek: 1.5x daha çok parametre. Modeller bunu telafi etmek için gizli boyutu küçültür:

LLaMA: $d_{ff} = 8/3 \cdot d_{model}$ (klasik 4× yerine).

Toplam parametre aynı, kalite biraz daha iyi.

"Aktivasyon evrimi"

Aktivasyon tarihinin özeti:

Dönem	Standart	Sebep
1980s	Sigmoid	İlk biyolojik ilham
1990s	Tanh	Sıfır merkezi
2010-2017	ReLU	Hızlı, vanishing yok
2017-2020	GELU	Yumuşak kesme
2020+	SwiGLU	Gated, LLM standardı

40 yıllık evrim. Her seferinde bir önceki sürümün eksikliklerini kapatma.

Niye küçük detay büyük etki yapar

Aktivasyon fonksiyonu her katmanda kullanılır. 100 katmanlı bir transformer'da 100 kez. Tek tek %1 iyileşme, toplamda dramatik olabilir.

Bu yüzden büyük laboratuvarlar aktivasyon seçimine ciddi yatırım yapar. Sade matematik, uzun vadeli kazanç.

Sade ders

Aktivasyon hikâyesinden iki şey:

Mikro değişiklik makro etki yapar. Aktivasyon fonksiyonu modelin %0.001'i. Ama doğru seçim birkaç yüzde puan kalite kazandırır.
Sade fikirler yaşar. ReLU 10 yıl standartdı. SwiGLU bugün standardı. Önemli olan sezgisel matematik — karmaşık fikirler genelde değil.

Bağlam

ResNet için: [[resnet-derin-aglari-egitebilen-residual-fikri]]. Modern LLM mimari için: [[rmsnorm-layernorm-un-daha-hizli-kardeshi]], [[rope-rotary-position-embedding-transformer-in-pozisyon-dilini]]. Hinton ve ReLU için: [[geoffrey-hinton-derin-ogrenmenin-baba-figuru]]. AdamW ile optimize için: [[adamw-modern-llm-egitimlerinin-tek-optimizatoru]].