Aktivasyon Fonksiyonları: ReLU'dan SwiGLU'ya Evrim
Sinir ağındaki "doğrusal olmama"yı sağlayan fonksiyonların 70 yıllık hikâyesi: Sigmoid'den modern LLM'lerin SwiGLU'suna.

Niye gerek?
Bir sinir ağı katmanı: . Lineer. Birkaç tane üst üste koy: hâlâ lineer (matris çarpımları başka bir matris).
Lineer model = polinom yok, eğri yok, ezberlemek dışında anlamlı yetenek yok.
Çözüm: katmanlar arasına doğrusal olmayan bir fonksiyon koy. Buna aktivasyon fonksiyonu denir. Bu olmadan derin öğrenme imkansız.
Eski nesil: Sigmoid ve tanh
Sigmoid
Çıkış: . Olasılık gibi.
Tanh
Çıkış: . Sıfır merkezi.
İkisi de 1980-2010 arası standartdı. Sorunlar:
- Vanishing gradient: büyüdüğünde gradient sıfıra gider. Derin ağ eğitilemez.
- Hesap pahalı: Üstel hesap.
ReLU — devrim
2010'da Nair ve Hinton Rectified Linear Unit (ReLU) önerdi:
Çok sade. Pozitifsa kendisi, negatifse sıfır. Üstel yok, vanishing gradient yok.
ReLU sayesinde derin ağ eğitimi pratikleşti. AlexNet (2012) ReLU kullandı. 10 yıllık standart oldu.
Sorunlar
- Ölü ReLU: Negatif giriş alan nöronlar hiç güncellenmez. Eğitim sürecinde "ölür".
- Sıfır merkezi değil: Tüm çıktılar pozitif.
Leaky ReLU, PReLU, ELU
Ölü ReLU problemini çözmek için varyantlar:
Leaky ReLU (2013)
Negatif tarafta küçük bir eğim. Nöronlar ölmez.
PReLU (He Kaiming, 2015)
öğrenilen parametre. ImageNet'te ResNet'e başarı.
ELU
Negatif tarafta üstel düşüş; sıfır merkezi.
Bunların hepsi marjinal iyileşmeler.
GELU — transformer çağı
2016'da Hendrycks ve Gimpel Gaussian Error Linear Unit (GELU)'yu önerdi:
standart normal CDF. Sezgi: ReLU'nun "düz kesme" yerine "yumuşak kesme".
Pratikte: yaklaşık formül kullanılır:
GELU BERT ve GPT-2'de standart kullanıldı. Modern transformer'ların temel aktivasyonu oldu.
Swish/SiLU
2017'de Google Swish önerdi (sonra SiLU olarak yeniden adlandırıldı):
GELU'ya çok benzer. Pratik fark az.
EfficientNet, Llama bu kullanır.
SwiGLU — modern LLM standardı
2020'de Shazeer GLU varyantları üzerine bir tablo yazdı. Çıkan kazanan: SwiGLU:
Yani: girişi iki paralel lineer dönüşümle geçir. Birini Swish ile aktive et, diğerini değil. Element-wise çarp.
Bu gated mekanizma LSTM'in gate fikrinden gelir. Bilgi geçişini kontrol eder.
Llama 2/3, Mistral, Gemma, DeepSeek — modern LLM'lerin tamamı SwiGLU kullanır.
Bedeli
SwiGLU iki paralel lineer gerek: 1.5x daha çok parametre. Modeller bunu telafi etmek için gizli boyutu küçültür:
- LLaMA: (klasik 4× yerine).
Toplam parametre aynı, kalite biraz daha iyi.
"Aktivasyon evrimi"
Aktivasyon tarihinin özeti:
| Dönem | Standart | Sebep |
|---|---|---|
| 1980s | Sigmoid | İlk biyolojik ilham |
| 1990s | Tanh | Sıfır merkezi |
| 2010-2017 | ReLU | Hızlı, vanishing yok |
| 2017-2020 | GELU | Yumuşak kesme |
| 2020+ | SwiGLU | Gated, LLM standardı |
40 yıllık evrim. Her seferinde bir önceki sürümün eksikliklerini kapatma.
Niye küçük detay büyük etki yapar
Aktivasyon fonksiyonu her katmanda kullanılır. 100 katmanlı bir transformer'da 100 kez. Tek tek %1 iyileşme, toplamda dramatik olabilir.
Bu yüzden büyük laboratuvarlar aktivasyon seçimine ciddi yatırım yapar. Sade matematik, uzun vadeli kazanç.
Sade ders
Aktivasyon hikâyesinden iki şey:
- Mikro değişiklik makro etki yapar. Aktivasyon fonksiyonu modelin %0.001'i. Ama doğru seçim birkaç yüzde puan kalite kazandırır.
- Sade fikirler yaşar. ReLU 10 yıl standartdı. SwiGLU bugün standardı. Önemli olan sezgisel matematik — karmaşık fikirler genelde değil.
Bağlam
ResNet için: [[resnet-derin-aglari-egitebilen-residual-fikri]]. Modern LLM mimari için: [[rmsnorm-layernorm-un-daha-hizli-kardeshi]], [[rope-rotary-position-embedding-transformer-in-pozisyon-dilini]]. Hinton ve ReLU için: [[geoffrey-hinton-derin-ogrenmenin-baba-figuru]]. AdamW ile optimize için: [[adamw-modern-llm-egitimlerinin-tek-optimizatoru]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Aktivasyon fonksiyonu neden gerek?
2. ReLU'nun sigmoid'e göre avantajı nedir?
3. GELU'nun ReLU'dan farkı nedir?
4. SwiGLU ne yapar?
5. SwiGLU'nun bedeli nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?