MoE'nin temel fikri nedir?

Modeli uzmanlara böl; her sorgu için sadece bazı uzmanlar aktif (seçici)

Modern MoE'yi sistemleştiren kim?

Noam Shazeer (Google, 2017) — "Outrageously Large Neural Networks"

Hangi modern modeller MoE kullanır?

Mixtral, GPT-4, DeepSeek-V3, Grok, Qwen

MoE eğitiminin temel sorunu nedir?

Load balancing — bazı uzmanlar çok, diğerleri az kullanılabilir; özel loss gerekli

DeepSeek-V3'ün parametre yapısı?

671B toplam, 37B aktif — modern MoE verimlilik örneği

Mixture of Experts (MoE): Geniş Modeli Seçici Olarak Çalıştırmak

"Bir doktora sormak yerine 100 uzmana"

Klasik LLM'de tüm 100 milyar parametre her sorgu için kullanılır. Bu çok pahalı.

MoE (Mixture of Experts) farklı yaklaşım:

Model N tane uzman içerir (her uzman bir feedforward layer).
Her sorgu için gating ağı hangi uzmanların kullanılacağını seçer.
Genelde sadece 2-4 uzman aktif (top-k).

Sonuç: toplam parametre büyük (büyük model), aktif parametre küçük (hızlı çalışma).

Resmi tanım

Token $x$ için:

$y = \sum_{i=1}^N g_i(x) \cdot E_i(x)$

$g_i(x)$ = gating fonksiyonu (softmax).
$E_i(x)$ = $i$ -inci uzmanın çıktısı.

Sparse versiyonda: $g_i(x)$ çoğu zaman 0.

Niçin işe yarıyor?

Kapasite: çok parametre = çok bilgi.
Hız: az aktif parametre = hızlı.
Uzmanlaşma: her uzman belli konuya odaklanır.
Verimlilik: GPU bellek yönetimi daha kolay.

Tarihsel köken

1991: Jacobs, Jordan, Nowlan, Hinton — orijinal MoE.
2017: Noam Shazeer (Google) — "Outrageously Large Neural Networks". Modern sparse MoE.
Switch Transformer (2021, Google).
Mixtral 8x7B (2024, Mistral AI) — açık kaynak.
GPT-4 (2023): MoE olduğu söyleniyor.
DeepSeek-V3 (2024) — 671B parametre, 37B aktif.

Modern uygulamalar

Mixtral

Mistral AI'in açık kaynak modeli. 8 uzman, top-2 routing. Modern açık kaynak standardı.

DeepSeek

Çinli AI şirketi. Yüksek verimli MoE modeller.

GPT-4

Resmi olmasa da MoE olduğu kanıtlanmış. Modern Frontier model.

Qwen

Alibaba'nın MoE serisi.

Grok (xAI)

Musk'ın AI şirketi de MoE.

Eğitim sorunları

MoE eğitimi zor:

Load balancing

Bazı uzmanlar çok kullanılır, diğerleri az. Load balancing loss eklenir.

Gating instability

Gating ağı kararsız olabilir. Modern teknikler: soft routing, expert choice.

Communication overhead

Dağıtık eğitimde uzmanlar farklı GPU'lar. All-to-all iletişim pahalı.

Modern teknikler

Switch Transformer

Tek uzman aktif (k=1). Maksimum sparsity.

GShard

Dağıtık MoE eğitimi.

Expert Choice

Uzman kendisi hangi token'ları işleyeceğini seçer.

Mixture of LoRAs

Modern düşük rank adaptasyonlu MoE.

Sınırlamalar

Bellek: tüm uzmanlar GPU'da olmalı.
Yüklenme: gating doğru çalışmazsa kalite düşer.
Eğitim zorluk: dense modellerden daha kompleks.
Inference: batch size küçük olunca verim düşük.

Modern alanlar

Conditional computation: koşullu hesaplama paradigması.
Routing improvements: daha akıllı yönlendirme.
Multi-modal MoE: farklı modaliteler için.
Hierarchical MoE: uzman uzmanları.

Sonuç

Mixture of Experts:

Seçici aktifleşen büyük modeller.
1991 Jacobs et al. + 2017 Shazeer modernleştirme.
Mixtral, GPT-4, DeepSeek modern uygulamalar.
Kapasite vs verimlilik takasının çözümü.

Modern AI ölçeklendirmesinin temel tekniği. Trilyon parametreli modeller için vazgeçilmez.

"Büyük model + seçici aktivasyon = verimli zeka." MoE'nin paradigması.