Tüm yazılar
Matematik30 Ağustos 2025

Mixture of Experts (MoE): Geniş Modeli Seçici Olarak Çalıştırmak

Klasik sinir ağı her sorgu için **tüm parametreleri** kullanır. MoE'de model **uzmanlara** bölünür. Bir sorgu için sadece **bazı uzmanlar** aktif. Sonuç: çok büyük model, çok hızlı çalışma. GPT-4, Mixtral, DeepSeek'in mimarisi.

Matematik Karavanı Editörü 4 dk okuma 5 soru
Toplantı — uzmanların seçici çağırılması metaforu

"Bir doktora sormak yerine 100 uzmana"

Klasik LLM'de tüm 100 milyar parametre her sorgu için kullanılır. Bu çok pahalı.

MoE (Mixture of Experts) farklı yaklaşım:

  • Model N tane uzman içerir (her uzman bir feedforward layer).
  • Her sorgu için gating ağı hangi uzmanların kullanılacağını seçer.
  • Genelde sadece 2-4 uzman aktif (top-k).

Sonuç: toplam parametre büyük (büyük model), aktif parametre küçük (hızlı çalışma).

Resmi tanım

Token xx için:

y=i=1Ngi(x)Ei(x)y = \sum_{i=1}^N g_i(x) \cdot E_i(x)

gi(x)g_i(x) = gating fonksiyonu (softmax).
Ei(x)E_i(x) = ii-inci uzmanın çıktısı.

Sparse versiyonda: gi(x)g_i(x) çoğu zaman 0.

Niçin işe yarıyor?

  • Kapasite: çok parametre = çok bilgi.
  • Hız: az aktif parametre = hızlı.
  • Uzmanlaşma: her uzman belli konuya odaklanır.
  • Verimlilik: GPU bellek yönetimi daha kolay.

Tarihsel köken

  • 1991: Jacobs, Jordan, Nowlan, Hinton — orijinal MoE.
  • 2017: Noam Shazeer (Google) — "Outrageously Large Neural Networks". Modern sparse MoE.
  • Switch Transformer (2021, Google).
  • Mixtral 8x7B (2024, Mistral AI) — açık kaynak.
  • GPT-4 (2023): MoE olduğu söyleniyor.
  • DeepSeek-V3 (2024) — 671B parametre, 37B aktif.

Modern uygulamalar

Mixtral

Mistral AI'in açık kaynak modeli. 8 uzman, top-2 routing. Modern açık kaynak standardı.

DeepSeek

Çinli AI şirketi. Yüksek verimli MoE modeller.

GPT-4

Resmi olmasa da MoE olduğu kanıtlanmış. Modern Frontier model.

Qwen

Alibaba'nın MoE serisi.

Grok (xAI)

Musk'ın AI şirketi de MoE.

Eğitim sorunları

MoE eğitimi zor:

Load balancing

Bazı uzmanlar çok kullanılır, diğerleri az. Load balancing loss eklenir.

Gating instability

Gating ağı kararsız olabilir. Modern teknikler: soft routing, expert choice.

Communication overhead

Dağıtık eğitimde uzmanlar farklı GPU'lar. All-to-all iletişim pahalı.

Modern teknikler

Switch Transformer

Tek uzman aktif (k=1). Maksimum sparsity.

GShard

Dağıtık MoE eğitimi.

Expert Choice

Uzman kendisi hangi token'ları işleyeceğini seçer.

Mixture of LoRAs

Modern düşük rank adaptasyonlu MoE.

Sınırlamalar

  • Bellek: tüm uzmanlar GPU'da olmalı.
  • Yüklenme: gating doğru çalışmazsa kalite düşer.
  • Eğitim zorluk: dense modellerden daha kompleks.
  • Inference: batch size küçük olunca verim düşük.

Modern alanlar

  • Conditional computation: koşullu hesaplama paradigması.
  • Routing improvements: daha akıllı yönlendirme.
  • Multi-modal MoE: farklı modaliteler için.
  • Hierarchical MoE: uzman uzmanları.

Sonuç

Mixture of Experts:

  • Seçici aktifleşen büyük modeller.
  • 1991 Jacobs et al. + 2017 Shazeer modernleştirme.
  • Mixtral, GPT-4, DeepSeek modern uygulamalar.
  • Kapasite vs verimlilik takasının çözümü.

Modern AI ölçeklendirmesinin temel tekniği. Trilyon parametreli modeller için vazgeçilmez.

"Büyük model + seçici aktivasyon = verimli zeka." MoE'nin paradigması.

Etiketler

MoEmixture of expertsderin öğrenmeGPT-4sparse model

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. MoE'nin temel fikri nedir?

2. Modern MoE'yi sistemleştiren kim?

3. Hangi modern modeller MoE kullanır?

4. MoE eğitiminin temel sorunu nedir?

5. DeepSeek-V3'ün parametre yapısı?