Mixture of Experts (MoE): Geniş Modeli Seçici Olarak Çalıştırmak
Klasik sinir ağı her sorgu için **tüm parametreleri** kullanır. MoE'de model **uzmanlara** bölünür. Bir sorgu için sadece **bazı uzmanlar** aktif. Sonuç: çok büyük model, çok hızlı çalışma. GPT-4, Mixtral, DeepSeek'in mimarisi.

"Bir doktora sormak yerine 100 uzmana"
Klasik LLM'de tüm 100 milyar parametre her sorgu için kullanılır. Bu çok pahalı.
MoE (Mixture of Experts) farklı yaklaşım:
- Model N tane uzman içerir (her uzman bir feedforward layer).
- Her sorgu için gating ağı hangi uzmanların kullanılacağını seçer.
- Genelde sadece 2-4 uzman aktif (top-k).
Sonuç: toplam parametre büyük (büyük model), aktif parametre küçük (hızlı çalışma).
Resmi tanım
Token için:
= gating fonksiyonu (softmax).
= -inci uzmanın çıktısı.
Sparse versiyonda: çoğu zaman 0.
Niçin işe yarıyor?
- Kapasite: çok parametre = çok bilgi.
- Hız: az aktif parametre = hızlı.
- Uzmanlaşma: her uzman belli konuya odaklanır.
- Verimlilik: GPU bellek yönetimi daha kolay.
Tarihsel köken
- 1991: Jacobs, Jordan, Nowlan, Hinton — orijinal MoE.
- 2017: Noam Shazeer (Google) — "Outrageously Large Neural Networks". Modern sparse MoE.
- Switch Transformer (2021, Google).
- Mixtral 8x7B (2024, Mistral AI) — açık kaynak.
- GPT-4 (2023): MoE olduğu söyleniyor.
- DeepSeek-V3 (2024) — 671B parametre, 37B aktif.
Modern uygulamalar
Mixtral
Mistral AI'in açık kaynak modeli. 8 uzman, top-2 routing. Modern açık kaynak standardı.
DeepSeek
Çinli AI şirketi. Yüksek verimli MoE modeller.
GPT-4
Resmi olmasa da MoE olduğu kanıtlanmış. Modern Frontier model.
Qwen
Alibaba'nın MoE serisi.
Grok (xAI)
Musk'ın AI şirketi de MoE.
Eğitim sorunları
MoE eğitimi zor:
Load balancing
Bazı uzmanlar çok kullanılır, diğerleri az. Load balancing loss eklenir.
Gating instability
Gating ağı kararsız olabilir. Modern teknikler: soft routing, expert choice.
Communication overhead
Dağıtık eğitimde uzmanlar farklı GPU'lar. All-to-all iletişim pahalı.
Modern teknikler
Switch Transformer
Tek uzman aktif (k=1). Maksimum sparsity.
GShard
Dağıtık MoE eğitimi.
Expert Choice
Uzman kendisi hangi token'ları işleyeceğini seçer.
Mixture of LoRAs
Modern düşük rank adaptasyonlu MoE.
Sınırlamalar
- Bellek: tüm uzmanlar GPU'da olmalı.
- Yüklenme: gating doğru çalışmazsa kalite düşer.
- Eğitim zorluk: dense modellerden daha kompleks.
- Inference: batch size küçük olunca verim düşük.
Modern alanlar
- Conditional computation: koşullu hesaplama paradigması.
- Routing improvements: daha akıllı yönlendirme.
- Multi-modal MoE: farklı modaliteler için.
- Hierarchical MoE: uzman uzmanları.
Sonuç
Mixture of Experts:
- Seçici aktifleşen büyük modeller.
- 1991 Jacobs et al. + 2017 Shazeer modernleştirme.
- Mixtral, GPT-4, DeepSeek modern uygulamalar.
- Kapasite vs verimlilik takasının çözümü.
Modern AI ölçeklendirmesinin temel tekniği. Trilyon parametreli modeller için vazgeçilmez.
"Büyük model + seçici aktivasyon = verimli zeka." MoE'nin paradigması.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. MoE'nin temel fikri nedir?
2. Modern MoE'yi sistemleştiren kim?
3. Hangi modern modeller MoE kullanır?
4. MoE eğitiminin temel sorunu nedir?
5. DeepSeek-V3'ün parametre yapısı?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?