Tüm yazılar
Matematik31 Ocak 2025

Mixture of Depths: Modelin Bazı Tokenler İçin "Daha Az Hesaplama" Yapması

Tüm tokenler aynı derinlikte işlenmek zorunda değil. MoD, dinamik olarak hangi tokeni hangi katmanın işleyeceğine karar verir.

Matematik Karavanı 6 dk okuma 5 soru
Orman yolu — patika seçimi metaforu

"Her token aynı emek hak ediyor mu?"

Modern transformer'da her token aynı sayıda katman geçer. "the" için de, karmaşık bir matematiksel sembol için de aynı 64 katman.

Sezgi: bu savurganlık. Bazı tokenler kolay, bazıları zor. Tüm tokenlere aynı hesaplamayı vermek gereksiz.

Mixture of Depths (MoD) — DeepMind, 2024 — bu sezgiyi mimari haline getiriyor.

Mixture of Experts ile fark

MoE (Mixture of Experts): tek bir katmanda hangi uzman (FFN) çalışacak seçilir. Genişlik boyutunda seçim.

MoD: bir token o katmanı işleyecek mi atlayacak mı seçilir. Derinlik boyutunda seçim.

Hatta birleşebilirler — MoDE (MoD + MoE).

Mekanizma

Her transformer bloğunun başında bir router:

  • Token vektörünü alır.
  • Bir skor hesaplar: st=router(ht)s_t = \text{router}(h_t).
  • En yüksek skoru taşıyan top-K token bu bloktan geçer.
  • Geri kalanlar bypass (atlama) — bir sonraki bloğa direkt aktarılır.

K önceden belirlenir — örn. tokenlerin %50'si o blokta işlensin.

Matematik

Her blok \ell için bir kapasite faktörü C(0,1]C_\ell \in (0, 1]:

processed tokens at =C×L\text{processed tokens at } \ell = C_\ell \times L

Burada LL dizi uzunluğu. Çıktı:

ht+1={block(ht)if ttop-Khtotherwiseh_t^{\ell+1} = \begin{cases} \text{block}_\ell(h_t^\ell) & \text{if } t \in \text{top-}K \\ h_t^\ell & \text{otherwise} \end{cases}

Sonuçlar (DeepMind makalesi)

  • %50 kapasite ile eşit performans (FLOPs yarı yarıya).
  • Step süresi %30-50 hızlanma.
  • Önceden eğitilmiş Chinchilla-style modeller karşılaştırıldı.

Beklenmedik bulgu: doğal dilde tokenlerin çoğu kolay — Zipf yasasının yansıması olabilir.

Avantajlar

  • Compute tasarrufu: aynı kalite, daha az FLOP.
  • Adaptif: zorluğa göre derinlik.
  • Yorumlanabilirlik: hangi token "zor"? Router skorları söyler.

Zorluklar

  • Causal mask: causal modelde "top-K seç" geçmiş tokeni gelecek tokenlerin önüne koymaz mı? Çözüm: token-by-token karar (causal-friendly router).
  • Eğitim kararlılığı: router öğrenmesi hassas.
  • Inference: gerçek FLOP tasarrufu için sparse compute desteği (donanım).

Pratik kullanım

  • Production modellerde henüz nadir. DeepSeek V3, Llama 3, GPT-4 standartlaşmadı.
  • Araştırma: aktif alan; varyasyonlar her ay çıkıyor.
  • MoR (Mixture of Recursion), early-exit modelleri, CoLT5 (Confident Adaptive Language Model) — MoD ile akraba fikirler.

Hatırlanması gereken

MoD, bir fikrin uzantısı: "hesaplama bir kaynaktır, kayıplı dağıtılmalı". Her token aynı önemde değil → her token aynı hesaplama almasın.

Bu fikir muhtemelen 2025-2026 modelinde standart olacak — adı MoD olsun ya da olmasın.

DeepMind'in stratejisi

DeepMind son yıllarda verimli mimari araştırmasına ağırlık verdi:

  • Chinchilla: optimal compute.
  • Griffin: SSM + attention.
  • MoD: dinamik derinlik.
  • AlphaProof: test-time compute.

Hepsi aynı dünya: aynı parayla daha çok zekayı sıkıştır.

Kapanış

Mixture of Depths basit ama derin bir gözlemden gelir: hesaplama eşit dağıtılmamalı, hak edene gitmeli. Token kolaysa, atlat. Zorsa, derin işle. 2025'in verimlilik yarışında kritik bir araç.

Etiketler

Mixture of Depthsdinamik hesaplamatransformer verimliliğiDeepMindmodern AI

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. MoD ne yapar?

2. MoE ile farkı?

3. Hangi labın makalesi?

4. Tipik kapasite?

5. Akraba fikirler?