Bazı tokenleri katmanlardan atlatır, sadece zor tokenler tam derinlikten geçer

MoE: genişlik (hangi uzman). MoD: derinlik (katman atla/işle)

%50 — tokenlerin yarısı her bloktan geçer, yarısı atlar

Early-exit, CoLT5, MoR (Mixture of Recursion) — adaptif derinlik ailesi

Mixture of Depths: Modelin Bazı Tokenler İçin "Daha Az Hesaplama" Yapması

"Her token aynı emek hak ediyor mu?"

Modern transformer'da her token aynı sayıda katman geçer. "the" için de, karmaşık bir matematiksel sembol için de aynı 64 katman.

Sezgi: bu savurganlık. Bazı tokenler kolay, bazıları zor. Tüm tokenlere aynı hesaplamayı vermek gereksiz.

Mixture of Depths (MoD) — DeepMind, 2024 — bu sezgiyi mimari haline getiriyor.

Mixture of Experts ile fark

MoE (Mixture of Experts): tek bir katmanda hangi uzman (FFN) çalışacak seçilir. Genişlik boyutunda seçim.

MoD: bir token o katmanı işleyecek mi atlayacak mı seçilir. Derinlik boyutunda seçim.

Hatta birleşebilirler — MoDE (MoD + MoE).

Mekanizma

Her transformer bloğunun başında bir router:

Token vektörünü alır.
Bir skor hesaplar: $s_t = \text{router}(h_t)$ .
En yüksek skoru taşıyan top-K token bu bloktan geçer.
Geri kalanlar bypass (atlama) — bir sonraki bloğa direkt aktarılır.

K önceden belirlenir — örn. tokenlerin %50'si o blokta işlensin.

Matematik

Her blok $\ell$ için bir kapasite faktörü $C_\ell \in (0, 1]$ :

$\text{processed tokens at } \ell = C_\ell \times L$

Burada $L$ dizi uzunluğu. Çıktı:

$h_t^{\ell+1} = \begin{cases} \text{block}_\ell(h_t^\ell) & \text{if } t \in \text{top-}K \\ h_t^\ell & \text{otherwise} \end{cases}$

Sonuçlar (DeepMind makalesi)

%50 kapasite ile eşit performans (FLOPs yarı yarıya).
Step süresi %30-50 hızlanma.
Önceden eğitilmiş Chinchilla-style modeller karşılaştırıldı.

Beklenmedik bulgu: doğal dilde tokenlerin çoğu kolay — Zipf yasasının yansıması olabilir.

Avantajlar

Compute tasarrufu: aynı kalite, daha az FLOP.
Adaptif: zorluğa göre derinlik.
Yorumlanabilirlik: hangi token "zor"? Router skorları söyler.

Zorluklar

Causal mask: causal modelde "top-K seç" geçmiş tokeni gelecek tokenlerin önüne koymaz mı? Çözüm: token-by-token karar (causal-friendly router).
Eğitim kararlılığı: router öğrenmesi hassas.
Inference: gerçek FLOP tasarrufu için sparse compute desteği (donanım).

Pratik kullanım

Production modellerde henüz nadir. DeepSeek V3, Llama 3, GPT-4 standartlaşmadı.
Araştırma: aktif alan; varyasyonlar her ay çıkıyor.
MoR (Mixture of Recursion), early-exit modelleri, CoLT5 (Confident Adaptive Language Model) — MoD ile akraba fikirler.

Hatırlanması gereken

MoD, bir fikrin uzantısı: "hesaplama bir kaynaktır, kayıplı dağıtılmalı". Her token aynı önemde değil → her token aynı hesaplama almasın.

Bu fikir muhtemelen 2025-2026 modelinde standart olacak — adı MoD olsun ya da olmasın.

DeepMind'in stratejisi

DeepMind son yıllarda verimli mimari araştırmasına ağırlık verdi:

Chinchilla: optimal compute.
Griffin: SSM + attention.
MoD: dinamik derinlik.
AlphaProof: test-time compute.

Hepsi aynı dünya: aynı parayla daha çok zekayı sıkıştır.

Kapanış

Mixture of Depths basit ama derin bir gözlemden gelir: hesaplama eşit dağıtılmamalı, hak edene gitmeli. Token kolaysa, atlat. Zorsa, derin işle. 2025'in verimlilik yarışında kritik bir araç.