Mixture of Depths: Modelin Bazı Tokenler İçin "Daha Az Hesaplama" Yapması
Tüm tokenler aynı derinlikte işlenmek zorunda değil. MoD, dinamik olarak hangi tokeni hangi katmanın işleyeceğine karar verir.

"Her token aynı emek hak ediyor mu?"
Modern transformer'da her token aynı sayıda katman geçer. "the" için de, karmaşık bir matematiksel sembol için de aynı 64 katman.
Sezgi: bu savurganlık. Bazı tokenler kolay, bazıları zor. Tüm tokenlere aynı hesaplamayı vermek gereksiz.
Mixture of Depths (MoD) — DeepMind, 2024 — bu sezgiyi mimari haline getiriyor.
Mixture of Experts ile fark
MoE (Mixture of Experts): tek bir katmanda hangi uzman (FFN) çalışacak seçilir. Genişlik boyutunda seçim.
MoD: bir token o katmanı işleyecek mi atlayacak mı seçilir. Derinlik boyutunda seçim.
Hatta birleşebilirler — MoDE (MoD + MoE).
Mekanizma
Her transformer bloğunun başında bir router:
- Token vektörünü alır.
- Bir skor hesaplar: .
- En yüksek skoru taşıyan top-K token bu bloktan geçer.
- Geri kalanlar bypass (atlama) — bir sonraki bloğa direkt aktarılır.
K önceden belirlenir — örn. tokenlerin %50'si o blokta işlensin.
Matematik
Her blok için bir kapasite faktörü :
Burada dizi uzunluğu. Çıktı:
Sonuçlar (DeepMind makalesi)
- %50 kapasite ile eşit performans (FLOPs yarı yarıya).
- Step süresi %30-50 hızlanma.
- Önceden eğitilmiş Chinchilla-style modeller karşılaştırıldı.
Beklenmedik bulgu: doğal dilde tokenlerin çoğu kolay — Zipf yasasının yansıması olabilir.
Avantajlar
- Compute tasarrufu: aynı kalite, daha az FLOP.
- Adaptif: zorluğa göre derinlik.
- Yorumlanabilirlik: hangi token "zor"? Router skorları söyler.
Zorluklar
- Causal mask: causal modelde "top-K seç" geçmiş tokeni gelecek tokenlerin önüne koymaz mı? Çözüm: token-by-token karar (causal-friendly router).
- Eğitim kararlılığı: router öğrenmesi hassas.
- Inference: gerçek FLOP tasarrufu için sparse compute desteği (donanım).
Pratik kullanım
- Production modellerde henüz nadir. DeepSeek V3, Llama 3, GPT-4 standartlaşmadı.
- Araştırma: aktif alan; varyasyonlar her ay çıkıyor.
- MoR (Mixture of Recursion), early-exit modelleri, CoLT5 (Confident Adaptive Language Model) — MoD ile akraba fikirler.
Hatırlanması gereken
MoD, bir fikrin uzantısı: "hesaplama bir kaynaktır, kayıplı dağıtılmalı". Her token aynı önemde değil → her token aynı hesaplama almasın.
Bu fikir muhtemelen 2025-2026 modelinde standart olacak — adı MoD olsun ya da olmasın.
DeepMind'in stratejisi
DeepMind son yıllarda verimli mimari araştırmasına ağırlık verdi:
- Chinchilla: optimal compute.
- Griffin: SSM + attention.
- MoD: dinamik derinlik.
- AlphaProof: test-time compute.
Hepsi aynı dünya: aynı parayla daha çok zekayı sıkıştır.
Kapanış
Mixture of Depths basit ama derin bir gözlemden gelir: hesaplama eşit dağıtılmamalı, hak edene gitmeli. Token kolaysa, atlat. Zorsa, derin işle. 2025'in verimlilik yarışında kritik bir araç.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. MoD ne yapar?
2. MoE ile farkı?
3. Hangi labın makalesi?
4. Tipik kapasite?
5. Akraba fikirler?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?