MTP klasik LLM eğitiminden farkı?

Tek token yerine k adım ileriyi de tahmin etmeyi öğretir

Hangi modern model MTP'yi ana eğitim hedefinde kullandı?

DeepSeek V3 (Aralık 2024, 671B MoE)

Hangi görevlerde MTP belirgin?

Kod, çeviri, matematik — uzun planlama gerektiren görevler

Küçük modellerde fayda belirsiz, k seçimi ve loss ağırlıklandırma görev bağımlı

Multi-Token Prediction: DeepSeek V3'ün Eğitim Hızlandırma Fikri

Klasik tahmin: tek token

Standart LLM eğitiminde her pozisyonda model bir sonraki tek tokeni tahmin eder:

$\mathcal{L} = -\sum_t \log p(x_{t+1} \mid x_{\le t})$

Bu causal language modeling denir. Basit, çalışıyor — ama bilgi yoğun değil. Model uzun planlama yerine kısa görüşlü olabilir.

MTP fikri

Multi-Token Prediction (MTP): aynı pozisyondan $k$ adım ileri birden tahmin et:

$\mathcal{L} = -\sum_t \sum_{i=1}^{k} \log p(x_{t+i} \mid x_{\le t})$

Yani model her adımda 5-10 token sonrasının dağılımını tahmin etmeyi de öğrenir.

Neden işe yarıyor?

Daha zengin sinyal: tek token yerine birkaç token öğretmen sinyali → her örnek daha verimli.
Uzun vadeli planlama: model "gelecek 5 token nedir?" diye düşünmek zorunda → daha tutarlı.
Inference hızlanması: birkaç token aynı anda üretilebilir → speculative decoding doğal eşi.

Meta makalesi (2024)

Gloeckle et al. — "Better & Faster Large Language Models via Multi-token Prediction".

Bulgular:

Aynı veri, aynı compute → MTP daha iyi performans.
Özellikle kod, çeviri, matematik görevlerinde belirgin kazanım.
13B+ modellerde fark netleşiyor (küçüklerde sınırlı).

DeepSeek V3 (Aralık 2024)

DeepSeek V3 (671B parametre, ~37B aktif MoE) MTP'yi standart eğitim hedefi olarak kullandı.

Mimari detay:

Ana model her pozisyonda bir sonraki token tahmin eder.
MTP modülleri: ek ince katmanlar, 2-4 token ileriyi ayrı tahmin eder.
Eğitim sonrası MTP modülleri speculative decoding için kullanılabilir → ~2x inference hızı.

DeepSeek V3'ün 3-4 milyon GPU saat ile GPT-4 sınıfı performans çıkarmasında MTP'nin payı önemli.

Hangi mimariyle uyumlu?

Decoder-only Transformer: doğal uyum.
Mamba/SSM: planlanıyor, henüz ana akım değil.
Encoder-decoder: encoder kısmı zaten görüyor, fayda sınırlı.

Hesaplama maliyeti

MTP ek başlık (head) eklenir → model parametresi artar (~%5).

Ama örnek verimliliği %30+ artabilir → toplam compute kazanımı net.

Speculative decoding ile bağlantı

Speculative decoding: küçük "draft" model birden fazla token önerir, büyük model paralel doğrular. MTP zaten draft mekanizmasını modelin içine koyuyor — extra model gerekmez.

Bu yüzden DeepSeek-V3 ve benzer modeller doğal hızlı çıkarım yaparlar.

Sınırlamalar

Küçük modeller: 1-3B sınıfında fayda belirsiz.
Hyperparameter zorluğu: $k$ değeri (1? 4? 8?) görev bağımlı.
Eğitim kararsızlığı: çok uzak token tahmini gradient sinyalini sulandırabilir.
Loss ağırlıklandırma: ana tahmin ile MTP'lerin nasıl tartılacağı önemli.

Pratik öneriler

Ana model: tek token next-token prediction.
$k=4$ tipik.
MTP ağırlığı: 0.3-0.5 (ana göreve düşük).
Inference: speculative decoding doğal eşi.

Kapanış

Multi-token prediction, LLM eğitiminin basit ama etkili bir iyileştirmesi. Tek hedef ekler, hem performans hem inference hızı kazanır. DeepSeek V3 ile ana akım oldu; 2025-2026'da büyük labların çoğu kullanacak.