Tüm yazılar
Matematik4 Şubat 2025

Multi-Token Prediction: DeepSeek V3'ün Eğitim Hızlandırma Fikri

Klasik LLM tek bir gelecek token tahmin eder. Multi-token prediction birkaç adım ileriyi aynı anda öğrenir — DeepSeek V3 ile sahnede.

Matematik Karavanı 6 dk okuma 5 soru
Soyut ışık çizgileri — hız ve paralel akış metaforu

Klasik tahmin: tek token

Standart LLM eğitiminde her pozisyonda model bir sonraki tek tokeni tahmin eder:

L=tlogp(xt+1xt)\mathcal{L} = -\sum_t \log p(x_{t+1} \mid x_{\le t})

Bu causal language modeling denir. Basit, çalışıyor — ama bilgi yoğun değil. Model uzun planlama yerine kısa görüşlü olabilir.

MTP fikri

Multi-Token Prediction (MTP): aynı pozisyondan kk adım ileri birden tahmin et:

L=ti=1klogp(xt+ixt)\mathcal{L} = -\sum_t \sum_{i=1}^{k} \log p(x_{t+i} \mid x_{\le t})

Yani model her adımda 5-10 token sonrasının dağılımını tahmin etmeyi de öğrenir.

Neden işe yarıyor?

  • Daha zengin sinyal: tek token yerine birkaç token öğretmen sinyali → her örnek daha verimli.
  • Uzun vadeli planlama: model "gelecek 5 token nedir?" diye düşünmek zorunda → daha tutarlı.
  • Inference hızlanması: birkaç token aynı anda üretilebilir → speculative decoding doğal eşi.

Meta makalesi (2024)

Gloeckle et al. — "Better & Faster Large Language Models via Multi-token Prediction".

Bulgular:

  • Aynı veri, aynı compute → MTP daha iyi performans.
  • Özellikle kod, çeviri, matematik görevlerinde belirgin kazanım.
  • 13B+ modellerde fark netleşiyor (küçüklerde sınırlı).

DeepSeek V3 (Aralık 2024)

DeepSeek V3 (671B parametre, ~37B aktif MoE) MTP'yi standart eğitim hedefi olarak kullandı.

Mimari detay:

  • Ana model her pozisyonda bir sonraki token tahmin eder.
  • MTP modülleri: ek ince katmanlar, 2-4 token ileriyi ayrı tahmin eder.
  • Eğitim sonrası MTP modülleri speculative decoding için kullanılabilir → ~2x inference hızı.

DeepSeek V3'ün 3-4 milyon GPU saat ile GPT-4 sınıfı performans çıkarmasında MTP'nin payı önemli.

Hangi mimariyle uyumlu?

  • Decoder-only Transformer: doğal uyum.
  • Mamba/SSM: planlanıyor, henüz ana akım değil.
  • Encoder-decoder: encoder kısmı zaten görüyor, fayda sınırlı.

Hesaplama maliyeti

MTP ek başlık (head) eklenir → model parametresi artar (~%5).

Ama örnek verimliliği %30+ artabilir → toplam compute kazanımı net.

Speculative decoding ile bağlantı

Speculative decoding: küçük "draft" model birden fazla token önerir, büyük model paralel doğrular. MTP zaten draft mekanizmasını modelin içine koyuyor — extra model gerekmez.

Bu yüzden DeepSeek-V3 ve benzer modeller doğal hızlı çıkarım yaparlar.

Sınırlamalar

  • Küçük modeller: 1-3B sınıfında fayda belirsiz.
  • Hyperparameter zorluğu: kk değeri (1? 4? 8?) görev bağımlı.
  • Eğitim kararsızlığı: çok uzak token tahmini gradient sinyalini sulandırabilir.
  • Loss ağırlıklandırma: ana tahmin ile MTP'lerin nasıl tartılacağı önemli.

Pratik öneriler

  • Ana model: tek token next-token prediction.
  • k=4k=4 tipik.
  • MTP ağırlığı: 0.3-0.5 (ana göreve düşük).
  • Inference: speculative decoding doğal eşi.

Kapanış

Multi-token prediction, LLM eğitiminin basit ama etkili bir iyileştirmesi. Tek hedef ekler, hem performans hem inference hızı kazanır. DeepSeek V3 ile ana akım oldu; 2025-2026'da büyük labların çoğu kullanacak.

Etiketler

multi-token predictionDeepSeek V3LLM eğitimispeculative decodingmodern AI

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. MTP klasik LLM eğitiminden farkı?

2. Hangi modern model MTP'yi ana eğitim hedefinde kullandı?

3. Speculative decoding ile bağlantı?

4. Hangi görevlerde MTP belirgin?

5. Sınırlaması?