Multi-Token Prediction: DeepSeek V3'ün Eğitim Hızlandırma Fikri
Klasik LLM tek bir gelecek token tahmin eder. Multi-token prediction birkaç adım ileriyi aynı anda öğrenir — DeepSeek V3 ile sahnede.

Klasik tahmin: tek token
Standart LLM eğitiminde her pozisyonda model bir sonraki tek tokeni tahmin eder:
Bu causal language modeling denir. Basit, çalışıyor — ama bilgi yoğun değil. Model uzun planlama yerine kısa görüşlü olabilir.
MTP fikri
Multi-Token Prediction (MTP): aynı pozisyondan adım ileri birden tahmin et:
Yani model her adımda 5-10 token sonrasının dağılımını tahmin etmeyi de öğrenir.
Neden işe yarıyor?
- Daha zengin sinyal: tek token yerine birkaç token öğretmen sinyali → her örnek daha verimli.
- Uzun vadeli planlama: model "gelecek 5 token nedir?" diye düşünmek zorunda → daha tutarlı.
- Inference hızlanması: birkaç token aynı anda üretilebilir → speculative decoding doğal eşi.
Meta makalesi (2024)
Gloeckle et al. — "Better & Faster Large Language Models via Multi-token Prediction".
Bulgular:
- Aynı veri, aynı compute → MTP daha iyi performans.
- Özellikle kod, çeviri, matematik görevlerinde belirgin kazanım.
- 13B+ modellerde fark netleşiyor (küçüklerde sınırlı).
DeepSeek V3 (Aralık 2024)
DeepSeek V3 (671B parametre, ~37B aktif MoE) MTP'yi standart eğitim hedefi olarak kullandı.
Mimari detay:
- Ana model her pozisyonda bir sonraki token tahmin eder.
- MTP modülleri: ek ince katmanlar, 2-4 token ileriyi ayrı tahmin eder.
- Eğitim sonrası MTP modülleri speculative decoding için kullanılabilir → ~2x inference hızı.
DeepSeek V3'ün 3-4 milyon GPU saat ile GPT-4 sınıfı performans çıkarmasında MTP'nin payı önemli.
Hangi mimariyle uyumlu?
- Decoder-only Transformer: doğal uyum.
- Mamba/SSM: planlanıyor, henüz ana akım değil.
- Encoder-decoder: encoder kısmı zaten görüyor, fayda sınırlı.
Hesaplama maliyeti
MTP ek başlık (head) eklenir → model parametresi artar (~%5).
Ama örnek verimliliği %30+ artabilir → toplam compute kazanımı net.
Speculative decoding ile bağlantı
Speculative decoding: küçük "draft" model birden fazla token önerir, büyük model paralel doğrular. MTP zaten draft mekanizmasını modelin içine koyuyor — extra model gerekmez.
Bu yüzden DeepSeek-V3 ve benzer modeller doğal hızlı çıkarım yaparlar.
Sınırlamalar
- Küçük modeller: 1-3B sınıfında fayda belirsiz.
- Hyperparameter zorluğu: değeri (1? 4? 8?) görev bağımlı.
- Eğitim kararsızlığı: çok uzak token tahmini gradient sinyalini sulandırabilir.
- Loss ağırlıklandırma: ana tahmin ile MTP'lerin nasıl tartılacağı önemli.
Pratik öneriler
- Ana model: tek token next-token prediction.
- tipik.
- MTP ağırlığı: 0.3-0.5 (ana göreve düşük).
- Inference: speculative decoding doğal eşi.
Kapanış
Multi-token prediction, LLM eğitiminin basit ama etkili bir iyileştirmesi. Tek hedef ekler, hem performans hem inference hızı kazanır. DeepSeek V3 ile ana akım oldu; 2025-2026'da büyük labların çoğu kullanacak.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. MTP klasik LLM eğitiminden farkı?
2. Hangi modern model MTP'yi ana eğitim hedefinde kullandı?
3. Speculative decoding ile bağlantı?
4. Hangi görevlerde MTP belirgin?
5. Sınırlaması?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?