Girdiyi anlam vektörlerine çevirir — çift yönlü, tüm bağlam

Çıkışı token token üretir — tek yönlü, causal mask

Cross-attention nedir?

Decoder'ın encoder temsillerine bakması — query decoder'dan, key/value encoder'dan

Decoder-only neden modern modellerde kazandı?

Basit mimari, in-context learning, daha iyi veri verimi, ölçeklenebilirlik

Hangi görev hâlâ encoder-decoder tercih eder?

Çeviri ve özetleme — NLLB, mBART hâlâ encoder-decoder

Encoder-Decoder: Modern NLP'nin Kuvvetlerini Ayıran Mimari

İş bölümü

Bir tercüman düşün. İki ayrı yetenek gerek:

Anlama: Kaynak dilde cümleyi tam anla.
Üretme: Hedef dilde anlamı doğru ifade et.

İnsan beyninde bu iki yetenek farklı bölgelerde. Modern sinir ağlarında da: encoder anlar, decoder üretir.

Encoder — anlama

Girdiyi alır, her tokenı vektöre çevirir. Tüm bağlamı kullanarak:

\text{encoder}: x_1, x_2, \ldots, x_n \to h_1, h_2, \ldots, h_n

$h_i$ vektörleri " $i.$ token, tüm cümle bağlamında" anlamını taşır. Encoder çift yönlü çalışabilir — her token hem önceki hem sonraki tokenları görebilir.

Bu, BERT'in yaptığıdır.

Decoder — üretim

Encoder'ın çıkardığı temsile bakarak çıktı üretir. Token token:

\text{decoder}: (h_1, \ldots, h_n) \to y_1, y_2, \ldots, y_m

Önemli fark: decoder tek yönlü. Her çıkış tokenı sadece önceki çıkışları görebilir. Geleceği görmek hile olur — eğitim sırasında causal mask uygulanır.

Bu, GPT'nin yaptığıdır (ama tek başına, encoder olmadan).

Cross-attention — köprü

Encoder ve decoder nasıl haberleşir? Cross-attention ile. Decoder, her token üretirken encoder'ın tüm temsillerine bakar.

\text{cross-attention}: \text{query from decoder, key/value from encoder}

Bu mimarinin kritik parçası. Decoder "bir sonraki kelimeyi ne yazayım" sorusunu sorarken, sorduğu yer encoder'ın çıkarımıdır.

Üç mimari, üç paradigma

Modern transformer dünyasında üç mimari vardır:

1. Encoder-only (BERT)

Sadece encoder.
Görev: anlama, sınıflandırma, embedding.
Pre-training: masked language modeling.
Örnekler: BERT, RoBERTa, DeBERTa.

2. Decoder-only (GPT)

Sadece decoder.
Görev: üretim, sohbet, devam ettirme.
Pre-training: causal language modeling (sonraki token).
Örnekler: GPT-2, GPT-3, GPT-4, Llama, Claude.

3. Encoder-decoder (T5)

İkisi birlikte.
Görev: çeviri, özetleme, soru-cevap.
Pre-training: span masking.
Örnekler: T5, BART, mBART, NLLB.

Hangisi ne zaman

Görev → en iyi mimari:

Görev	Mimari
Sınıflandırma	Encoder-only
Embedding	Encoder-only
Çeviri	Encoder-decoder ya da Decoder-only
Özetleme	Encoder-decoder ya da Decoder-only
Sohbet	Decoder-only
Kod tamamlama	Decoder-only
Soru-cevap	Encoder-decoder ya da Decoder-only

2020'lerin başında encoder-decoder her şeyde lider sayılırdı. Bugün decoder-only her şeyde rekabetçi, hatta çoğu görevde lider.

Niye decoder-only kazandı

Modern büyük modellerde decoder-only neden bu kadar yaygın? Birkaç sebep:

Mimari basitlik: Tek bileşen, eğitim kolay.
In-context learning: Decoder-only modeller, prompt içinde örnek vermek (few-shot) ile çok kolay görev öğrenirler.
Veri verimi: Her token bir tahmin görevi — tüm token'lar eğitim sinyali verir. Encoder-decoder'da sadece maskelenen kısımlar.
Ölçek: Daha basit mimari, daha büyük ölçeğe daha iyi uyum sağlıyor.

Ama bu encoder-decoder'ın ölmesi değil. Çeviri ve özetlemede hâlâ tercih edilir.

Modern karma mimariler

Sınır bulanıklaştı:

GLM (Tsinghua): Decoder-only ama bidirectional maskler ile.
UL2 (Google): Tek model, hem encoder-decoder hem decoder-only modlarında çalışır.
PrefixLM: Prefix'i encoder, devamı decoder gibi düşün.
Llama 3, Gemma: Decoder-only ama bazı özelliklerle encoder benzeri davranış.

Klasik benzetme

Üç tür tercüman düşün:

Encoder-only: Sadece kitap okur, içeriği zihninde tutar. Yazmaz. (BERT)
Decoder-only: Yarım kalmış cümleleri devam ettiren bir yazar. (GPT)
Encoder-decoder: Önce metin okur (encoder), sonra çeviri yazar (decoder). Klasik tercüman. (T5)

İlk ikisi tek yönlü uzman. Üçüncüsü iki ayrı beceri birlikte.

Sade ders

Encoder-decoder hikâyesinden iki şey:

Mimari görevin kalbidir. Aynı transformer mantığı encoder-only, decoder-only, encoder-decoder olarak farklı görevlere uyar. Mimari seçimi görev seçimidir.
"Tek model her şey için" yaklaşımı kazandı. Decoder-only her şeyi yapabilir (yeterli ölçek varsa). Bu, akademik uzmanlaşma değil, mühendislik birleşimi kazandı.

Bağlam

T5 için: [[t5-her-nlp-gorevini-metinden-metine-cevirmek]]. BERT için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]]. Seq2seq için: [[quoc-le-seq2seq-ten-vertex-ai-ye-google-un-quiet-mimari]]. Transformer için: [[transformer-attention-is-all-you-need]]. Attention için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]].