Tüm yazılar
Matematik25 Mayıs 2025

Encoder-Decoder: Modern NLP'nin Kuvvetlerini Ayıran Mimari

Bir taraf "anlar", diğer taraf "üretir" — bu basit ayrım çevirinin, özetlemenin ve modern AI mimarisinin temelini oluşturur.

Matematik Karavanı 6 dk okuma 5 soru
Köprü — encoder ile decoder arasındaki bilgi akışı

İş bölümü

Bir tercüman düşün. İki ayrı yetenek gerek:

  1. Anlama: Kaynak dilde cümleyi tam anla.
  2. Üretme: Hedef dilde anlamı doğru ifade et.

İnsan beyninde bu iki yetenek farklı bölgelerde. Modern sinir ağlarında da: encoder anlar, decoder üretir.

Encoder — anlama

Girdiyi alır, her tokenı vektöre çevirir. Tüm bağlamı kullanarak:

encoder:x1,x2,,xnh1,h2,,hn\text{encoder}: x_1, x_2, \ldots, x_n \to h_1, h_2, \ldots, h_n

hih_i vektörleri "i.i. token, tüm cümle bağlamında" anlamını taşır. Encoder çift yönlü çalışabilir — her token hem önceki hem sonraki tokenları görebilir.

Bu, BERT'in yaptığıdır.

Decoder — üretim

Encoder'ın çıkardığı temsile bakarak çıktı üretir. Token token:

decoder:(h1,,hn)y1,y2,,ym\text{decoder}: (h_1, \ldots, h_n) \to y_1, y_2, \ldots, y_m

Önemli fark: decoder tek yönlü. Her çıkış tokenı sadece önceki çıkışları görebilir. Geleceği görmek hile olur — eğitim sırasında causal mask uygulanır.

Bu, GPT'nin yaptığıdır (ama tek başına, encoder olmadan).

Cross-attention — köprü

Encoder ve decoder nasıl haberleşir? Cross-attention ile. Decoder, her token üretirken encoder'ın tüm temsillerine bakar.

cross-attention:query from decoder, key/value from encoder\text{cross-attention}: \text{query from decoder, key/value from encoder}

Bu mimarinin kritik parçası. Decoder "bir sonraki kelimeyi ne yazayım" sorusunu sorarken, sorduğu yer encoder'ın çıkarımıdır.

Üç mimari, üç paradigma

Modern transformer dünyasında üç mimari vardır:

1. Encoder-only (BERT)

  • Sadece encoder.
  • Görev: anlama, sınıflandırma, embedding.
  • Pre-training: masked language modeling.
  • Örnekler: BERT, RoBERTa, DeBERTa.

2. Decoder-only (GPT)

  • Sadece decoder.
  • Görev: üretim, sohbet, devam ettirme.
  • Pre-training: causal language modeling (sonraki token).
  • Örnekler: GPT-2, GPT-3, GPT-4, Llama, Claude.

3. Encoder-decoder (T5)

  • İkisi birlikte.
  • Görev: çeviri, özetleme, soru-cevap.
  • Pre-training: span masking.
  • Örnekler: T5, BART, mBART, NLLB.

Hangisi ne zaman

Görev → en iyi mimari:

GörevMimari
SınıflandırmaEncoder-only
EmbeddingEncoder-only
ÇeviriEncoder-decoder ya da Decoder-only
ÖzetlemeEncoder-decoder ya da Decoder-only
SohbetDecoder-only
Kod tamamlamaDecoder-only
Soru-cevapEncoder-decoder ya da Decoder-only

2020'lerin başında encoder-decoder her şeyde lider sayılırdı. Bugün decoder-only her şeyde rekabetçi, hatta çoğu görevde lider.

Niye decoder-only kazandı

Modern büyük modellerde decoder-only neden bu kadar yaygın? Birkaç sebep:

  1. Mimari basitlik: Tek bileşen, eğitim kolay.
  2. In-context learning: Decoder-only modeller, prompt içinde örnek vermek (few-shot) ile çok kolay görev öğrenirler.
  3. Veri verimi: Her token bir tahmin görevi — tüm token'lar eğitim sinyali verir. Encoder-decoder'da sadece maskelenen kısımlar.
  4. Ölçek: Daha basit mimari, daha büyük ölçeğe daha iyi uyum sağlıyor.

Ama bu encoder-decoder'ın ölmesi değil. Çeviri ve özetlemede hâlâ tercih edilir.

Modern karma mimariler

Sınır bulanıklaştı:

  • GLM (Tsinghua): Decoder-only ama bidirectional maskler ile.
  • UL2 (Google): Tek model, hem encoder-decoder hem decoder-only modlarında çalışır.
  • PrefixLM: Prefix'i encoder, devamı decoder gibi düşün.
  • Llama 3, Gemma: Decoder-only ama bazı özelliklerle encoder benzeri davranış.

Klasik benzetme

Üç tür tercüman düşün:

  • Encoder-only: Sadece kitap okur, içeriği zihninde tutar. Yazmaz. (BERT)
  • Decoder-only: Yarım kalmış cümleleri devam ettiren bir yazar. (GPT)
  • Encoder-decoder: Önce metin okur (encoder), sonra çeviri yazar (decoder). Klasik tercüman. (T5)

İlk ikisi tek yönlü uzman. Üçüncüsü iki ayrı beceri birlikte.

Sade ders

Encoder-decoder hikâyesinden iki şey:

  1. Mimari görevin kalbidir. Aynı transformer mantığı encoder-only, decoder-only, encoder-decoder olarak farklı görevlere uyar. Mimari seçimi görev seçimidir.
  2. "Tek model her şey için" yaklaşımı kazandı. Decoder-only her şeyi yapabilir (yeterli ölçek varsa). Bu, akademik uzmanlaşma değil, mühendislik birleşimi kazandı.

Bağlam

T5 için: [[t5-her-nlp-gorevini-metinden-metine-cevirmek]]. BERT için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]]. Seq2seq için: [[quoc-le-seq2seq-ten-vertex-ai-ye-google-un-quiet-mimari]]. Transformer için: [[transformer-attention-is-all-you-need]]. Attention için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]].

Etiketler

encoder-decoderseq2seqtransformermimariNLP

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Encoder ne yapar?

2. Decoder ne yapar?

3. Cross-attention nedir?

4. Decoder-only neden modern modellerde kazandı?

5. Hangi görev hâlâ encoder-decoder tercih eder?