Encoder-Decoder: Modern NLP'nin Kuvvetlerini Ayıran Mimari
Bir taraf "anlar", diğer taraf "üretir" — bu basit ayrım çevirinin, özetlemenin ve modern AI mimarisinin temelini oluşturur.

İş bölümü
Bir tercüman düşün. İki ayrı yetenek gerek:
- Anlama: Kaynak dilde cümleyi tam anla.
- Üretme: Hedef dilde anlamı doğru ifade et.
İnsan beyninde bu iki yetenek farklı bölgelerde. Modern sinir ağlarında da: encoder anlar, decoder üretir.
Encoder — anlama
Girdiyi alır, her tokenı vektöre çevirir. Tüm bağlamı kullanarak:
vektörleri " token, tüm cümle bağlamında" anlamını taşır. Encoder çift yönlü çalışabilir — her token hem önceki hem sonraki tokenları görebilir.
Bu, BERT'in yaptığıdır.
Decoder — üretim
Encoder'ın çıkardığı temsile bakarak çıktı üretir. Token token:
Önemli fark: decoder tek yönlü. Her çıkış tokenı sadece önceki çıkışları görebilir. Geleceği görmek hile olur — eğitim sırasında causal mask uygulanır.
Bu, GPT'nin yaptığıdır (ama tek başına, encoder olmadan).
Cross-attention — köprü
Encoder ve decoder nasıl haberleşir? Cross-attention ile. Decoder, her token üretirken encoder'ın tüm temsillerine bakar.
Bu mimarinin kritik parçası. Decoder "bir sonraki kelimeyi ne yazayım" sorusunu sorarken, sorduğu yer encoder'ın çıkarımıdır.
Üç mimari, üç paradigma
Modern transformer dünyasında üç mimari vardır:
1. Encoder-only (BERT)
- Sadece encoder.
- Görev: anlama, sınıflandırma, embedding.
- Pre-training: masked language modeling.
- Örnekler: BERT, RoBERTa, DeBERTa.
2. Decoder-only (GPT)
- Sadece decoder.
- Görev: üretim, sohbet, devam ettirme.
- Pre-training: causal language modeling (sonraki token).
- Örnekler: GPT-2, GPT-3, GPT-4, Llama, Claude.
3. Encoder-decoder (T5)
- İkisi birlikte.
- Görev: çeviri, özetleme, soru-cevap.
- Pre-training: span masking.
- Örnekler: T5, BART, mBART, NLLB.
Hangisi ne zaman
Görev → en iyi mimari:
| Görev | Mimari |
|---|---|
| Sınıflandırma | Encoder-only |
| Embedding | Encoder-only |
| Çeviri | Encoder-decoder ya da Decoder-only |
| Özetleme | Encoder-decoder ya da Decoder-only |
| Sohbet | Decoder-only |
| Kod tamamlama | Decoder-only |
| Soru-cevap | Encoder-decoder ya da Decoder-only |
2020'lerin başında encoder-decoder her şeyde lider sayılırdı. Bugün decoder-only her şeyde rekabetçi, hatta çoğu görevde lider.
Niye decoder-only kazandı
Modern büyük modellerde decoder-only neden bu kadar yaygın? Birkaç sebep:
- Mimari basitlik: Tek bileşen, eğitim kolay.
- In-context learning: Decoder-only modeller, prompt içinde örnek vermek (few-shot) ile çok kolay görev öğrenirler.
- Veri verimi: Her token bir tahmin görevi — tüm token'lar eğitim sinyali verir. Encoder-decoder'da sadece maskelenen kısımlar.
- Ölçek: Daha basit mimari, daha büyük ölçeğe daha iyi uyum sağlıyor.
Ama bu encoder-decoder'ın ölmesi değil. Çeviri ve özetlemede hâlâ tercih edilir.
Modern karma mimariler
Sınır bulanıklaştı:
- GLM (Tsinghua): Decoder-only ama bidirectional maskler ile.
- UL2 (Google): Tek model, hem encoder-decoder hem decoder-only modlarında çalışır.
- PrefixLM: Prefix'i encoder, devamı decoder gibi düşün.
- Llama 3, Gemma: Decoder-only ama bazı özelliklerle encoder benzeri davranış.
Klasik benzetme
Üç tür tercüman düşün:
- Encoder-only: Sadece kitap okur, içeriği zihninde tutar. Yazmaz. (BERT)
- Decoder-only: Yarım kalmış cümleleri devam ettiren bir yazar. (GPT)
- Encoder-decoder: Önce metin okur (encoder), sonra çeviri yazar (decoder). Klasik tercüman. (T5)
İlk ikisi tek yönlü uzman. Üçüncüsü iki ayrı beceri birlikte.
Sade ders
Encoder-decoder hikâyesinden iki şey:
- Mimari görevin kalbidir. Aynı transformer mantığı encoder-only, decoder-only, encoder-decoder olarak farklı görevlere uyar. Mimari seçimi görev seçimidir.
- "Tek model her şey için" yaklaşımı kazandı. Decoder-only her şeyi yapabilir (yeterli ölçek varsa). Bu, akademik uzmanlaşma değil, mühendislik birleşimi kazandı.
Bağlam
T5 için: [[t5-her-nlp-gorevini-metinden-metine-cevirmek]]. BERT için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]]. Seq2seq için: [[quoc-le-seq2seq-ten-vertex-ai-ye-google-un-quiet-mimari]]. Transformer için: [[transformer-attention-is-all-you-need]]. Attention için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Encoder ne yapar?
2. Decoder ne yapar?
3. Cross-attention nedir?
4. Decoder-only neden modern modellerde kazandı?
5. Hangi görev hâlâ encoder-decoder tercih eder?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?