Tüm yazılar
Matematik27 Mayıs 2025

T5: Her NLP Görevini Metinden Metine Çevirmek

2019'da Google'dan çıkan, "her NLP görevi aslında metin çevirisidir" diyen radikal birleştirici çerçeve.

Matematik Karavanı 6 dk okuma 5 soru
Kelebek dönüşümü — metin'den metin'e transformasyon

"Her şey metindir"

2019'a kadar her NLP görevi farklı bir yöntem gerektirirdi:

  • Sınıflandırma: Metni vektöre çevir, sınıflandırıcıya bağla.
  • Soru-cevap: Bağlam + soru → output pozisyonları.
  • Özetleme: Encoder-decoder, seq2seq.
  • Çeviri: Başka bir encoder-decoder.

Her görev farklı mimari, kayıp fonksiyonu, çıktı formatı.

Google'dan Colin Raffel ve ark. 2019'da T5 (Text-to-Text Transfer Transformer)'yi yayımladı. Ana iddia:

"Her NLP görevini 'metin → metin' olarak yeniden formüle edebiliriz. Tek model, tek mimari, tek kayıp fonksiyonu."

Birleştirici formül

Çeviri:

"translate English to German: That is good." → "Das ist gut."

Sınıflandırma (duygu analizi):

"sentiment: This movie was fantastic." → "positive"

Soru-cevap:

"question: Who is the president? context: Joe Biden is..." → "Joe Biden"

Özetleme:

"summarize: The long article goes here..." → "short summary"

Hepsi aynı encoder-decoder transformer'a giriyor. Çıkış metin. Eğitim cross-entropy kayıp.

Bu birleştirme şaşırtıcı derecede güzel çalıştı. GLUE, SuperGLUE, SQuAD, CNN/DM özetleme — hepsinde state-of-the-art.

C4 — temiz veri seti

T5 makalesinin ikinci büyük katkısı: C4 (Colossal Clean Crawled Corpus). Common Crawl'dan 750 GB temizlenmiş İngilizce metin. Filtreleme:

  • Kalitesiz HTML elementleri çıkarıldı.
  • Cuss filtresi.
  • Tekrar eden cümleler.
  • Çok kısa belgeler.
  • Lorem ipsum vb.

C4 sonradan standart pre-training korpusu oldu. LLaMA, Mistral, ChatGPT — hepsi C4'ün türevi veriden eğitilmişti.

Mimari detay

T5 standart encoder-decoder transformer. Birkaç ufak fark:

  1. Relative position encoding: Sinüs-kosinüs yerine T5'in kendi relative bias yapısı.
  2. LayerNorm yeri: Pre-norm (modern standart) yerine post-norm.
  3. GeGLU activation: ReLU yerine.

Boyutlar:

  • T5-Small: 60M
  • T5-Base: 220M
  • T5-Large: 770M
  • T5-3B: 3B
  • T5-11B: 11B (en büyük; 2019'un sayılı büyük modellerinden)

Pre-training — span masking

BERT MLM'in genelleştirilmesi: span masking. Tek kelime değil, birkaç ardışık kelime maskele. Çözüm: maskelenen tüm span'i üret.

Örnek:

"Bugün hava [X]. Bu yüzden parka gidiyorum [Y]."
[X] → "çok güzel" [Y] → "yürüyüş için"

Bu encoder-decoder paradigmasına çok uygun: encoder maskelenmiş metni okur, decoder maskelenmiş parçaları üretir.

Etki

T5 doğrudan ürün olmadı (Google asıl olarak BERT türevlerini search'te kullandı). Ama akademik etkisi büyük:

  • mT5 (2020): Çok dilli T5. 101 dilde tek model.
  • byT5 (2021): Token yerine byte seviyesinde T5. Tokenizer free.
  • FLAN-T5 (2022): Instruction tuning ile geliştirilmiş T5. ChatGPT öncesi en güzel açık instruction model.
  • UL2 (2022): T5'in encoder-decoder + decoder-only birleşmesi.

T5 fikir olarak modern GPT mimarisinin felsefi temellerinden biri. ChatGPT "her şey metin" felsefesi T5'ten gelir.

Encoder-decoder vs decoder-only — savaşı kaybetti mi?

T5 encoder-decoder. Modern büyük modeller (GPT-4, Claude, LLaMA) hep decoder-only. T5 mimarisi "kaybetti" mi?

Cevap karışık:

  • Avantaj decoder-only: Daha basit, daha hızlı, in-context learning daha güçlü.
  • Avantaj encoder-decoder: Belirli görevlerde (çeviri, özetleme) hâlâ rekabetçi.

Modern eğilim:

  • Gemini (Google): Decoder-only ama T5 mirası iz bırakmış.
  • NLLB (Meta çeviri): Hâlâ encoder-decoder.
  • mBART, mT5: Çok dilli çeviri standardı.

Yani encoder-decoder ölmedi, niş uzmanlaştı.

"Birleştirme" felsefesi

T5'in derin mesajı: karmaşık görev kümelerini tek bir paradigmaya indirgeyebilirsin. Bu felsefe modern AI'ı şekillendirdi:

  • Foundation models: "Pre-train + fine-tune" T5 ile başladı.
  • Instruction tuning: "Her görev kendi instruction'ıyla anlatılır" T5'in uzantısı.
  • Multimodal: "Her şey token" anlayışı — resim ve ses bile.

Sade ders

T5 hikâyesinden iki şey:

  1. Birleştirme güçlüdür. Akademik literatür bir görevi diğerinden ayrı tutmaktan zarar görür. T5 bunu kırdı — tek paradigma tüm NLP'yi kapsayabilir.
  2. Veri kalitesi modelden önce gelir. C4'ün ekosistemde etkisi T5 modelinin etkisinden fazla. Modern AI'da "veri ile model birlikte" ilkesinin somut örneği.

Bağlam

BERT için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]]. Transformer için: [[transformer-attention-is-all-you-need]]. Sequence-to-Sequence için: [[quoc-le-seq2seq-ten-vertex-ai-ye-google-un-quiet-mimari]]. Instruction tuning için: [[in-context-learning-llm-icin-egitim-yapmadan-ogrenme]]. Modern dil modellerinde veri için: [[chinchilla-yasalari-veri-parametre]] (varsa).

Etiketler

T5text-to-texttransformerNLPGoogle

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. T5'in temel iddiası nedir?

2. C4 nedir?

3. T5'in pre-training görevi nedir?

4. T5 encoder-decoder mimarisi modern modellerde nerede?

5. FLAN-T5 ne yapar?