T5'in temel iddiası nedir?

Her NLP görevi metin → metin formülasyonuyla aynı modelle çözülebilir

T5'in pre-training'i için kullanılan 750 GB temizlenmiş Common Crawl korpusu

T5'in pre-training görevi nedir?

Span masking — ardışık kelime grubunu maskele, decoder üretsin

T5 encoder-decoder mimarisi modern modellerde nerede?

Çeviri (NLLB, mBART) ve çok dilli görevlerde standart

Instruction tuning ile geliştirilmiş T5 — ChatGPT öncesi en güzel açık instruction model

T5: Her NLP Görevini Metinden Metine Çevirmek

"Her şey metindir"

2019'a kadar her NLP görevi farklı bir yöntem gerektirirdi:

Sınıflandırma: Metni vektöre çevir, sınıflandırıcıya bağla.
Soru-cevap: Bağlam + soru → output pozisyonları.
Özetleme: Encoder-decoder, seq2seq.
Çeviri: Başka bir encoder-decoder.

Her görev farklı mimari, kayıp fonksiyonu, çıktı formatı.

Google'dan Colin Raffel ve ark. 2019'da T5 (Text-to-Text Transfer Transformer)'yi yayımladı. Ana iddia:

"Her NLP görevini 'metin → metin' olarak yeniden formüle edebiliriz. Tek model, tek mimari, tek kayıp fonksiyonu."

Birleştirici formül

Çeviri:

"translate English to German: That is good." → "Das ist gut."

Sınıflandırma (duygu analizi):

"sentiment: This movie was fantastic." → "positive"

Soru-cevap:

"question: Who is the president? context: Joe Biden is..." → "Joe Biden"

Özetleme:

"summarize: The long article goes here..." → "short summary"

Hepsi aynı encoder-decoder transformer'a giriyor. Çıkış metin. Eğitim cross-entropy kayıp.

Bu birleştirme şaşırtıcı derecede güzel çalıştı. GLUE, SuperGLUE, SQuAD, CNN/DM özetleme — hepsinde state-of-the-art.

C4 — temiz veri seti

T5 makalesinin ikinci büyük katkısı: C4 (Colossal Clean Crawled Corpus). Common Crawl'dan 750 GB temizlenmiş İngilizce metin. Filtreleme:

Kalitesiz HTML elementleri çıkarıldı.
Cuss filtresi.
Tekrar eden cümleler.
Çok kısa belgeler.
Lorem ipsum vb.

C4 sonradan standart pre-training korpusu oldu. LLaMA, Mistral, ChatGPT — hepsi C4'ün türevi veriden eğitilmişti.

Mimari detay

T5 standart encoder-decoder transformer. Birkaç ufak fark:

Relative position encoding: Sinüs-kosinüs yerine T5'in kendi relative bias yapısı.
LayerNorm yeri: Pre-norm (modern standart) yerine post-norm.
GeGLU activation: ReLU yerine.

Boyutlar:

T5-Small: 60M
T5-Base: 220M
T5-Large: 770M
T5-3B: 3B
T5-11B: 11B (en büyük; 2019'un sayılı büyük modellerinden)

Pre-training — span masking

BERT MLM'in genelleştirilmesi: span masking. Tek kelime değil, birkaç ardışık kelime maskele. Çözüm: maskelenen tüm span'i üret.

Örnek:

"Bugün hava [X]. Bu yüzden parka gidiyorum [Y]."
[X] → "çok güzel" [Y] → "yürüyüş için"

Bu encoder-decoder paradigmasına çok uygun: encoder maskelenmiş metni okur, decoder maskelenmiş parçaları üretir.

Etki

T5 doğrudan ürün olmadı (Google asıl olarak BERT türevlerini search'te kullandı). Ama akademik etkisi büyük:

mT5 (2020): Çok dilli T5. 101 dilde tek model.
byT5 (2021): Token yerine byte seviyesinde T5. Tokenizer free.
FLAN-T5 (2022): Instruction tuning ile geliştirilmiş T5. ChatGPT öncesi en güzel açık instruction model.
UL2 (2022): T5'in encoder-decoder + decoder-only birleşmesi.

T5 fikir olarak modern GPT mimarisinin felsefi temellerinden biri. ChatGPT "her şey metin" felsefesi T5'ten gelir.

Encoder-decoder vs decoder-only — savaşı kaybetti mi?

T5 encoder-decoder. Modern büyük modeller (GPT-4, Claude, LLaMA) hep decoder-only. T5 mimarisi "kaybetti" mi?

Cevap karışık:

Avantaj decoder-only: Daha basit, daha hızlı, in-context learning daha güçlü.
Avantaj encoder-decoder: Belirli görevlerde (çeviri, özetleme) hâlâ rekabetçi.

Modern eğilim:

Gemini (Google): Decoder-only ama T5 mirası iz bırakmış.
NLLB (Meta çeviri): Hâlâ encoder-decoder.
mBART, mT5: Çok dilli çeviri standardı.

Yani encoder-decoder ölmedi, niş uzmanlaştı.

"Birleştirme" felsefesi

T5'in derin mesajı: karmaşık görev kümelerini tek bir paradigmaya indirgeyebilirsin. Bu felsefe modern AI'ı şekillendirdi:

Foundation models: "Pre-train + fine-tune" T5 ile başladı.
Instruction tuning: "Her görev kendi instruction'ıyla anlatılır" T5'in uzantısı.
Multimodal: "Her şey token" anlayışı — resim ve ses bile.

Sade ders

T5 hikâyesinden iki şey:

Birleştirme güçlüdür. Akademik literatür bir görevi diğerinden ayrı tutmaktan zarar görür. T5 bunu kırdı — tek paradigma tüm NLP'yi kapsayabilir.
Veri kalitesi modelden önce gelir. C4'ün ekosistemde etkisi T5 modelinin etkisinden fazla. Modern AI'da "veri ile model birlikte" ilkesinin somut örneği.

Bağlam

BERT için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]]. Transformer için: [[transformer-attention-is-all-you-need]]. Sequence-to-Sequence için: [[quoc-le-seq2seq-ten-vertex-ai-ye-google-un-quiet-mimari]]. Instruction tuning için: [[in-context-learning-llm-icin-egitim-yapmadan-ogrenme]]. Modern dil modellerinde veri için: [[chinchilla-yasalari-veri-parametre]] (varsa).

T5: Her NLP Görevini Metinden Metine Çevirmek

"Her şey metindir"

Birleştirici formül

C4 — temiz veri seti

Mimari detay

Pre-training — span masking

Etki

Encoder-decoder vs decoder-only — savaşı kaybetti mi?

"Birleştirme" felsefesi

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü