T5: Her NLP Görevini Metinden Metine Çevirmek
2019'da Google'dan çıkan, "her NLP görevi aslında metin çevirisidir" diyen radikal birleştirici çerçeve.

"Her şey metindir"
2019'a kadar her NLP görevi farklı bir yöntem gerektirirdi:
- Sınıflandırma: Metni vektöre çevir, sınıflandırıcıya bağla.
- Soru-cevap: Bağlam + soru → output pozisyonları.
- Özetleme: Encoder-decoder, seq2seq.
- Çeviri: Başka bir encoder-decoder.
Her görev farklı mimari, kayıp fonksiyonu, çıktı formatı.
Google'dan Colin Raffel ve ark. 2019'da T5 (Text-to-Text Transfer Transformer)'yi yayımladı. Ana iddia:
"Her NLP görevini 'metin → metin' olarak yeniden formüle edebiliriz. Tek model, tek mimari, tek kayıp fonksiyonu."
Birleştirici formül
Çeviri:
"translate English to German: That is good." → "Das ist gut."
Sınıflandırma (duygu analizi):
"sentiment: This movie was fantastic." → "positive"
Soru-cevap:
"question: Who is the president? context: Joe Biden is..." → "Joe Biden"
Özetleme:
"summarize: The long article goes here..." → "short summary"
Hepsi aynı encoder-decoder transformer'a giriyor. Çıkış metin. Eğitim cross-entropy kayıp.
Bu birleştirme şaşırtıcı derecede güzel çalıştı. GLUE, SuperGLUE, SQuAD, CNN/DM özetleme — hepsinde state-of-the-art.
C4 — temiz veri seti
T5 makalesinin ikinci büyük katkısı: C4 (Colossal Clean Crawled Corpus). Common Crawl'dan 750 GB temizlenmiş İngilizce metin. Filtreleme:
- Kalitesiz HTML elementleri çıkarıldı.
- Cuss filtresi.
- Tekrar eden cümleler.
- Çok kısa belgeler.
- Lorem ipsum vb.
C4 sonradan standart pre-training korpusu oldu. LLaMA, Mistral, ChatGPT — hepsi C4'ün türevi veriden eğitilmişti.
Mimari detay
T5 standart encoder-decoder transformer. Birkaç ufak fark:
- Relative position encoding: Sinüs-kosinüs yerine T5'in kendi relative bias yapısı.
- LayerNorm yeri: Pre-norm (modern standart) yerine post-norm.
- GeGLU activation: ReLU yerine.
Boyutlar:
- T5-Small: 60M
- T5-Base: 220M
- T5-Large: 770M
- T5-3B: 3B
- T5-11B: 11B (en büyük; 2019'un sayılı büyük modellerinden)
Pre-training — span masking
BERT MLM'in genelleştirilmesi: span masking. Tek kelime değil, birkaç ardışık kelime maskele. Çözüm: maskelenen tüm span'i üret.
Örnek:
"Bugün hava [X]. Bu yüzden parka gidiyorum [Y]."
[X] → "çok güzel" [Y] → "yürüyüş için"
Bu encoder-decoder paradigmasına çok uygun: encoder maskelenmiş metni okur, decoder maskelenmiş parçaları üretir.
Etki
T5 doğrudan ürün olmadı (Google asıl olarak BERT türevlerini search'te kullandı). Ama akademik etkisi büyük:
- mT5 (2020): Çok dilli T5. 101 dilde tek model.
- byT5 (2021): Token yerine byte seviyesinde T5. Tokenizer free.
- FLAN-T5 (2022): Instruction tuning ile geliştirilmiş T5. ChatGPT öncesi en güzel açık instruction model.
- UL2 (2022): T5'in encoder-decoder + decoder-only birleşmesi.
T5 fikir olarak modern GPT mimarisinin felsefi temellerinden biri. ChatGPT "her şey metin" felsefesi T5'ten gelir.
Encoder-decoder vs decoder-only — savaşı kaybetti mi?
T5 encoder-decoder. Modern büyük modeller (GPT-4, Claude, LLaMA) hep decoder-only. T5 mimarisi "kaybetti" mi?
Cevap karışık:
- Avantaj decoder-only: Daha basit, daha hızlı, in-context learning daha güçlü.
- Avantaj encoder-decoder: Belirli görevlerde (çeviri, özetleme) hâlâ rekabetçi.
Modern eğilim:
- Gemini (Google): Decoder-only ama T5 mirası iz bırakmış.
- NLLB (Meta çeviri): Hâlâ encoder-decoder.
- mBART, mT5: Çok dilli çeviri standardı.
Yani encoder-decoder ölmedi, niş uzmanlaştı.
"Birleştirme" felsefesi
T5'in derin mesajı: karmaşık görev kümelerini tek bir paradigmaya indirgeyebilirsin. Bu felsefe modern AI'ı şekillendirdi:
- Foundation models: "Pre-train + fine-tune" T5 ile başladı.
- Instruction tuning: "Her görev kendi instruction'ıyla anlatılır" T5'in uzantısı.
- Multimodal: "Her şey token" anlayışı — resim ve ses bile.
Sade ders
T5 hikâyesinden iki şey:
- Birleştirme güçlüdür. Akademik literatür bir görevi diğerinden ayrı tutmaktan zarar görür. T5 bunu kırdı — tek paradigma tüm NLP'yi kapsayabilir.
- Veri kalitesi modelden önce gelir. C4'ün ekosistemde etkisi T5 modelinin etkisinden fazla. Modern AI'da "veri ile model birlikte" ilkesinin somut örneği.
Bağlam
BERT için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]]. Transformer için: [[transformer-attention-is-all-you-need]]. Sequence-to-Sequence için: [[quoc-le-seq2seq-ten-vertex-ai-ye-google-un-quiet-mimari]]. Instruction tuning için: [[in-context-learning-llm-icin-egitim-yapmadan-ogrenme]]. Modern dil modellerinde veri için: [[chinchilla-yasalari-veri-parametre]] (varsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. T5'in temel iddiası nedir?
2. C4 nedir?
3. T5'in pre-training görevi nedir?
4. T5 encoder-decoder mimarisi modern modellerde nerede?
5. FLAN-T5 ne yapar?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?