BART: BERT'in Üretici Versiyonu, Özetleme için Tasarlanmış
2019'da Facebook'tan çıkan, BERT'i bozma + GPT'yi düzeltme birleşimiyle özetleme dünyasının standardı oldu.

BERT + GPT = BART
2019 Ekim. Facebook AI'dan Mike Lewis ve ark. BART modelini yayımladı. İsim Bidirectional and Auto-Regressive Transformers.
İlk bakışta isim BERT'e benzer. Mimari farklı:
- BERT: Sadece encoder. Anlama odaklı.
- GPT: Sadece decoder. Üretim odaklı.
- BART: Encoder-decoder. İki dünyayı birleştirir.
Hedef: özetleme, çeviri, soru-cevap gibi giriş + çıkış olan görevlerde standart olmak.
Mimari
BART = klasik encoder-decoder transformer. T5'e benzer ama:
- Encoder: BERT gibi çift yönlü.
- Decoder: GPT gibi tek yönlü, otoregressif.
- Cross-attention: Decoder, encoder'a bağlanır.
Boyutlar:
- BART-Base: 140M parametre.
- BART-Large: 400M parametre.
Bunlar 2019 ölçeğinde ortalama. Modern LLM'lerin yanında küçük.
Pre-training — "bozma + düzeltme"
BART'ın özgün katkısı: denoising autoencoder pre-training. Yani:
- Bir cümle al.
- Bozma: Random kelime silme, span maskeleme, cümle çevirme, doküman karıştırma.
- Modele bu bozulmuş versiyonu ver.
- Orijinali üretmesini iste.
5 farklı bozma kuralı denendi:
- Token Masking: BERT'in kuralı (en bilinen).
- Token Deletion: Maskeleme yerine sil.
- Text Infilling: Birkaç token span'i tek mask token'la değiştir.
- Sentence Permutation: Cümleleri karıştır.
- Document Rotation: Dokümanı rastgele bir başlangıçtan başlat.
En iyisi: text infilling + sentence permutation kombinasyonu. T5'in span masking'inin akrabası.
Özetleme — etki
BART'ın özetleme performansı 2019'da rekorlar kırdı:
- CNN/DailyMail: ROUGE-1 44.2 (önceki en iyi ~40).
- XSum: ROUGE-1 45.1 (önceki ~42).
Bu performans BART'ı özetleme literatürünün birkaç yıl standardı yaptı. Hugging Face Transformers kütüphanesinde özetleme için varsayılan model oldu.
Çeviri
BART aynı zamanda mBART olarak çok dilli versiyona genişletildi (2020). 25 dilde özetleme + çeviri. Neural Machine Translation'ın klasik modellerinden.
mBART, Meta'nın NLLB (No Language Left Behind, 200 dilli çeviri) çalışmasının atası.
T5 ile karşılaştırma
T5 (Google, 2019) ve BART (Facebook, 2019) aynı yılda çıktı. İki paralel encoder-decoder modeli.
| Özellik | T5 | BART |
|---|---|---|
| Mimari | Encoder-decoder | Encoder-decoder |
| Pre-train | Span masking | Çoklu denoising |
| Çerçeve | Text-to-text | Doğal görev |
| Boyut | 11B'ye kadar | 400M'e kadar |
T5 daha genel (her görev metin), BART daha özetleme-odaklı. İkisi de modern NLP'nin temel taşları.
Modern eğilim
Decoder-only modellerin (GPT, Llama) yükselişi BART'ı niş kıldı. Modern özetleme genelde Llama-türevi modellerle yapılıyor.
Ama BART hâlâ:
- Hugging Face'te indirme sayısı yüksek.
- Akademik baseline.
- Düşük kaynaklı dillerde tek seçenek.
Lewis'in sonraki çalışmaları
BART'ın baş yazarı Mike Lewis, Facebook AI'da kaldı. Sonraki çalışmaları:
- mBART (2020): Çok dilli.
- Bot AI üretimi çalışmaları.
- 2024: Hâlâ Meta AI'da büyük modeller cephesinde.
Sade ders
BART hikâyesinden iki şey:
- Birleşik mimari hâkimdir, ama uzmanlık değerli. BART encoder-decoder hibridi. T5 ile birlikte özetleme/çeviri için uzun yıllar standartdı. Decoder-only her şeyi yapıyor ama uzman mimariler bazı görevlerde hâlâ rekabetçi.
- Pre-training tarifi modeli tanımlar. BERT MLM, GPT causal LM, BART denoising. Aynı transformer mimarisi, farklı kayıp fonksiyonları, çok farklı yetenekler. Eğitim hedefi modelin kişiliğini belirler.
Bağlam
BERT için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]]. T5 için: [[t5-her-nlp-gorevini-metinden-metine-cevirmek]]. Encoder-decoder için: [[encoder-decoder-modern-nlp-nin-kuvvetlerini-ayiran-mimari]]. Çeviri için: [[neural-machine-translation-attention]] (varsa). NLLB için: [[multilingual-ai-nllb]] (varsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. BART hangi iki mimari birleşimi?
2. BART'ın pre-training stratejisi nedir?
3. BART hangi görevde rekor kırdı?
4. mBART nedir?
5. BART modern eğilimde nerede?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?