BART hangi iki mimari birleşimi?

BERT encoder (anlama) + GPT decoder (üretim) — encoder-decoder

BART'ın pre-training stratejisi nedir?

Denoising — random bozma (silme, maskeleme, karıştırma) sonra orijinali üretme

BART hangi görevde rekor kırdı?

Özetleme — CNN/DailyMail ROUGE-1 44.2

Çok dilli BART — 25 dilde özetleme + çeviri

BART modern eğilimde nerede?

Niş — decoder-only modeller (Llama) çoğu görevde geçti; ama hâlâ akademik baseline

BART: BERT'in Üretici Versiyonu, Özetleme için Tasarlanmış

BERT + GPT = BART

2019 Ekim. Facebook AI'dan Mike Lewis ve ark. BART modelini yayımladı. İsim Bidirectional and Auto-Regressive Transformers.

İlk bakışta isim BERT'e benzer. Mimari farklı:

BERT: Sadece encoder. Anlama odaklı.
GPT: Sadece decoder. Üretim odaklı.
BART: Encoder-decoder. İki dünyayı birleştirir.

Hedef: özetleme, çeviri, soru-cevap gibi giriş + çıkış olan görevlerde standart olmak.

Mimari

BART = klasik encoder-decoder transformer. T5'e benzer ama:

Encoder: BERT gibi çift yönlü.
Decoder: GPT gibi tek yönlü, otoregressif.
Cross-attention: Decoder, encoder'a bağlanır.

Boyutlar:

BART-Base: 140M parametre.
BART-Large: 400M parametre.

Bunlar 2019 ölçeğinde ortalama. Modern LLM'lerin yanında küçük.

Pre-training — "bozma + düzeltme"

BART'ın özgün katkısı: denoising autoencoder pre-training. Yani:

Bir cümle al.
Bozma: Random kelime silme, span maskeleme, cümle çevirme, doküman karıştırma.
Modele bu bozulmuş versiyonu ver.
Orijinali üretmesini iste.

5 farklı bozma kuralı denendi:

Token Masking: BERT'in kuralı (en bilinen).
Token Deletion: Maskeleme yerine sil.
Text Infilling: Birkaç token span'i tek mask token'la değiştir.
Sentence Permutation: Cümleleri karıştır.
Document Rotation: Dokümanı rastgele bir başlangıçtan başlat.

En iyisi: text infilling + sentence permutation kombinasyonu. T5'in span masking'inin akrabası.

Özetleme — etki

BART'ın özetleme performansı 2019'da rekorlar kırdı:

CNN/DailyMail: ROUGE-1 44.2 (önceki en iyi ~40).
XSum: ROUGE-1 45.1 (önceki ~42).

Bu performans BART'ı özetleme literatürünün birkaç yıl standardı yaptı. Hugging Face Transformers kütüphanesinde özetleme için varsayılan model oldu.

Çeviri

BART aynı zamanda mBART olarak çok dilli versiyona genişletildi (2020). 25 dilde özetleme + çeviri. Neural Machine Translation'ın klasik modellerinden.

mBART, Meta'nın NLLB (No Language Left Behind, 200 dilli çeviri) çalışmasının atası.

T5 ile karşılaştırma

T5 (Google, 2019) ve BART (Facebook, 2019) aynı yılda çıktı. İki paralel encoder-decoder modeli.

Özellik	T5	BART
Mimari	Encoder-decoder	Encoder-decoder
Pre-train	Span masking	Çoklu denoising
Çerçeve	Text-to-text	Doğal görev
Boyut	11B'ye kadar	400M'e kadar

T5 daha genel (her görev metin), BART daha özetleme-odaklı. İkisi de modern NLP'nin temel taşları.

Modern eğilim

Decoder-only modellerin (GPT, Llama) yükselişi BART'ı niş kıldı. Modern özetleme genelde Llama-türevi modellerle yapılıyor.

Ama BART hâlâ:

Hugging Face'te indirme sayısı yüksek.
Akademik baseline.
Düşük kaynaklı dillerde tek seçenek.

Lewis'in sonraki çalışmaları

BART'ın baş yazarı Mike Lewis, Facebook AI'da kaldı. Sonraki çalışmaları:

mBART (2020): Çok dilli.
Bot AI üretimi çalışmaları.
2024: Hâlâ Meta AI'da büyük modeller cephesinde.

Sade ders

BART hikâyesinden iki şey:

Birleşik mimari hâkimdir, ama uzmanlık değerli. BART encoder-decoder hibridi. T5 ile birlikte özetleme/çeviri için uzun yıllar standartdı. Decoder-only her şeyi yapıyor ama uzman mimariler bazı görevlerde hâlâ rekabetçi.
Pre-training tarifi modeli tanımlar. BERT MLM, GPT causal LM, BART denoising. Aynı transformer mimarisi, farklı kayıp fonksiyonları, çok farklı yetenekler. Eğitim hedefi modelin kişiliğini belirler.

Bağlam

BERT için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]]. T5 için: [[t5-her-nlp-gorevini-metinden-metine-cevirmek]]. Encoder-decoder için: [[encoder-decoder-modern-nlp-nin-kuvvetlerini-ayiran-mimari]]. Çeviri için: [[neural-machine-translation-attention]] (varsa). NLLB için: [[multilingual-ai-nllb]] (varsa).

BART: BERT'in Üretici Versiyonu, Özetleme için Tasarlanmış

BERT + GPT = BART

Mimari

Pre-training — "bozma + düzeltme"

Özetleme — etki

Çeviri

T5 ile karşılaştırma

Modern eğilim

Lewis'in sonraki çalışmaları

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü