BERT'in mimarisi nedir?

Encoder-only transformer — anlama odaklı, çift yönlü dikkat

Masked Language Modeling ne yapar?

Cümlenin %15 kelimesini maskeleyerek modele tahmin ettirir — cloze test'in otomatikleştirilmesi

BERT NLP'ye nasıl etki etti?

11 NLP benchmark'ında devlet-of-the-art; SQuAD'da insan seviyesini geçti; HuggingFace ekosistemini başlattı

BERT ile GPT arasındaki temel fark nedir?

BERT encoder-only/MLM (anlama); GPT decoder-only/causal LM (üretim)

BERT bugün hâlâ nerede kullanılır?

Modern embedding modelleri (Sentence-BERT, BGE, E5); domain-specific (BioBERT, FinBERT)

BERT: İki Yönlü Bakan Transformer'ın En Büyük Etkisi

"Pre-train + fine-tune" devrimin başlangıcı

Ekim 2018'de Google'dan Jacob Devlin ve ark. BERT (Bidirectional Encoder Representations from Transformers)'i yayımladı. Etki: o tarihteki 11 farklı NLP benchmark'ında devlet-of-the-art. Üstelik aynı modelle.

Önceki dönemde NLP'de her görev için ayrı bir model gerekiyordu. BERT bunu değiştirdi: tek model, çoklu görev. Modern NLP paradigmasının başlangıcı.

ChatGPT'den 4 yıl önce, GPT-3'ten 2 yıl önce. NLP devrimi BERT ile başladı, GPT ile yaygınlaştı.

Mimari — encoder-only transformer

Vaswani 2017 Transformer makalesinde encoder + decoder vardı. BERT sadece encoder kullandı. Sebep: BERT görevi çeviri değil, anlama. Output'a değil, temsile odaklı.

BERT-Base: 12 encoder katmanı, 768 boyut, 12 attention head, 110M parametre.
BERT-Large: 24 katman, 1024 boyut, 16 head, 340M parametre.

O zaman için "büyük" model. Bugün cep telefonu boyu.

Pre-training — iki görev

BERT'in en orijinal katkısı: kendi denetimli (self-supervised) pre-training. İki görev.

1. Masked Language Modeling (MLM)

Bir cümlenin %15 kelimesini rastgele maskele. Model bu boşlukları doldursun.

Örnek:

"Bugün hava çok [MASK]. Bu yüzden [MASK] gidiyorum."

Tahmin: "güzel" ve "parka".

Bu, bir nevi cloze test (boşluk doldurma). Çocuk eğitimi ve dil testlerinde 70 yıllık metot. BERT bunu otomatikleştirdi.

Detay: %15 mask'in %80'i [MASK], %10'u rastgele kelime, %10'u değişmez. Bu sayede model "her zaman [MASK] gelir" gibi yüzeysel bir kalıp öğrenmez.

2. Next Sentence Prediction (NSP)

İki cümle ver, model söylesin: bunlar art arda geliyor mu, yoksa rastgele eşleşmiş mi?

Bu, modelin cümle-cümle ilişkilerini öğrenmesini sağlar. Soru-cevap, çıkarım gibi görevler için kritik.

(Sonraki araştırmalar — RoBERTa, ALBERT — NSP'nin pek katkı sağlamadığını gösterdi; modern BERT türevleri sadece MLM kullanır.)

Fine-tuning — her göreve aynı model

Pre-train edilmiş BERT'i indir. Bir kısa fine-tune ile herhangi bir görev:

Sentiment analysis: BERT'in [CLS] token output'unu sınıflandırıcıya bağla.
NER: Her token output'unu etiketle (PERSON, ORG, vb.).
Soru-cevap: Paragraf + soru → BERT'in output'undan başlangıç ve bitiş pozisyonu tahmin et.
Çıkarım: İki cümle → BERT'in [CLS] → "doğru/yanlış/nötr".

Fine-tune saatlerce sürer, tek GPU yeter. Bu transfer learning NLP'yi demokratikleştirdi.

Etki — sayısal patlama

BERT yayımlandıktan sonra:

GLUE benchmark: BERT öncesi ~74. BERT sonrası ~80+. Modern modellerle ~93.
SQuAD (soru-cevap): BERT %93.2 (insan %91.2!) — bir benchmark "çözüldü" denebilir.
HuggingFace Transformers: BERT için PyTorch implementasyonu. Sonradan modern AI ekosisteminin standart kütüphanesi oldu. 100K+ GitHub stars.
BERT atıfları: 150.000+ — bilgisayar bilimi tarihinin en çok atıf alan makalelerinden.

BERT ailesi

BERT yayımlandıktan sonra Sesame Street karakterleri NLP'yi istila etti:

ELMo (2018): BERT'ten önce; bağlamsal embedding'in habercisi.
ERNIE (2019, Baidu): Bilgi grafiği entegre BERT.
RoBERTa (2019, Facebook): Daha çok veri, NSP yok. Daha iyi.
ALBERT (2019): Parametre paylaşımı — daha küçük.
DistilBERT (2019): Distillation ile küçültülmüş BERT.
DeBERTa (2021): Disentangled attention.

Çoğu Sesame Street isimli. NLP topluluğu 'nin bir esprisi.

BERT vs GPT — paradigm farkı

Aynı yıllarda OpenAI'den GPT yayımlandı. Fark önemli:

Boyut	BERT	GPT
Mimari	Encoder-only	Decoder-only
Yön	Çift yönlü	Tek yönlü (soldan sağa)
Pre-train	MLM	Causal LM (sonraki tokeni tahmin)
Asıl güç	Anlama, sınıflandırma	Üretim, generation
Modern miras	Embedding, search	ChatGPT, Claude

İki dünya 2020-2022 arasında ayrı yürüdü. Modern büyük modeller (LLaMA, GPT-4) decoder-only kazandı. Ama embedding ekosisteminde BERT türevleri hâlâ standart.

Modern miras

BERT 2018'in modeli ama hâlâ canlı:

Sentence-BERT: Embedding üretmek için BERT türevi; HuggingFace sentence-transformers kütüphanesinin temeli.
BGE, E5: Modern embedding modelleri BERT mimarisinden türev.
Domain-specific BERT'ler: BioBERT, FinBERT, LegalBERT, ClinicalBERT — her sektörde özel BERT.

Modern arama, RAG, semantik benzerlik — BERT türevlerinin altyapısında çalışır.

Sade ders

BERT hikâyesinden iki şey:

Self-supervised pre-training dünyayı değiştirdi. Etiket gerek yok, sadece bir cümleyi maskele. Bu paradigma sonradan CLIP, DINO, GPT — her şeyi etkiledi.
Encoder-only ve decoder-only farklı ekosistemler. BERT "anlama"yı yapar, GPT "üretim"i. İkisi rakip değil, tamamlayıcı.

Bağlam

Transformer için: [[transformer-attention-is-all-you-need]]. GPT karşılaştırması için: [[gpt-mimarisi-decoder-only-transformer]] (varsa). Embedding için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]], [[vektor-veritabanlari-faiss-pinecone-rag-in-omurgasi]]. Pre-training paradigması için: [[transfer-learning-onceki-modelden-baslamak]] (varsa).