Tüm yazılar
Matematik29 Mayıs 2025

BERT: İki Yönlü Bakan Transformer'ın En Büyük Etkisi

2018'de Google'dan çıkan, masked language modeling ile NLP'nin tüm benchmark'larını yenilemesini sağlayan model.

Matematik Karavanı 7 dk okuma 5 soru
Boş kağıt ve kalem — BERT'in maskelenmiş kelime tahmini

"Pre-train + fine-tune" devrimin başlangıcı

Ekim 2018'de Google'dan Jacob Devlin ve ark. BERT (Bidirectional Encoder Representations from Transformers)'i yayımladı. Etki: o tarihteki 11 farklı NLP benchmark'ında devlet-of-the-art. Üstelik aynı modelle.

Önceki dönemde NLP'de her görev için ayrı bir model gerekiyordu. BERT bunu değiştirdi: tek model, çoklu görev. Modern NLP paradigmasının başlangıcı.

ChatGPT'den 4 yıl önce, GPT-3'ten 2 yıl önce. NLP devrimi BERT ile başladı, GPT ile yaygınlaştı.

Mimari — encoder-only transformer

Vaswani 2017 Transformer makalesinde encoder + decoder vardı. BERT sadece encoder kullandı. Sebep: BERT görevi çeviri değil, anlama. Output'a değil, temsile odaklı.

BERT-Base: 12 encoder katmanı, 768 boyut, 12 attention head, 110M parametre.
BERT-Large: 24 katman, 1024 boyut, 16 head, 340M parametre.

O zaman için "büyük" model. Bugün cep telefonu boyu.

Pre-training — iki görev

BERT'in en orijinal katkısı: kendi denetimli (self-supervised) pre-training. İki görev.

1. Masked Language Modeling (MLM)

Bir cümlenin %15 kelimesini rastgele maskele. Model bu boşlukları doldursun.

Örnek:

"Bugün hava çok [MASK]. Bu yüzden [MASK] gidiyorum."

Tahmin: "güzel" ve "parka".

Bu, bir nevi cloze test (boşluk doldurma). Çocuk eğitimi ve dil testlerinde 70 yıllık metot. BERT bunu otomatikleştirdi.

Detay: %15 mask'in %80'i [MASK], %10'u rastgele kelime, %10'u değişmez. Bu sayede model "her zaman [MASK] gelir" gibi yüzeysel bir kalıp öğrenmez.

2. Next Sentence Prediction (NSP)

İki cümle ver, model söylesin: bunlar art arda geliyor mu, yoksa rastgele eşleşmiş mi?

Bu, modelin cümle-cümle ilişkilerini öğrenmesini sağlar. Soru-cevap, çıkarım gibi görevler için kritik.

(Sonraki araştırmalar — RoBERTa, ALBERT — NSP'nin pek katkı sağlamadığını gösterdi; modern BERT türevleri sadece MLM kullanır.)

Fine-tuning — her göreve aynı model

Pre-train edilmiş BERT'i indir. Bir kısa fine-tune ile herhangi bir görev:

  • Sentiment analysis: BERT'in [CLS] token output'unu sınıflandırıcıya bağla.
  • NER: Her token output'unu etiketle (PERSON, ORG, vb.).
  • Soru-cevap: Paragraf + soru → BERT'in output'undan başlangıç ve bitiş pozisyonu tahmin et.
  • Çıkarım: İki cümle → BERT'in [CLS] → "doğru/yanlış/nötr".

Fine-tune saatlerce sürer, tek GPU yeter. Bu transfer learning NLP'yi demokratikleştirdi.

Etki — sayısal patlama

BERT yayımlandıktan sonra:

  • GLUE benchmark: BERT öncesi ~74. BERT sonrası ~80+. Modern modellerle ~93.
  • SQuAD (soru-cevap): BERT %93.2 (insan %91.2!) — bir benchmark "çözüldü" denebilir.
  • HuggingFace Transformers: BERT için PyTorch implementasyonu. Sonradan modern AI ekosisteminin standart kütüphanesi oldu. 100K+ GitHub stars.
  • BERT atıfları: 150.000+ — bilgisayar bilimi tarihinin en çok atıf alan makalelerinden.

BERT ailesi

BERT yayımlandıktan sonra Sesame Street karakterleri NLP'yi istila etti:

  • ELMo (2018): BERT'ten önce; bağlamsal embedding'in habercisi.
  • ERNIE (2019, Baidu): Bilgi grafiği entegre BERT.
  • RoBERTa (2019, Facebook): Daha çok veri, NSP yok. Daha iyi.
  • ALBERT (2019): Parametre paylaşımı — daha küçük.
  • DistilBERT (2019): Distillation ile küçültülmüş BERT.
  • DeBERTa (2021): Disentangled attention.

Çoğu Sesame Street isimli. NLP topluluğu 'nin bir esprisi.

BERT vs GPT — paradigm farkı

Aynı yıllarda OpenAI'den GPT yayımlandı. Fark önemli:

BoyutBERTGPT
MimariEncoder-onlyDecoder-only
YönÇift yönlüTek yönlü (soldan sağa)
Pre-trainMLMCausal LM (sonraki tokeni tahmin)
Asıl güçAnlama, sınıflandırmaÜretim, generation
Modern mirasEmbedding, searchChatGPT, Claude

İki dünya 2020-2022 arasında ayrı yürüdü. Modern büyük modeller (LLaMA, GPT-4) decoder-only kazandı. Ama embedding ekosisteminde BERT türevleri hâlâ standart.

Modern miras

BERT 2018'in modeli ama hâlâ canlı:

  • Sentence-BERT: Embedding üretmek için BERT türevi; HuggingFace sentence-transformers kütüphanesinin temeli.
  • BGE, E5: Modern embedding modelleri BERT mimarisinden türev.
  • Domain-specific BERT'ler: BioBERT, FinBERT, LegalBERT, ClinicalBERT — her sektörde özel BERT.

Modern arama, RAG, semantik benzerlik — BERT türevlerinin altyapısında çalışır.

Sade ders

BERT hikâyesinden iki şey:

  1. Self-supervised pre-training dünyayı değiştirdi. Etiket gerek yok, sadece bir cümleyi maskele. Bu paradigma sonradan CLIP, DINO, GPT — her şeyi etkiledi.
  2. Encoder-only ve decoder-only farklı ekosistemler. BERT "anlama"yı yapar, GPT "üretim"i. İkisi rakip değil, tamamlayıcı.

Bağlam

Transformer için: [[transformer-attention-is-all-you-need]]. GPT karşılaştırması için: [[gpt-mimarisi-decoder-only-transformer]] (varsa). Embedding için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]], [[vektor-veritabanlari-faiss-pinecone-rag-in-omurgasi]]. Pre-training paradigması için: [[transfer-learning-onceki-modelden-baslamak]] (varsa).

Etiketler

BERTtransformerMLMNLPencoder

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. BERT'in mimarisi nedir?

2. Masked Language Modeling ne yapar?

3. BERT NLP'ye nasıl etki etti?

4. BERT ile GPT arasındaki temel fark nedir?

5. BERT bugün hâlâ nerede kullanılır?