BERT: İki Yönlü Bakan Transformer'ın En Büyük Etkisi
2018'de Google'dan çıkan, masked language modeling ile NLP'nin tüm benchmark'larını yenilemesini sağlayan model.

"Pre-train + fine-tune" devrimin başlangıcı
Ekim 2018'de Google'dan Jacob Devlin ve ark. BERT (Bidirectional Encoder Representations from Transformers)'i yayımladı. Etki: o tarihteki 11 farklı NLP benchmark'ında devlet-of-the-art. Üstelik aynı modelle.
Önceki dönemde NLP'de her görev için ayrı bir model gerekiyordu. BERT bunu değiştirdi: tek model, çoklu görev. Modern NLP paradigmasının başlangıcı.
ChatGPT'den 4 yıl önce, GPT-3'ten 2 yıl önce. NLP devrimi BERT ile başladı, GPT ile yaygınlaştı.
Mimari — encoder-only transformer
Vaswani 2017 Transformer makalesinde encoder + decoder vardı. BERT sadece encoder kullandı. Sebep: BERT görevi çeviri değil, anlama. Output'a değil, temsile odaklı.
BERT-Base: 12 encoder katmanı, 768 boyut, 12 attention head, 110M parametre.
BERT-Large: 24 katman, 1024 boyut, 16 head, 340M parametre.
O zaman için "büyük" model. Bugün cep telefonu boyu.
Pre-training — iki görev
BERT'in en orijinal katkısı: kendi denetimli (self-supervised) pre-training. İki görev.
1. Masked Language Modeling (MLM)
Bir cümlenin %15 kelimesini rastgele maskele. Model bu boşlukları doldursun.
Örnek:
"Bugün hava çok [MASK]. Bu yüzden [MASK] gidiyorum."
Tahmin: "güzel" ve "parka".
Bu, bir nevi cloze test (boşluk doldurma). Çocuk eğitimi ve dil testlerinde 70 yıllık metot. BERT bunu otomatikleştirdi.
Detay: %15 mask'in %80'i [MASK], %10'u rastgele kelime, %10'u değişmez. Bu sayede model "her zaman [MASK] gelir" gibi yüzeysel bir kalıp öğrenmez.
2. Next Sentence Prediction (NSP)
İki cümle ver, model söylesin: bunlar art arda geliyor mu, yoksa rastgele eşleşmiş mi?
Bu, modelin cümle-cümle ilişkilerini öğrenmesini sağlar. Soru-cevap, çıkarım gibi görevler için kritik.
(Sonraki araştırmalar — RoBERTa, ALBERT — NSP'nin pek katkı sağlamadığını gösterdi; modern BERT türevleri sadece MLM kullanır.)
Fine-tuning — her göreve aynı model
Pre-train edilmiş BERT'i indir. Bir kısa fine-tune ile herhangi bir görev:
- Sentiment analysis: BERT'in [CLS] token output'unu sınıflandırıcıya bağla.
- NER: Her token output'unu etiketle (PERSON, ORG, vb.).
- Soru-cevap: Paragraf + soru → BERT'in output'undan başlangıç ve bitiş pozisyonu tahmin et.
- Çıkarım: İki cümle → BERT'in [CLS] → "doğru/yanlış/nötr".
Fine-tune saatlerce sürer, tek GPU yeter. Bu transfer learning NLP'yi demokratikleştirdi.
Etki — sayısal patlama
BERT yayımlandıktan sonra:
- GLUE benchmark: BERT öncesi ~74. BERT sonrası ~80+. Modern modellerle ~93.
- SQuAD (soru-cevap): BERT %93.2 (insan %91.2!) — bir benchmark "çözüldü" denebilir.
- HuggingFace Transformers: BERT için PyTorch implementasyonu. Sonradan modern AI ekosisteminin standart kütüphanesi oldu. 100K+ GitHub stars.
- BERT atıfları: 150.000+ — bilgisayar bilimi tarihinin en çok atıf alan makalelerinden.
BERT ailesi
BERT yayımlandıktan sonra Sesame Street karakterleri NLP'yi istila etti:
- ELMo (2018): BERT'ten önce; bağlamsal embedding'in habercisi.
- ERNIE (2019, Baidu): Bilgi grafiği entegre BERT.
- RoBERTa (2019, Facebook): Daha çok veri, NSP yok. Daha iyi.
- ALBERT (2019): Parametre paylaşımı — daha küçük.
- DistilBERT (2019): Distillation ile küçültülmüş BERT.
- DeBERTa (2021): Disentangled attention.
Çoğu Sesame Street isimli. NLP topluluğu 'nin bir esprisi.
BERT vs GPT — paradigm farkı
Aynı yıllarda OpenAI'den GPT yayımlandı. Fark önemli:
| Boyut | BERT | GPT |
|---|---|---|
| Mimari | Encoder-only | Decoder-only |
| Yön | Çift yönlü | Tek yönlü (soldan sağa) |
| Pre-train | MLM | Causal LM (sonraki tokeni tahmin) |
| Asıl güç | Anlama, sınıflandırma | Üretim, generation |
| Modern miras | Embedding, search | ChatGPT, Claude |
İki dünya 2020-2022 arasında ayrı yürüdü. Modern büyük modeller (LLaMA, GPT-4) decoder-only kazandı. Ama embedding ekosisteminde BERT türevleri hâlâ standart.
Modern miras
BERT 2018'in modeli ama hâlâ canlı:
- Sentence-BERT: Embedding üretmek için BERT türevi; HuggingFace sentence-transformers kütüphanesinin temeli.
- BGE, E5: Modern embedding modelleri BERT mimarisinden türev.
- Domain-specific BERT'ler: BioBERT, FinBERT, LegalBERT, ClinicalBERT — her sektörde özel BERT.
Modern arama, RAG, semantik benzerlik — BERT türevlerinin altyapısında çalışır.
Sade ders
BERT hikâyesinden iki şey:
- Self-supervised pre-training dünyayı değiştirdi. Etiket gerek yok, sadece bir cümleyi maskele. Bu paradigma sonradan CLIP, DINO, GPT — her şeyi etkiledi.
- Encoder-only ve decoder-only farklı ekosistemler. BERT "anlama"yı yapar, GPT "üretim"i. İkisi rakip değil, tamamlayıcı.
Bağlam
Transformer için: [[transformer-attention-is-all-you-need]]. GPT karşılaştırması için: [[gpt-mimarisi-decoder-only-transformer]] (varsa). Embedding için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]], [[vektor-veritabanlari-faiss-pinecone-rag-in-omurgasi]]. Pre-training paradigması için: [[transfer-learning-onceki-modelden-baslamak]] (varsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. BERT'in mimarisi nedir?
2. Masked Language Modeling ne yapar?
3. BERT NLP'ye nasıl etki etti?
4. BERT ile GPT arasındaki temel fark nedir?
5. BERT bugün hâlâ nerede kullanılır?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?