Self-supervised learning ne yapar?

Etiketsiz veriden pretext task ile öğrenir — model verinin kendisinden öğretmen

BERT'in pretext task'ı?

Masked Language Modeling — cümlenin bir kısmını maskele, tahmin et

Resmin %75'ini maskele, kalan %25'ten yeniden inşa (He Kaiming, 2021)

LeCun'un kek metaforu?

"SSL kek, supervised krema, RL kiraz" — çoğunluk SSL'den gelir

Self-Supervised Learning: Etiketsiz Veriden Öğrenmenin Büyüsü

"Etiket olmadan öğren"

Klasik ML'de etiketli veri gerekir:

Kedi resmi → "kedi" etiketi.
Cümle → "olumlu/olumsuz" duygu.
Tıbbi görüntü → "tümör var/yok".

Etiketlemek pahalı:

İnsan saatleri.
Uzman gerekli.
Hata payı.

Etiketsiz veri ucuz ve bol:

İnternet metin.
YouTube video.
Bilim makaleleri.

Self-supervised learning (SSL): etiketsiz veriden öğren.

Temel mekanizma

Pretext task (öncül görev): veriden sahte etiket yarat.

Örnekler

Masked language modeling: cümlenin %15'ini sil → tahmin et (BERT).
Next token prediction: sonraki kelime tahmini (GPT).
Image inpainting: resmin bir kısmını sil → tahmin et.
Rotation prediction: resmi döndür → açıyı tahmin et.
Jigsaw: parçalara böl → sırala.
Contrastive: aynı vs farklı.

Model veri kendisini etiketlemeye zorlar.

Modern paradigma

NLP

Masked Language Modeling (BERT, 2018)

Cümlenin bir kısmını maskele, modeli tahminle:

The cat sat on the [MASK].
→ mat

Next Token Prediction (GPT, 2018+)

Sonraki kelimeyi tahmin et:

The cat sat on the
→ mat

LLM'lerin çoğu budur.

Vision

Masked Autoencoder (MAE, 2021)

Resmin %75'ini gizle, kalan %25'ten yeniden inşa et.

Contrastive (SimCLR, MoCo)

Aynı resmin farklı augmentasyonları yakın olmalı.

DINO (Meta)

Self-distillation: öğrenci modeli öğretmen modeline yakın olmalı.

V-JEPA (Yann LeCun, 2024)

Video predictive: sonraki frame'leri tahmin et.

Audio

Wav2Vec 2.0: sesli ön-eğitim.
Whisper: speech-to-text.

Multimodal

CLIP: metin-görüntü eşleştirme.
CoCa: contrastive + captioning.

Avantajlar

Ölçeklenir: trilyon token kullanılır.
Genel temsiller: çoklu görev.
Az etiket gerektirir downstream'de.
Foundation modeller: SSL ile başlar.

Kısımlar

Pre-training

SSL ile büyük veri.

Fine-tuning

Az etiketli veri ile spesifik göreve uyarla.

İkili akış modern AI'in standartı.

Tarihsel kilometre taşları

2013: Word2Vec (Mikolov) — ilk büyük SSL NLP.
2018: BERT — masked LM patladı.
2018: GPT-1 — next token başlangıç.
2020: SimCLR — contrastive vision.
2021: MAE — masked vision.
2024: V-JEPA, multimodal foundation.

Yann LeCun'un vizyonu

LeCun: "SSL kek, supervised krema, RL kiraz".

Yani çoğunluk SSL'den gelir, supervised + RL eklemeler.

Modern foundation modeller tam olarak bunu yapıyor.

Türkçe SSL

BERTurk: Türkçe BERT.
TurkishBLeRT.
mT5: çok dilli.
OpenAI text-embedding Türkçe destekli.

Türkçe metin az ama artıyor. Wikipedia, gazete arşivleri, sosyal medya.

Sınırlamalar

Compute: pre-training pahalı.
Veri kalitesi: veri bias varsa model bias.
Pretext task tasarımı: önemli.
Negative bias: contrastive'de negatif örnekler hassas.

Modern trendler

Multimodal SSL

CLIP, Flamingo, GPT-4 vision.

Scaled SSL

Trilyon token + büyük model = emergent yetenekler.

Self-distillation

Öğretmen-öğrenci.

Predictive learning

JEPA, world models.

Domain-specific SSL

Tıp

PubMedBERT, MedCLIP — biyomedikal.

Hukuk

Legal-BERT.

Türk hukuki Türkçe

UYAP-BERT (gelişiyor).

Türkiye için potansiyel

TÜBİTAK BERTurk: Türkçe SSL altyapısı.
Tıbbi: Türkçe TUS sorularından SSL.
Hukuki: Yargıtay kararlarından SSL.
Türkçe video: YouTube Türkçe verisi.

Felsefe

SSL temel mesajı: "Bilgi etiketlerden değil, verinin kendi yapısından gelir".

Bebek öğrenir gibi: çevreyi gözlemleyerek.

In-context learning bağlantısı

GPT-3 in-context learning emergent olarak SSL'den gelir. Yeterince ölçeklendirilirse few-shot learner olur.

Kapanış

Self-supervised learning, modern AI'in temelidir. Foundation modeller, LLM'ler, vision modeller — hepsi SSL ile başlar.

Bir ML mühendisinin olgunluk işareti: hangi SSL tekniği hangi durumda olduğunu bilmek.

Etiketler kıt, veri bol — modern AI'in ekonomik gerçeği.