Aktif öğrenme ne yapar?

Model belirsiz olduğu örnekleri etiketleme için seçer

Birden fazla model, anlaşmazlık olduğu örnek seç

Modern AI bağlantısı?

RLHF, fine-tuning, RAG — hepsinde aktif öğrenme prensipleri

%50-90 az etiket aynı başarı

Aktif Öğrenme: Modelin "Etiketlemek İstediği" Veriyi Seçmesi

"Hangi veriyi etiketleyeyim?"

Etiketleme pahalı:

İnsan saatleri.
Uzman gerekli (tıbbi, hukuki).
Zaman alır.

100.000 etiketsiz veri var. 1000 tane etiketleyebilirsiniz. Hangileri?

Klasik: rastgele 1000 seç → eğit.

Aktif öğrenme: model kendi seçer hangi örneklerin etiketlenmesi gerektiğini.

Sezgi

Bir öğretmen düşünün:

Öğrenci çoğu konuda iyi.
Bilmediği belirli bir konu var.
O konuda daha çok örnek ister.

Aktif öğrenme modeli aynı şey: belirsizlik olduğu yerleri ister.

Klasik yaklaşımlar

Uncertainty sampling

Model en az emin olduğu örneği seç.

prob = model.predict_proba(x)
if max(prob) < 0.6:  # belirsiz
    etiketle(x)

Margin sampling

İki en yüksek olasılık arasındaki fark:

Küçük fark = belirsiz = etiketle.

Entropy sampling

H(p) = -∑ p log p yüksekse etiketle.

Query-by-committee

Birden fazla model. Anlaşmazlık olursa etiketle.

Expected model change

Bu örnek etiketlenince modelin ne kadar değişeceğini tahmin et.

Diversity-based

Çeşitli örnekleri seç (kümeleme).

Hybrid

Belirsizlik + çeşitlilik.

Pipeline

Az etiketli veriyle başla.
Model eğit.
Etiketsiz havuzdan en faydalı N örneği seç.
İnsan etiketler.
Modele ekle, yeniden eğit.
Tekrarla.

Modern AI'da

RLHF

İnsanlar belirsiz veya kritik durumları puanlar. Doğal aktif öğrenme.

Medical AI

Doktor zor vakaları etiketler.

Self-driving

Beklenmeyen sahneler insan tarafından gözden geçirilir.

LLM fine-tuning

Hata veren prompt'lar manuel etiketlenir.

Faydalar

%50-90 az etiket yeterli olabilir.
Daha hızlı iterasyon.
Maliyet düşürür.
Önemli vakaları öne çıkarır.

Sınırlamalar

Cold start

Başlangıçta model kötü → seçimleri rastgele olabilir.

Bias

Model bir hata yaparsa o hatayı reinforce edebilir.

Computation

Her iterasyonda model yeniden eğit.

Batch size

Tek tek etiketleme verimsiz, batch seçimi gerek.

Modern teknikler

Bayesian active learning

Belirsizlik dropout ile.

Coreset

Veri kümesini temsil eden küçük altküme.

Loss prediction

Yüksek loss tahmin edilen örneği seç.

Diffusion-based

Üretilen senaryo + kullanıcı geri bildirim.

Modern AI etiketleme platformları

Scale AI: enterprise etiketleme.
Labelbox: aktif öğrenme + insan.
Snorkel AI: weak supervision.
CVAT: açık kaynak.

Human-in-the-loop

Aktif öğrenme = HITL özel hâli:

Model belirsiz.
İnsan girer.
Model güncellenir.

Modern AI sistemlerinin standardı.

Türkiye için

Tıbbi

Türkçe radyoloji etiketleme.
Az ama nitelikli veri.

Hukuki

Yargıtay kararı etiketleme.
Uzman avukat insanlar.

Türkçe NLP

Az etiketli Türkçe veri için ideal.

TÜBİTAK

AI projelerinde aktif öğrenme deneyleri.

Pratik öneriler

Başlangıç

100-500 rastgele etiketle.
Basit uncertainty sampling.

Olgunlaşma

Margin + diversity.
Batch sampling.

Production

LangSmith, Weights & Biases ile entegrasyon.
Sürekli aktif öğrenme döngüsü.

RAG ile birlikte

RAG sistemlerinde:

Cevaplanamayan sorular = aktif öğrenme.
İnsan ekler veya etiketler.
Model iyileşir.

Felsefe

Aktif öğrenme temel mesajı: "Veri eşit değil — bazı veri öğretici daha".

Etiketleme bütçeniz sınırlı → akıllı seçim kritik.

Etik

Bias amplification

Model bias'ı → seçim bias'ı → fine-tune bias.

Adversarial

Model "kendine zarar veren" örnek seçebilir.

Privacy

Hangi örnekler etiketlenmek üzere seçildi? Hassas bilgi sızabilir.

Genç ML mühendisi için ders

Aktif öğrenme:

Veri etkin modern AI mühendisliği.
Az etiket yüksek başarı.
HITL ile birlikte.

Kapanış

Aktif öğrenme, veri etkinliği modern AI'in vazgeçilmez tekniği. RLHF, fine-tuning, RAG — hepsinde rol oynar.

Bir AI mühendisinin olgunluk işareti: hangi örnekleri etiketleteceğini akıllıca seçmek.

Veri pahalı, model ucuz — aktif öğrenme bu gerçeği kabul eder.