Tüm yazılar
Matematik2 Kasım 2024

Aktif Öğrenme: Modelin "Etiketlemek İstediği" Veriyi Seçmesi

Bir model "Bana en zor örnekleri etiketle" der. Pasif değil aktif. Az veriyle yüksek başarı için modern teknik.

Matematik Karavanı 5 dk okuma 5 soru
El kaldıran öğrenci — aktif öğrenme metaforu

"Hangi veriyi etiketleyeyim?"

Etiketleme pahalı:

  • İnsan saatleri.
  • Uzman gerekli (tıbbi, hukuki).
  • Zaman alır.

100.000 etiketsiz veri var. 1000 tane etiketleyebilirsiniz. Hangileri?

Klasik: rastgele 1000 seç → eğit.

Aktif öğrenme: model kendi seçer hangi örneklerin etiketlenmesi gerektiğini.

Sezgi

Bir öğretmen düşünün:

  • Öğrenci çoğu konuda iyi.
  • Bilmediği belirli bir konu var.
  • O konuda daha çok örnek ister.

Aktif öğrenme modeli aynı şey: belirsizlik olduğu yerleri ister.

Klasik yaklaşımlar

Uncertainty sampling

Model en az emin olduğu örneği seç.

prob = model.predict_proba(x)
if max(prob) < 0.6:  # belirsiz
    etiketle(x)

Margin sampling

İki en yüksek olasılık arasındaki fark:

  • Küçük fark = belirsiz = etiketle.

Entropy sampling

H(p) = -∑ p log p yüksekse etiketle.

Query-by-committee

Birden fazla model. Anlaşmazlık olursa etiketle.

Expected model change

Bu örnek etiketlenince modelin ne kadar değişeceğini tahmin et.

Diversity-based

Çeşitli örnekleri seç (kümeleme).

Hybrid

Belirsizlik + çeşitlilik.

Pipeline

  1. Az etiketli veriyle başla.
  2. Model eğit.
  3. Etiketsiz havuzdan en faydalı N örneği seç.
  4. İnsan etiketler.
  5. Modele ekle, yeniden eğit.
  6. Tekrarla.

Modern AI'da

RLHF

İnsanlar belirsiz veya kritik durumları puanlar. Doğal aktif öğrenme.

Medical AI

Doktor zor vakaları etiketler.

Self-driving

Beklenmeyen sahneler insan tarafından gözden geçirilir.

LLM fine-tuning

Hata veren prompt'lar manuel etiketlenir.

Faydalar

  • %50-90 az etiket yeterli olabilir.
  • Daha hızlı iterasyon.
  • Maliyet düşürür.
  • Önemli vakaları öne çıkarır.

Sınırlamalar

Cold start

Başlangıçta model kötü → seçimleri rastgele olabilir.

Bias

Model bir hata yaparsa o hatayı reinforce edebilir.

Computation

Her iterasyonda model yeniden eğit.

Batch size

Tek tek etiketleme verimsiz, batch seçimi gerek.

Modern teknikler

Bayesian active learning

Belirsizlik dropout ile.

Coreset

Veri kümesini temsil eden küçük altküme.

Loss prediction

Yüksek loss tahmin edilen örneği seç.

Diffusion-based

Üretilen senaryo + kullanıcı geri bildirim.

Modern AI etiketleme platformları

  • Scale AI: enterprise etiketleme.
  • Labelbox: aktif öğrenme + insan.
  • Snorkel AI: weak supervision.
  • CVAT: açık kaynak.

Human-in-the-loop

Aktif öğrenme = HITL özel hâli:

  • Model belirsiz.
  • İnsan girer.
  • Model güncellenir.

Modern AI sistemlerinin standardı.

Türkiye için

Tıbbi

  • Türkçe radyoloji etiketleme.
  • Az ama nitelikli veri.

Hukuki

  • Yargıtay kararı etiketleme.
  • Uzman avukat insanlar.

Türkçe NLP

  • Az etiketli Türkçe veri için ideal.

TÜBİTAK

  • AI projelerinde aktif öğrenme deneyleri.

Pratik öneriler

Başlangıç

  • 100-500 rastgele etiketle.
  • Basit uncertainty sampling.

Olgunlaşma

  • Margin + diversity.
  • Batch sampling.

Production

  • LangSmith, Weights & Biases ile entegrasyon.
  • Sürekli aktif öğrenme döngüsü.

RAG ile birlikte

RAG sistemlerinde:

  • Cevaplanamayan sorular = aktif öğrenme.
  • İnsan ekler veya etiketler.
  • Model iyileşir.

Felsefe

Aktif öğrenme temel mesajı: "Veri eşit değil — bazı veri öğretici daha".

Etiketleme bütçeniz sınırlı → akıllı seçim kritik.

Etik

Bias amplification

Model bias'ı → seçim bias'ı → fine-tune bias.

Adversarial

Model "kendine zarar veren" örnek seçebilir.

Privacy

Hangi örnekler etiketlenmek üzere seçildi? Hassas bilgi sızabilir.

Genç ML mühendisi için ders

Aktif öğrenme:

  • Veri etkin modern AI mühendisliği.
  • Az etiket yüksek başarı.
  • HITL ile birlikte.

Kapanış

Aktif öğrenme, veri etkinliği modern AI'in vazgeçilmez tekniği. RLHF, fine-tuning, RAG — hepsinde rol oynar.

Bir AI mühendisinin olgunluk işareti: hangi örnekleri etiketleteceğini akıllıca seçmek.

Veri pahalı, model ucuz — aktif öğrenme bu gerçeği kabul eder.

Etiketler

active learningaktif öğrenmeuncertainty samplinghuman-in-the-loopAI eğitimi

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Aktif öğrenme ne yapar?

2. Uncertainty sampling?

3. Query-by-committee?

4. Modern AI bağlantısı?

5. Tipik tasarruf?