Imitation learning ne yapar?

Uzman gösterimlerini taklit eder — ödül fonksiyonu olmadan

Behavioral Cloning ne yapar?

Denetimli öğrenme: durum → eylem; sade ama distributional shift sorunu

Uzmanın altta yatan ödül fonksiyonunu öğrenir, sonra RL yapar

GAN benzeri imitation — politika "uzman gibi görünmeyi" öğrenir

RLHF ile bağlantısı nedir?

RLHF imitation learning türevi — insan tercihleri = uzman gösterimi

Imitation Learning: Ustanın Yaptığını Taklit Etmek

"Ödül fonksiyonu yok, sadece örnek var"

Klasik RL: bir ödül fonksiyonu tanımla, model maksimize etsin.

Sorun: bazı görevlerde ödül belirlemek zor. Mesela:

"Güvenli sür" — ne demek?
"Saygılı cevap ver" — nasıl ölçülür?
"Doğal hareket et" — formul nedir?

Çözüm: örneklerden öğren. İnsanın doğru davranışını izle, taklit et. Bu imitation learning.

Behavioral Cloning (BC)

En basit yöntem. Tıpkı denetimli öğrenme gibi:

Girdi: Durum $s$ .
Çıktı: Eylem $a$ .
Veri: Uzman örnekleri $(s, a)$ çiftleri.

Modeli eğit: durum verisi → eylem tahmini.

Avantaj: Sade, hızlı.
Dezavantaj: Distributional shift. Model uzmanın yapmadığı durumlara girer → kötü.

Inverse Reinforcement Learning (IRL)

Daha sofistike: uzmanın ödül fonksiyonunu öğren.

Akış:

Uzman gösterileri al.
Bu gösterileri iyi yapan ödülü çıkar.
Bu ödülle RL yap.

Sonuç: model uzmanın altta yatan amaçını öğrenir, yeni durumlara genelleştirir.

Pieter Abbeel ve Andrew Ng 2004'te IRL'in modern versiyonunu yayımladı.

GAIL — Generative Adversarial Imitation Learning

2016'da Ho ve Ermon GAIL'i önerdi. GAN benzeri:

Generator: Politika $\pi$ .
Discriminator: Bu davranış uzman mı yoksa model mi?

Politika uzman gibi görünmeyi öğrenir. Discriminator ayırt etmeyi öğrenir.

GAIL klasik IRL'den daha pratik. Robotik ve oyun AI'sında yaygın.

DAgger — Dataset Aggregation

Behavioral cloning'in distributional shift sorununu çözmek için DAgger (Ross 2011):

BC ile model eğit.
Model çalıştır, kötü durumlara gel.
Uzmana "bu durumda ne yaparsın?" sor.
Yanıtı veri setine ekle.
Tekrar eğit.

Iteratif. Modern otonom araç eğitiminde standart.

RLHF — modern imitation

RLHF (Reinforcement Learning from Human Feedback) aslında imitation learning türev:

İnsan tercihleri = uzman gösterimi.
Ödül modeli = inverse RL.
PPO = RL aşaması.

ChatGPT, Claude — hepsi imitation learning'in modern endüstri uygulaması.

Robotik uygulamaları

İmitation learning robotik'te merkez:

Tesla Autopilot: İnsan sürücülerden öğrenir.
Covariant (Abbeel): Depo robotları.
Boston Dynamics: Atlas robot taklit yürüyüş.
Diffusion Policy (2023): Diffusion ile imitation learning.

Robotlar sıfırdan öğrenmek zor (gerçek dünya tehlikeli). İmitation learning çözüm.

"Aha moment" RLHF eleştirisi

Modern AI'da bir tartışma: RLHF aşırı insan eğilimli olabilir.

Sebep: model insan etiketleyici tercihlerini taklit eder. Bu, sycophancy (yaltaklanma) ve bias yaratır.

Çözüm: Constitutional AI, AI feedback (RLAIF), self-play. Modern hizalama paradigmasının yönelimi.

Sınırlamalar

İmitation learning sorunları:

Uzman gerek: Hep iyi bir gösterici lazım.
Distributional shift: Yeni durumlara genelleme zor.
Uzman hatasını kopyalar: Model uzmanı geçemez.
Etiket maliyeti: İnsan etiketleyici pahalı.

Modern AI bu sorunları sentetik veri ve self-play ile aşmaya çalışıyor.

Sade ders

İmitation learning hikâyesinden iki şey:

Ödül fonksiyonu evrensel değil. Bazı görevlerde "iyi" tanımı çok zor. Örnek üzerinden öğrenme alternatif paradigma.
RLHF modern imitation learning. ChatGPT'nin "yardımcı" kişiliği insan etiketleyici tercihlerinden. Aynı klasik IRL fikri, modern ölçekte.

Bağlam

Pieter Abbeel ve IRL için: [[pieter-abbeel-robotik-ve-pekistirmeli-ogrenmenin-pratik-yuzu]]. RLHF için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]]. Constitutional AI için: [[constitutional-ai-claude-un-arkasindaki-felsefi-hizalama-cercevesi]]. Self-play için: [[self-play-ai-nin-kendi-kendine-ogrenmesi]]. Sycophancy için: [[halusinasyon-llm-lerin-uydurmalarinin-sebebi-ve-cozumu]] (LLM hataları).