Imitation Learning: Ustanın Yaptığını Taklit Etmek
Bir robot bir insanı izleyerek öğrenebilir mi? Modern AI'ın "ödül fonksiyonu olmadan" pekiştirmeli öğrenme paradigması.

"Ödül fonksiyonu yok, sadece örnek var"
Klasik RL: bir ödül fonksiyonu tanımla, model maksimize etsin.
Sorun: bazı görevlerde ödül belirlemek zor. Mesela:
- "Güvenli sür" — ne demek?
- "Saygılı cevap ver" — nasıl ölçülür?
- "Doğal hareket et" — formul nedir?
Çözüm: örneklerden öğren. İnsanın doğru davranışını izle, taklit et. Bu imitation learning.
Behavioral Cloning (BC)
En basit yöntem. Tıpkı denetimli öğrenme gibi:
- Girdi: Durum .
- Çıktı: Eylem .
- Veri: Uzman örnekleri çiftleri.
Modeli eğit: durum verisi → eylem tahmini.
Avantaj: Sade, hızlı.
Dezavantaj: Distributional shift. Model uzmanın yapmadığı durumlara girer → kötü.
Inverse Reinforcement Learning (IRL)
Daha sofistike: uzmanın ödül fonksiyonunu öğren.
Akış:
- Uzman gösterileri al.
- Bu gösterileri iyi yapan ödülü çıkar.
- Bu ödülle RL yap.
Sonuç: model uzmanın altta yatan amaçını öğrenir, yeni durumlara genelleştirir.
Pieter Abbeel ve Andrew Ng 2004'te IRL'in modern versiyonunu yayımladı.
GAIL — Generative Adversarial Imitation Learning
2016'da Ho ve Ermon GAIL'i önerdi. GAN benzeri:
- Generator: Politika .
- Discriminator: Bu davranış uzman mı yoksa model mi?
Politika uzman gibi görünmeyi öğrenir. Discriminator ayırt etmeyi öğrenir.
GAIL klasik IRL'den daha pratik. Robotik ve oyun AI'sında yaygın.
DAgger — Dataset Aggregation
Behavioral cloning'in distributional shift sorununu çözmek için DAgger (Ross 2011):
- BC ile model eğit.
- Model çalıştır, kötü durumlara gel.
- Uzmana "bu durumda ne yaparsın?" sor.
- Yanıtı veri setine ekle.
- Tekrar eğit.
Iteratif. Modern otonom araç eğitiminde standart.
RLHF — modern imitation
RLHF (Reinforcement Learning from Human Feedback) aslında imitation learning türev:
- İnsan tercihleri = uzman gösterimi.
- Ödül modeli = inverse RL.
- PPO = RL aşaması.
ChatGPT, Claude — hepsi imitation learning'in modern endüstri uygulaması.
Robotik uygulamaları
İmitation learning robotik'te merkez:
- Tesla Autopilot: İnsan sürücülerden öğrenir.
- Covariant (Abbeel): Depo robotları.
- Boston Dynamics: Atlas robot taklit yürüyüş.
- Diffusion Policy (2023): Diffusion ile imitation learning.
Robotlar sıfırdan öğrenmek zor (gerçek dünya tehlikeli). İmitation learning çözüm.
"Aha moment" RLHF eleştirisi
Modern AI'da bir tartışma: RLHF aşırı insan eğilimli olabilir.
Sebep: model insan etiketleyici tercihlerini taklit eder. Bu, sycophancy (yaltaklanma) ve bias yaratır.
Çözüm: Constitutional AI, AI feedback (RLAIF), self-play. Modern hizalama paradigmasının yönelimi.
Sınırlamalar
İmitation learning sorunları:
- Uzman gerek: Hep iyi bir gösterici lazım.
- Distributional shift: Yeni durumlara genelleme zor.
- Uzman hatasını kopyalar: Model uzmanı geçemez.
- Etiket maliyeti: İnsan etiketleyici pahalı.
Modern AI bu sorunları sentetik veri ve self-play ile aşmaya çalışıyor.
Sade ders
İmitation learning hikâyesinden iki şey:
- Ödül fonksiyonu evrensel değil. Bazı görevlerde "iyi" tanımı çok zor. Örnek üzerinden öğrenme alternatif paradigma.
- RLHF modern imitation learning. ChatGPT'nin "yardımcı" kişiliği insan etiketleyici tercihlerinden. Aynı klasik IRL fikri, modern ölçekte.
Bağlam
Pieter Abbeel ve IRL için: [[pieter-abbeel-robotik-ve-pekistirmeli-ogrenmenin-pratik-yuzu]]. RLHF için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]]. Constitutional AI için: [[constitutional-ai-claude-un-arkasindaki-felsefi-hizalama-cercevesi]]. Self-play için: [[self-play-ai-nin-kendi-kendine-ogrenmesi]]. Sycophancy için: [[halusinasyon-llm-lerin-uydurmalarinin-sebebi-ve-cozumu]] (LLM hataları).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Imitation learning ne yapar?
2. Behavioral Cloning ne yapar?
3. IRL ne yapar?
4. GAIL ne yapar?
5. RLHF ile bağlantısı nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?