RLHF: İnsan Geribildiriminden Öğrenme — ChatGPT'yi Faydalı Yapan Teknik
GPT-3 zekiydi ama **kullanışsız**: koşulsuz, faydasız, hatta zararlı. ChatGPT (2022) bunu değiştirdi. Anahtar: **RLHF** — insan tercihlerinden pekiştirmeli öğrenme. Modern AI hizalama (alignment)'ın temeli.

"Zeki ama kullanışsız"
2020 GPT-3: inanılmaz dil yeteneği. Ama:
- "Ben birinin saçını nasıl keserim?" → "Tarihte saç kesme şöyledir..."
- "Bir özet yaz" → uzun, dağınık cevap.
- "Bu kötü mü?" → kibar değil.
GPT-3 bilgili ama yardımcı değil.
ChatGPT (Kasım 2022): dramatik fark. Faydalı, dürüst, zararsız.
Sırrı: RLHF — Reinforcement Learning from Human Feedback.
Üç adım
1. Supervised fine-tuning (SFT)
İnsan yazarları iyi örnekler yazar. Model bu örnekleri taklit eder.
2. Ödül modeli (reward model)
İnsan değerlendiriciler iki model çıktısını karşılaştırır: "Hangisi daha iyi?"
Bu tercihlerden bir ödül modeli (RM) eğitilir.
3. Pekiştirmeli öğrenme (PPO)
Model, ödül modelini maksimize edecek şekilde fine-tune edilir. Proximal Policy Optimization (PPO) algoritması.
Sonuç: model insan tercihlerine uyumlu davranır.
Tarihsel köken
- 2017: Christiano et al. (OpenAI) — "Deep RL from Human Preferences".
- 2020: Ziegler et al. — özet yazma için RLHF.
- 2022 Mart: InstructGPT — GPT-3 + RLHF.
- 2022 Kasım: ChatGPT — dünyaya hızlı yayıldı.
- 2023+: Claude, Gemini, LLaMA — hepsi RLHF.
Niçin işe yarıyor?
RLHF'in dehası: örtük değer modellemesi.
İnsanlar "iyi" çıktıyı tam tanımlayamaz. Ama karşılaştırma yapabilir. RLHF bu karşılaştırmalardan modelin değer fonksiyonunu çıkarır.
Bu, klasik supervised learning'in çözemediği "hizalama" problemini çözer.
Sorunlar
1. Reward hacking
Model ödül modelini kandırmaya öğrenebilir. "Görünür iyi" olmak ama gerçekte değil.
2. Sycophancy
Model kullanıcıya aşırı uyumcu olabilir. "Doğru cevap" yerine "hoş cevap".
3. Insan değerlendirici çeşitliliği
Farklı kültürler farklı tercihler → tek bir RM nasıl olur?
4. Ölçeklendirme
İnsan geribildirim pahalı. Modern modeller milyonlarca etiket gerektirir.
Modern alternatifler
DPO (Direct Preference Optimization)
Rafailov et al. (2023): RL adımı atlanır, direkt tercih datasında optimize.
Daha basit, daha verimli. Modern open-source modellerin standardı.
RLAIF (RL from AI Feedback)
İnsan yerine AI değerlendiriciler. Anthropic'in Constitutional AI kullanır.
Reward modeling improvements
- Process reward models: adım adım kontrolü.
- Ensemble: birden fazla RM.
ChatGPT etkisi
Kasım 2022'de ChatGPT yayınlandı. 5 günde 1 milyon kullanıcı. 2 ayda 100 milyon.
Bu, modern AI çağının kamuoyu uyanışıydı.
Sebebi tek bir kelime: RLHF.
Modern alanlar
- Constitutional AI: ilkelerden öğrenme.
- Iterated refinement: model kendi çıktısını eleştirir.
- Debate: iki model birbiriyle tartışır.
- Scalable oversight: insan denetimi nasıl ölçeklendirilir?
Modern AI hizalama araştırmasının önde gelen alanları.
Felsefi anlamı
RLHF derinden felsefi: AI değerleri nereden gelir?
Cevap: insan tercihlerinden. Ama insanlar tutarsız, önyargılı, kültürel olarak farklı.
AI değerleri = insan değerlerinin matematik yansıması. Modern AI etiğinin temel sorusu.
Sonuç
RLHF:
- İnsan tercihlerinden pekiştirmeli öğrenme.
- SFT → Reward Model → PPO üç adımı.
- ChatGPT (2022) ile dünya değişti.
- Modern AI hizalama'nın temel tekniği.
- DPO, Constitutional AI, RLAIF modern alternatifleri.
Bir matematik teknik bir teknolojik devrimi başlattı. Modern AI tarihinin en önemli ara basamaklarından.
"AI insan tercihlerinden öğrenir." RLHF'in paradigması.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. RLHF'in üç adımı nedir?
2. ChatGPT'yi GPT-3'ten ne ayırıyor?
3. RLHF'in temel sorunlarından biri nedir?
4. DPO (Direct Preference Optimization) ne sağlar?
5. RLHF'in felsefi sorusu nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?