RLHF'in üç adımı nedir?

Supervised fine-tuning + Reward model eğitimi + PPO ile RL

ChatGPT'yi GPT-3'ten ne ayırıyor?

RLHF — insan tercihlerine uyumlu davranış öğrenme

RLHF'in temel sorunlarından biri nedir?

Reward hacking + sycophancy + insan değerlendirici çeşitliliği

DPO (Direct Preference Optimization) ne sağlar?

RL adımını atlar, direkt tercih datasında optimize — daha basit ve verimli

RLHF'in felsefi sorusu nedir?

AI değerleri nereden gelir? İnsan tercihlerinden — ama insanlar tutarsız ve kültürel olarak farklı

RLHF: İnsan Geribildiriminden Öğrenme — ChatGPT'yi Faydalı Yapan Teknik

"Zeki ama kullanışsız"

2020 GPT-3: inanılmaz dil yeteneği. Ama:

"Ben birinin saçını nasıl keserim?" → "Tarihte saç kesme şöyledir..."
"Bir özet yaz" → uzun, dağınık cevap.
"Bu kötü mü?" → kibar değil.

GPT-3 bilgili ama yardımcı değil.

ChatGPT (Kasım 2022): dramatik fark. Faydalı, dürüst, zararsız.

Sırrı: RLHF — Reinforcement Learning from Human Feedback.

Üç adım

1. Supervised fine-tuning (SFT)

İnsan yazarları iyi örnekler yazar. Model bu örnekleri taklit eder.

2. Ödül modeli (reward model)

İnsan değerlendiriciler iki model çıktısını karşılaştırır: "Hangisi daha iyi?"

Bu tercihlerden bir ödül modeli (RM) eğitilir.

$RM(s, a) \to \text{puan}$

3. Pekiştirmeli öğrenme (PPO)

Model, ödül modelini maksimize edecek şekilde fine-tune edilir. Proximal Policy Optimization (PPO) algoritması.

Sonuç: model insan tercihlerine uyumlu davranır.

Tarihsel köken

2017: Christiano et al. (OpenAI) — "Deep RL from Human Preferences".
2020: Ziegler et al. — özet yazma için RLHF.
2022 Mart: InstructGPT — GPT-3 + RLHF.
2022 Kasım: ChatGPT — dünyaya hızlı yayıldı.
2023+: Claude, Gemini, LLaMA — hepsi RLHF.

Niçin işe yarıyor?

RLHF'in dehası: örtük değer modellemesi.

İnsanlar "iyi" çıktıyı tam tanımlayamaz. Ama karşılaştırma yapabilir. RLHF bu karşılaştırmalardan modelin değer fonksiyonunu çıkarır.

Bu, klasik supervised learning'in çözemediği "hizalama" problemini çözer.

Sorunlar

1. Reward hacking

Model ödül modelini kandırmaya öğrenebilir. "Görünür iyi" olmak ama gerçekte değil.

2. Sycophancy

Model kullanıcıya aşırı uyumcu olabilir. "Doğru cevap" yerine "hoş cevap".

3. Insan değerlendirici çeşitliliği

Farklı kültürler farklı tercihler → tek bir RM nasıl olur?

4. Ölçeklendirme

İnsan geribildirim pahalı. Modern modeller milyonlarca etiket gerektirir.

Modern alternatifler

DPO (Direct Preference Optimization)

Rafailov et al. (2023): RL adımı atlanır, direkt tercih datasında optimize.

Daha basit, daha verimli. Modern open-source modellerin standardı.

RLAIF (RL from AI Feedback)

İnsan yerine AI değerlendiriciler. Anthropic'in Constitutional AI kullanır.

Reward modeling improvements

Process reward models: adım adım kontrolü.
Ensemble: birden fazla RM.

ChatGPT etkisi

Kasım 2022'de ChatGPT yayınlandı. 5 günde 1 milyon kullanıcı. 2 ayda 100 milyon.

Bu, modern AI çağının kamuoyu uyanışıydı.

Sebebi tek bir kelime: RLHF.

Modern alanlar

Constitutional AI: ilkelerden öğrenme.
Iterated refinement: model kendi çıktısını eleştirir.
Debate: iki model birbiriyle tartışır.
Scalable oversight: insan denetimi nasıl ölçeklendirilir?

Modern AI hizalama araştırmasının önde gelen alanları.

Felsefi anlamı

RLHF derinden felsefi: AI değerleri nereden gelir?

Cevap: insan tercihlerinden. Ama insanlar tutarsız, önyargılı, kültürel olarak farklı.

AI değerleri = insan değerlerinin matematik yansıması. Modern AI etiğinin temel sorusu.

Sonuç

RLHF:

İnsan tercihlerinden pekiştirmeli öğrenme.
SFT → Reward Model → PPO üç adımı.
ChatGPT (2022) ile dünya değişti.
Modern AI hizalama'nın temel tekniği.
DPO, Constitutional AI, RLAIF modern alternatifleri.

Bir matematik teknik bir teknolojik devrimi başlattı. Modern AI tarihinin en önemli ara basamaklarından.

"AI insan tercihlerinden öğrenir." RLHF'in paradigması.