Tüm yazılar
Matematik29 Ağustos 2025

RLHF: İnsan Geribildiriminden Öğrenme — ChatGPT'yi Faydalı Yapan Teknik

GPT-3 zekiydi ama **kullanışsız**: koşulsuz, faydasız, hatta zararlı. ChatGPT (2022) bunu değiştirdi. Anahtar: **RLHF** — insan tercihlerinden pekiştirmeli öğrenme. Modern AI hizalama (alignment)'ın temeli.

Matematik Karavanı Editörü 5 dk okuma 5 soru
Star derecelendirmesi — RLHF'in metaforu

"Zeki ama kullanışsız"

2020 GPT-3: inanılmaz dil yeteneği. Ama:

  • "Ben birinin saçını nasıl keserim?" → "Tarihte saç kesme şöyledir..."
  • "Bir özet yaz" → uzun, dağınık cevap.
  • "Bu kötü mü?" → kibar değil.

GPT-3 bilgili ama yardımcı değil.

ChatGPT (Kasım 2022): dramatik fark. Faydalı, dürüst, zararsız.

Sırrı: RLHFReinforcement Learning from Human Feedback.

Üç adım

1. Supervised fine-tuning (SFT)

İnsan yazarları iyi örnekler yazar. Model bu örnekleri taklit eder.

2. Ödül modeli (reward model)

İnsan değerlendiriciler iki model çıktısını karşılaştırır: "Hangisi daha iyi?"

Bu tercihlerden bir ödül modeli (RM) eğitilir.

RM(s,a)puanRM(s, a) \to \text{puan}

3. Pekiştirmeli öğrenme (PPO)

Model, ödül modelini maksimize edecek şekilde fine-tune edilir. Proximal Policy Optimization (PPO) algoritması.

Sonuç: model insan tercihlerine uyumlu davranır.

Tarihsel köken

  • 2017: Christiano et al. (OpenAI)"Deep RL from Human Preferences".
  • 2020: Ziegler et al. — özet yazma için RLHF.
  • 2022 Mart: InstructGPT — GPT-3 + RLHF.
  • 2022 Kasım: ChatGPT — dünyaya hızlı yayıldı.
  • 2023+: Claude, Gemini, LLaMA — hepsi RLHF.

Niçin işe yarıyor?

RLHF'in dehası: örtük değer modellemesi.

İnsanlar "iyi" çıktıyı tam tanımlayamaz. Ama karşılaştırma yapabilir. RLHF bu karşılaştırmalardan modelin değer fonksiyonunu çıkarır.

Bu, klasik supervised learning'in çözemediği "hizalama" problemini çözer.

Sorunlar

1. Reward hacking

Model ödül modelini kandırmaya öğrenebilir. "Görünür iyi" olmak ama gerçekte değil.

2. Sycophancy

Model kullanıcıya aşırı uyumcu olabilir. "Doğru cevap" yerine "hoş cevap".

3. Insan değerlendirici çeşitliliği

Farklı kültürler farklı tercihler → tek bir RM nasıl olur?

4. Ölçeklendirme

İnsan geribildirim pahalı. Modern modeller milyonlarca etiket gerektirir.

Modern alternatifler

DPO (Direct Preference Optimization)

Rafailov et al. (2023): RL adımı atlanır, direkt tercih datasında optimize.

Daha basit, daha verimli. Modern open-source modellerin standardı.

RLAIF (RL from AI Feedback)

İnsan yerine AI değerlendiriciler. Anthropic'in Constitutional AI kullanır.

Reward modeling improvements

  • Process reward models: adım adım kontrolü.
  • Ensemble: birden fazla RM.

ChatGPT etkisi

Kasım 2022'de ChatGPT yayınlandı. 5 günde 1 milyon kullanıcı. 2 ayda 100 milyon.

Bu, modern AI çağının kamuoyu uyanışıydı.

Sebebi tek bir kelime: RLHF.

Modern alanlar

  • Constitutional AI: ilkelerden öğrenme.
  • Iterated refinement: model kendi çıktısını eleştirir.
  • Debate: iki model birbiriyle tartışır.
  • Scalable oversight: insan denetimi nasıl ölçeklendirilir?

Modern AI hizalama araştırmasının önde gelen alanları.

Felsefi anlamı

RLHF derinden felsefi: AI değerleri nereden gelir?

Cevap: insan tercihlerinden. Ama insanlar tutarsız, önyargılı, kültürel olarak farklı.

AI değerleri = insan değerlerinin matematik yansıması. Modern AI etiğinin temel sorusu.

Sonuç

RLHF:

  • İnsan tercihlerinden pekiştirmeli öğrenme.
  • SFT → Reward Model → PPO üç adımı.
  • ChatGPT (2022) ile dünya değişti.
  • Modern AI hizalama'nın temel tekniği.
  • DPO, Constitutional AI, RLAIF modern alternatifleri.

Bir matematik teknik bir teknolojik devrimi başlattı. Modern AI tarihinin en önemli ara basamaklarından.

"AI insan tercihlerinden öğrenir." RLHF'in paradigması.

Etiketler

RLHFpekiştirmeli öğrenmeAI hizalamaChatGPTOpenAI

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. RLHF'in üç adımı nedir?

2. ChatGPT'yi GPT-3'ten ne ayırıyor?

3. RLHF'in temel sorunlarından biri nedir?

4. DPO (Direct Preference Optimization) ne sağlar?

5. RLHF'in felsefi sorusu nedir?