Tüm yazılar
Matematik14 Haziran 2025

DPO: RLHF'i Karmaşadan Kurtaran Sade Fikir

2023'te Stanford'dan çıkan, PPO ve ödül modeline gerek bırakmayan dil modeli hizalama yöntemi.

Matematik Karavanı 7 dk okuma 5 soru
Yol ayrımı — tercih (preference) optimizasyonu

RLHF'in karmaşıklığı

ChatGPT, Claude, Gemini gibi modern LLM'ler "yararlı ve zararsız" davranışı RLHF (Reinforcement Learning from Human Feedback) ile öğrenir. Akış:

  1. Önceden eğitilmiş bir LLM (base model) al.
  2. İnsanlardan tercih verisi topla: aynı sorulara LLM iki cevap üret; insan hangisini tercih ettiğini işaretle.
  3. Bu tercihlerden bir ödül modeli rϕr_\phi eğit.
  4. PPO (Proximal Policy Optimization) ile ödülü maksimize edecek şekilde LLM'i fine-tune et.

Karmaşıklık: dört model, hassas hiper-parametreler, eğitim kararsızlığı, hayalet ödül hacklenmesi. 2022'de OpenAI bir InstructGPT raporu yayımladı; PPO entegrasyonunun "araştırma" değil "sanat" olduğunu vurguladı.

DPO — basitleşmiş formül

2023 Mayıs'ta Stanford'dan Rafael Rafailov, Archit Sharma ve ark. Direct Preference Optimization (DPO) yayımladı. Ana tez:

"Ödül modelini ortadan kaldırın. Tercih verisini doğrudan LLM'in kaybına çevirin."

Matematiksel zarafetle yapılan bu çıkarım, RLHF'in yerine tek aşamalı denetimli öğrenme koydu.

Matematik (sade hâliyle)

RLHF'in optimal politikası analitik olarak yazılır:

π(yx)πref(yx)exp(r(x,y)β)\pi^*(y|x) \propto \pi_{\text{ref}}(y|x) \exp\left(\frac{r(x,y)}{\beta}\right)

Yani: optimal politika = referans politika × ödül üstel ağırlığı. Ödülü buradan çekin:

r(x,y)=βlogπ(yx)πref(yx)+Z(x)r(x,y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + Z(x)

Bu ödülü Bradley-Terry tercih modeline yerleştirin (insan iki cevap arasından birini seçme olasılığı):

P(yw>ylx)=σ(r(x,yw)r(x,yl))P(y_w > y_l | x) = \sigma\left(r(x,y_w) - r(x,y_l)\right)

Z(x)Z(x) sabiti kaybolur. Sonuç: doğrudan politika üzerinde tanımlı bir kayıp:

LDPO=logσ(βlogπ(ywx)πref(ywx)βlogπ(ylx)πref(ylx))L_{\text{DPO}} = -\log \sigma\left(\beta \log \frac{\pi(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)

Bu kayıp tek bir denetimli adımla eğitilir — PPO yok, ödül modeli yok, RL yok.

Sezgisel anlam

DPO şunu söyler: modeli tercih edilen cevabı tercih edilmeyenden ne kadar daha olası yaptığını ölç. Referans modele (orijinal LLM) göre log olasılık farkı, tercih farkıyla orantılı olmalı.

Yani:

  • Tercih edilen cevabın olasılığını yukarı çek.
  • Tercih edilmeyenin olasılığını aşağı çek.
  • Referansa göre çok uzaklaşma.

Bu üçünü tek bir sigmoid formülüne sıkıştırıyor.

Avantajları

  1. Tek model. Politika + referans politika (donmuş, eğitim yok). PPO'da 4 model.
  2. Tek aşama. Ödül modeli eğitimi yok, direkt tercih → politika güncelleme.
  3. Kararlı. PPO'nun KL-divergence patlaması, hayalet ödül gibi sorunları yok.
  4. Hesap ucuz. PPO'nun ~%50 daha az GPU kullanımı.

Sınırlamaları

  1. Off-policy. PPO çevrimiçi politika güncelleme yapar; DPO sabit veri kullanır. Yeni tercih veri toplanmıyorsa sınırlı.
  2. Hassas. β\beta hiperparametresine duyarlı. Yanlış ayarda model bozulur.
  3. Karmaşık görevler. Çok aşamalı muhakemede PPO bazen daha iyi sonuç verir.

Endüstri benimsemesi

DPO 2023 sonu ve 2024'te modeller arası standartlaştı:

  • Mistral 7B Instruct (2023): DPO ile fine-tune.
  • Zephyr 7B (Hugging Face, 2023): DPO ile Llama 2 üzerine.
  • Llama 2 Chat (Meta, 2023): RLHF + DPO karma yaklaşım.
  • Llama 3 Instruct (2024): RLHF + DPO + RS karması.
  • Qwen, Mistral, Gemma açık modelleri: Hep DPO.

OpenAI ve Anthropic kapalı kuruluşlar (resmi açıklama yok) ama akademik literatürde çoğu modern hizalama tekniği DPO benzeri çıkarımlardır.

Varyantlar

DPO ailesi hızla genişledi:

  • IPO (Identity Preference Optimization, 2023): DPO'nun overfitting problemini çözer.
  • KTO (Kahneman-Tversky Optimization, 2024): Tercih çifti değil, tek başına ödül/ceza ile eğitim. Daha az veri gerek.
  • SimPO (2024): Referans politika gerektirmez.
  • ORPO (Odds Ratio Preference Optimization, 2024): SFT ve DPO'yu tek aşamada birleştirir.
  • GRPO (Group Relative Policy Optimization, 2024, DeepSeek): Çoklu cevap karşılaştırması; DeepSeek-R1'in temel algoritması.

"Tek yıllık temel"

DPO'nun şaşırtıcı yanı: 2023'te yayımlanan bir makale tüm endüstrinin standardını değiştirdi. Bu hız modern AI ekosisteminin ne kadar hızlı evrildiğini gösterir. Akademik makale → 6 ay içinde production kullanımı.

Klasik benzetme

Bir öğrenciye iki kompozisyon göster, hangisi daha iyi diye sor. RLHF yöntemi: "İyilik" diye soyut bir kavram tanımla, her kompozisyona 1-10 puan ver, sonra öğretmenin puanları öğret, sonra öğretmenin sonra başka kompozisyonlarda yüksek puan alacak şekilde yaz.

DPO yöntemi: Doğrudan "bu kompozisyon onunkinden daha iyi" diye söyle. Öğrenci tercih edilen kompozisyona benzeri yazsın, etmeyene benzemesin. Tek aşama.

Sade ders

DPO hikâyesinden iki şey:

  1. Karmaşıklık çoğu zaman gizli sadeleşme barındırır. RLHF'in 4-model 2-aşamalı eğitimi matematiksel olarak tek-model tek-aşama çıkarılabilirdi. Kimse 2 yıl boyunca fark etmemişti.
  2. AI hizalamasının teorik temelleri hâlâ büyüyor. DPO 2023'te keşfedildi. 2024-2025'te yeni varyantlar geliyor. Alan olgun değil.

Bağlam

RLHF için: [[rlhf-modern-llm-egitimi]] (varsa), [[pekistirmeli-ogrenme-q-learning-policy-gradient]]. PPO için: [[ppo-trpo-modern-rl-algoritmalari]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]], [[ai-hizalama-modelleri-niye-istedigi-mizi-yapsin]]. DeepSeek-R1 ve GRPO için: [[deepseek-r1-cin-ai-i-acik-kaynak-ile]] (varsa).

Etiketler

DPORLHFpreference optimizationalignmentLLM

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. DPO'nun ana fikri nedir?

2. DPO'nun matematiksel temeli nedir?

3. DPO'nun PPO'ya göre avantajı nedir?

4. Hangi modeller DPO kullanır?

5. DPO'nun sınırlamaları nelerdir?