DPO'nun ana fikri nedir?

Tercih verisini doğrudan LLM kaybına çevir; ödül modeli ve PPO'ya gerek yok

DPO'nun matematiksel temeli nedir?

Optimal RLHF politikası analitik çözülür; Bradley-Terry tercih modeline yerleştirilerek doğrudan politika üzerinde kayıp türetilir

DPO'nun PPO'ya göre avantajı nedir?

Tek model, tek aşama, kararlı, ~%50 daha az GPU

Hangi modeller DPO kullanır?

Mistral, Zephyr, Llama 3 Instruct, Qwen, Gemma — açık model standardı

DPO'nun sınırlamaları nelerdir?

Off-policy (yeni veri yok), $\beta$ hiperparametresine hassas, çok aşamalı görevde PPO'dan zayıf

DPO: RLHF'i Karmaşadan Kurtaran Sade Fikir

RLHF'in karmaşıklığı

ChatGPT, Claude, Gemini gibi modern LLM'ler "yararlı ve zararsız" davranışı RLHF (Reinforcement Learning from Human Feedback) ile öğrenir. Akış:

Önceden eğitilmiş bir LLM (base model) al.
İnsanlardan tercih verisi topla: aynı sorulara LLM iki cevap üret; insan hangisini tercih ettiğini işaretle.
Bu tercihlerden bir ödül modeli $r_\phi$ eğit.
PPO (Proximal Policy Optimization) ile ödülü maksimize edecek şekilde LLM'i fine-tune et.

Karmaşıklık: dört model, hassas hiper-parametreler, eğitim kararsızlığı, hayalet ödül hacklenmesi. 2022'de OpenAI bir InstructGPT raporu yayımladı; PPO entegrasyonunun "araştırma" değil "sanat" olduğunu vurguladı.

DPO — basitleşmiş formül

2023 Mayıs'ta Stanford'dan Rafael Rafailov, Archit Sharma ve ark. Direct Preference Optimization (DPO) yayımladı. Ana tez:

"Ödül modelini ortadan kaldırın. Tercih verisini doğrudan LLM'in kaybına çevirin."

Matematiksel zarafetle yapılan bu çıkarım, RLHF'in yerine tek aşamalı denetimli öğrenme koydu.

Matematik (sade hâliyle)

RLHF'in optimal politikası analitik olarak yazılır:

\pi^*(y|x) \propto \pi_{\text{ref}}(y|x) \exp\left(\frac{r(x,y)}{\beta}\right)

Yani: optimal politika = referans politika × ödül üstel ağırlığı. Ödülü buradan çekin:

r(x,y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + Z(x)

Bu ödülü Bradley-Terry tercih modeline yerleştirin (insan iki cevap arasından birini seçme olasılığı):

P(y_w > y_l | x) = \sigma\left(r(x,y_w) - r(x,y_l)\right)

$Z(x)$ sabiti kaybolur. Sonuç: doğrudan politika üzerinde tanımlı bir kayıp:

L_{\text{DPO}} = -\log \sigma\left(\beta \log \frac{\pi(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)

Bu kayıp tek bir denetimli adımla eğitilir — PPO yok, ödül modeli yok, RL yok.

Sezgisel anlam

DPO şunu söyler: modeli tercih edilen cevabı tercih edilmeyenden ne kadar daha olası yaptığını ölç. Referans modele (orijinal LLM) göre log olasılık farkı, tercih farkıyla orantılı olmalı.

Yani:

Tercih edilen cevabın olasılığını yukarı çek.
Tercih edilmeyenin olasılığını aşağı çek.
Referansa göre çok uzaklaşma.

Bu üçünü tek bir sigmoid formülüne sıkıştırıyor.

Avantajları

Tek model. Politika + referans politika (donmuş, eğitim yok). PPO'da 4 model.
Tek aşama. Ödül modeli eğitimi yok, direkt tercih → politika güncelleme.
Kararlı. PPO'nun KL-divergence patlaması, hayalet ödül gibi sorunları yok.
Hesap ucuz. PPO'nun ~%50 daha az GPU kullanımı.

Sınırlamaları

Off-policy. PPO çevrimiçi politika güncelleme yapar; DPO sabit veri kullanır. Yeni tercih veri toplanmıyorsa sınırlı.
Hassas. $\beta$ hiperparametresine duyarlı. Yanlış ayarda model bozulur.
Karmaşık görevler. Çok aşamalı muhakemede PPO bazen daha iyi sonuç verir.

Endüstri benimsemesi

DPO 2023 sonu ve 2024'te modeller arası standartlaştı:

Mistral 7B Instruct (2023): DPO ile fine-tune.
Zephyr 7B (Hugging Face, 2023): DPO ile Llama 2 üzerine.
Llama 2 Chat (Meta, 2023): RLHF + DPO karma yaklaşım.
Llama 3 Instruct (2024): RLHF + DPO + RS karması.
Qwen, Mistral, Gemma açık modelleri: Hep DPO.

OpenAI ve Anthropic kapalı kuruluşlar (resmi açıklama yok) ama akademik literatürde çoğu modern hizalama tekniği DPO benzeri çıkarımlardır.

Varyantlar

DPO ailesi hızla genişledi:

IPO (Identity Preference Optimization, 2023): DPO'nun overfitting problemini çözer.
KTO (Kahneman-Tversky Optimization, 2024): Tercih çifti değil, tek başına ödül/ceza ile eğitim. Daha az veri gerek.
SimPO (2024): Referans politika gerektirmez.
ORPO (Odds Ratio Preference Optimization, 2024): SFT ve DPO'yu tek aşamada birleştirir.
GRPO (Group Relative Policy Optimization, 2024, DeepSeek): Çoklu cevap karşılaştırması; DeepSeek-R1'in temel algoritması.

"Tek yıllık temel"

DPO'nun şaşırtıcı yanı: 2023'te yayımlanan bir makale tüm endüstrinin standardını değiştirdi. Bu hız modern AI ekosisteminin ne kadar hızlı evrildiğini gösterir. Akademik makale → 6 ay içinde production kullanımı.

Klasik benzetme

Bir öğrenciye iki kompozisyon göster, hangisi daha iyi diye sor. RLHF yöntemi: "İyilik" diye soyut bir kavram tanımla, her kompozisyona 1-10 puan ver, sonra öğretmenin puanları öğret, sonra öğretmenin sonra başka kompozisyonlarda yüksek puan alacak şekilde yaz.

DPO yöntemi: Doğrudan "bu kompozisyon onunkinden daha iyi" diye söyle. Öğrenci tercih edilen kompozisyona benzeri yazsın, etmeyene benzemesin. Tek aşama.

Sade ders

DPO hikâyesinden iki şey:

Karmaşıklık çoğu zaman gizli sadeleşme barındırır. RLHF'in 4-model 2-aşamalı eğitimi matematiksel olarak tek-model tek-aşama çıkarılabilirdi. Kimse 2 yıl boyunca fark etmemişti.
AI hizalamasının teorik temelleri hâlâ büyüyor. DPO 2023'te keşfedildi. 2024-2025'te yeni varyantlar geliyor. Alan olgun değil.

Bağlam

RLHF için: [[rlhf-modern-llm-egitimi]] (varsa), [[pekistirmeli-ogrenme-q-learning-policy-gradient]]. PPO için: [[ppo-trpo-modern-rl-algoritmalari]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]], [[ai-hizalama-modelleri-niye-istedigi-mizi-yapsin]]. DeepSeek-R1 ve GRPO için: [[deepseek-r1-cin-ai-i-acik-kaynak-ile]] (varsa).