DPO: RLHF'i Karmaşadan Kurtaran Sade Fikir
2023'te Stanford'dan çıkan, PPO ve ödül modeline gerek bırakmayan dil modeli hizalama yöntemi.

RLHF'in karmaşıklığı
ChatGPT, Claude, Gemini gibi modern LLM'ler "yararlı ve zararsız" davranışı RLHF (Reinforcement Learning from Human Feedback) ile öğrenir. Akış:
- Önceden eğitilmiş bir LLM (base model) al.
- İnsanlardan tercih verisi topla: aynı sorulara LLM iki cevap üret; insan hangisini tercih ettiğini işaretle.
- Bu tercihlerden bir ödül modeli eğit.
- PPO (Proximal Policy Optimization) ile ödülü maksimize edecek şekilde LLM'i fine-tune et.
Karmaşıklık: dört model, hassas hiper-parametreler, eğitim kararsızlığı, hayalet ödül hacklenmesi. 2022'de OpenAI bir InstructGPT raporu yayımladı; PPO entegrasyonunun "araştırma" değil "sanat" olduğunu vurguladı.
DPO — basitleşmiş formül
2023 Mayıs'ta Stanford'dan Rafael Rafailov, Archit Sharma ve ark. Direct Preference Optimization (DPO) yayımladı. Ana tez:
"Ödül modelini ortadan kaldırın. Tercih verisini doğrudan LLM'in kaybına çevirin."
Matematiksel zarafetle yapılan bu çıkarım, RLHF'in yerine tek aşamalı denetimli öğrenme koydu.
Matematik (sade hâliyle)
RLHF'in optimal politikası analitik olarak yazılır:
Yani: optimal politika = referans politika × ödül üstel ağırlığı. Ödülü buradan çekin:
Bu ödülü Bradley-Terry tercih modeline yerleştirin (insan iki cevap arasından birini seçme olasılığı):
sabiti kaybolur. Sonuç: doğrudan politika üzerinde tanımlı bir kayıp:
Bu kayıp tek bir denetimli adımla eğitilir — PPO yok, ödül modeli yok, RL yok.
Sezgisel anlam
DPO şunu söyler: modeli tercih edilen cevabı tercih edilmeyenden ne kadar daha olası yaptığını ölç. Referans modele (orijinal LLM) göre log olasılık farkı, tercih farkıyla orantılı olmalı.
Yani:
- Tercih edilen cevabın olasılığını yukarı çek.
- Tercih edilmeyenin olasılığını aşağı çek.
- Referansa göre çok uzaklaşma.
Bu üçünü tek bir sigmoid formülüne sıkıştırıyor.
Avantajları
- Tek model. Politika + referans politika (donmuş, eğitim yok). PPO'da 4 model.
- Tek aşama. Ödül modeli eğitimi yok, direkt tercih → politika güncelleme.
- Kararlı. PPO'nun KL-divergence patlaması, hayalet ödül gibi sorunları yok.
- Hesap ucuz. PPO'nun ~%50 daha az GPU kullanımı.
Sınırlamaları
- Off-policy. PPO çevrimiçi politika güncelleme yapar; DPO sabit veri kullanır. Yeni tercih veri toplanmıyorsa sınırlı.
- Hassas. hiperparametresine duyarlı. Yanlış ayarda model bozulur.
- Karmaşık görevler. Çok aşamalı muhakemede PPO bazen daha iyi sonuç verir.
Endüstri benimsemesi
DPO 2023 sonu ve 2024'te modeller arası standartlaştı:
- Mistral 7B Instruct (2023): DPO ile fine-tune.
- Zephyr 7B (Hugging Face, 2023): DPO ile Llama 2 üzerine.
- Llama 2 Chat (Meta, 2023): RLHF + DPO karma yaklaşım.
- Llama 3 Instruct (2024): RLHF + DPO + RS karması.
- Qwen, Mistral, Gemma açık modelleri: Hep DPO.
OpenAI ve Anthropic kapalı kuruluşlar (resmi açıklama yok) ama akademik literatürde çoğu modern hizalama tekniği DPO benzeri çıkarımlardır.
Varyantlar
DPO ailesi hızla genişledi:
- IPO (Identity Preference Optimization, 2023): DPO'nun overfitting problemini çözer.
- KTO (Kahneman-Tversky Optimization, 2024): Tercih çifti değil, tek başına ödül/ceza ile eğitim. Daha az veri gerek.
- SimPO (2024): Referans politika gerektirmez.
- ORPO (Odds Ratio Preference Optimization, 2024): SFT ve DPO'yu tek aşamada birleştirir.
- GRPO (Group Relative Policy Optimization, 2024, DeepSeek): Çoklu cevap karşılaştırması; DeepSeek-R1'in temel algoritması.
"Tek yıllık temel"
DPO'nun şaşırtıcı yanı: 2023'te yayımlanan bir makale tüm endüstrinin standardını değiştirdi. Bu hız modern AI ekosisteminin ne kadar hızlı evrildiğini gösterir. Akademik makale → 6 ay içinde production kullanımı.
Klasik benzetme
Bir öğrenciye iki kompozisyon göster, hangisi daha iyi diye sor. RLHF yöntemi: "İyilik" diye soyut bir kavram tanımla, her kompozisyona 1-10 puan ver, sonra öğretmenin puanları öğret, sonra öğretmenin sonra başka kompozisyonlarda yüksek puan alacak şekilde yaz.
DPO yöntemi: Doğrudan "bu kompozisyon onunkinden daha iyi" diye söyle. Öğrenci tercih edilen kompozisyona benzeri yazsın, etmeyene benzemesin. Tek aşama.
Sade ders
DPO hikâyesinden iki şey:
- Karmaşıklık çoğu zaman gizli sadeleşme barındırır. RLHF'in 4-model 2-aşamalı eğitimi matematiksel olarak tek-model tek-aşama çıkarılabilirdi. Kimse 2 yıl boyunca fark etmemişti.
- AI hizalamasının teorik temelleri hâlâ büyüyor. DPO 2023'te keşfedildi. 2024-2025'te yeni varyantlar geliyor. Alan olgun değil.
Bağlam
RLHF için: [[rlhf-modern-llm-egitimi]] (varsa), [[pekistirmeli-ogrenme-q-learning-policy-gradient]]. PPO için: [[ppo-trpo-modern-rl-algoritmalari]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]], [[ai-hizalama-modelleri-niye-istedigi-mizi-yapsin]]. DeepSeek-R1 ve GRPO için: [[deepseek-r1-cin-ai-i-acik-kaynak-ile]] (varsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. DPO'nun ana fikri nedir?
2. DPO'nun matematiksel temeli nedir?
3. DPO'nun PPO'ya göre avantajı nedir?
4. Hangi modeller DPO kullanır?
5. DPO'nun sınırlamaları nelerdir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?