GRPO: DeepSeek'in Akıl Yürütme için RL Algoritması
DeepSeek-R1'in arkasındaki, PPO'dan basit ve ödül modeline ihtiyaç duymayan modern pekiştirmeli öğrenme yöntemi.

DeepSeek devrimi
Ocak 2025'te küçük bir Çin start-up'ı DeepSeek R1 modelini açık kaynak olarak yayımladı. Performans: GPT-4o'ya yakın, eğitim maliyeti 5.6 milyon dolar (OpenAI/Anthropic'in onda biri). Stok piyasası NVIDIA hisselerini bir günde 600 milyar dolar düşürdü.
R1'in sırrı tek bir bileşende değil — eğitim teknolojisi mimarisi paketi. Ama en dikkat çekici bileşen: GRPO (Group Relative Policy Optimization).
PPO'nun sorunları (kısa)
Modern LLM'lerin RLHF'i genellikle PPO ile yapılır. PPO'nun sorunları:
- Dört model: Politika, referans, ödül, kritik. Bellek kıt.
- Kritik (value function) eğitimi zor: Ayrı bir sinir ağı, ayrı kayıp.
- Hayalet ödül: Ödül modeli "yanıltıcı" özellikleri ödüllendirir.
- Hiper-parametre cehennemi: KL ceza, advantage hesabı, vb.
DeepSeek'in DeepSeekMath (Şubat 2024) makalesi bu sorunlara saldırdı.
GRPO — fikir
Temel sezgi:
"Kritik'i (value network) atın. Bunun yerine, aynı sorudan birkaç örnek alın. Bu örneklerin grup ortalamasına göre advantage hesaplayın."
Algoritma:
- Bir soru al. Model şu anki politika ile farklı cevap üret ( tipik).
- Her cevaba bir ödül ata. (Matematik: doğru/yanlış kontrol; kod: derleme + test.)
- Grup-göreceli advantage:
- Bu advantage'la politika güncelleme (PPO benzeri klip mekanizması).
- KL ceza referans modelden uzaklaşmayı sınırlar.
İşte bu. Kritik yok, ayrı value model yok.
Neden çalışır
Klasik RL'de "advantage" olarak hesaplanır — kritik. Bu hangi durumun "iyi" olduğunu öğrenen ayrı bir model.
GRPO'nun trick'i: aynı sorudan birden fazla örnek aldığınızda, grup ortalaması zaten "bu sorunun beklenen ödülü" yi tahmin eder. Kritik gereksiz.
Bu yaklaşım özellikle akıl yürütme görevlerinde işe yarar:
- Aynı soruya birden çok yaklaşım dene.
- Doğru cevaba ulaşan trajektorileri ödüllendir.
- Yanlış olanlardan uzaklaş.
Matematik problemleri için neden ideal
GRPO'nun parlaklığı verifiable rewards'da:
- Matematik: cevap doğru mu? Hesapla, kontrol et. Ödül modeli gerek değil.
- Kod: derleme + unit test? Çalıştır. Subjektif değer yok.
Bu görevlerde ödül deterministik ve net. RLHF'in en zor parçası (ödül modeli) tamamen kaldırılır.
DeepSeek-R1 nasıl eğitildi
DeepSeek-V3 base modelinden başlayarak:
- R1-Zero (saf RL): Doğrudan GRPO uygula, hiç SFT yok. Matematik benchmarklarında patlama. Ama dil karışık (Çince-İngilizce karışmış), kötü formatlama.
- R1 (karma): Önce 1000 örnekle SFT, sonra GRPO, sonra rejection sampling fine-tune, sonra son GRPO turu.
Sonuç: AIME 2024'te 79.8% (önde gelen modellerden iyi), MATH-500'de 97.3% — GPT-4o seviyesi.
Aha moment
R1-Zero eğitimi sırasında ilginç bir gözlem: model kendiliğinden "düşünme zamanı" alıyor — bir problemde hata yaptığını fark ettiğinde yarıda durup yeniden başlıyordu. Cevaplarda "ah, hayır, başka şekilde deneyelim" gibi cümleler.
DeepSeek bunu "Aha Moment" olarak adlandırdı. Bu davranış öğretilmedi; GRPO eğitimi sırasında ortaya çıktı. Sadece "doğru cevap iyi" sinyaliyle.
Bu, emergent reasoning ya da inference-time scaling olarak adlandırılan paradigmanın somut örneği — OpenAI o1 ile aynı dönemde.
Avantajlar — özet
GRPO'nun PPO'ya göre avantajları:
| Boyut | PPO | GRPO |
|---|---|---|
| Modeller | 4 (pol, ref, kritik, ödül) | 2 (pol, ref) |
| Kritik | Var | Yok |
| Ödül modeli | Var | Verifiable görevlerde yok |
| Bellek | Yüksek | %40-50 düşük |
| Eğitim hızı | Yavaş | Hızlı |
| Karmaşıklık | Yüksek | Orta |
Sınırlamaları
- Verifiable reward gerek. Matematik, kod için ideal. Yaratıcı yazı için zor.
- Group size önemli. Çok küçükse advantage gürültülü, çok büyükse pahalı.
- Çeşitlilik için yüksek sıcaklık gerek. Aynı cevabı kez üretirsen "ortalama" anlamsız.
Endüstri etkisi
GRPO 2024 sonu ve 2025 başında modeller arası yayıldı:
- DeepSeek-R1 (2025): Orijinal yayım, açık ağırlık.
- Qwen-2.5-Math (2024): Alibaba'nın matematik modeli.
- OpenMathInstruct-2 (2024): NVIDIA'nın matematik için açık ekosistemi.
- Tülu 3 (2024, Allen AI): GRPO ve DPO karma.
GRPO'nun OpenAI o1 ve Anthropic'in reasoning modellerinde kullanıldığı gayri resmi olarak iddia ediliyor.
Klasik benzetme
Bir öğretmen sınıfa bir matematik problemi veriyor. Klasik yöntem (PPO): her cevabı 1-10 arası puanla. Bu puanları öğrenen ayrı bir "kritik" eğit. Sonra öğrencileri buna göre değerlendir.
GRPO: aynı problemi 64 öğrenciye sor. Doğru cevap verenler ortalamadan yukarı, yanlışlar aşağı. Doğru olanların yöntemini kopyala. Kritik yok.
Sade ders
GRPO hikâyesinden iki şey:
- Daha az model = daha iyi sonuç (bazen). PPO'nun 4-model şeması GRPO'nun 2-model şemasıyla aynı sonucu, daha az kaynakla veriyor.
- Sentetik ödül emergence yaratır. Sadece "doğru cevap iyi" sinyaliyle model kendiliğinden akıl yürütme öğrendi. Bu, scaling laws kadar önemli bir bulgu.
Bağlam
DPO ile karşılaştırma için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. PPO ve klasik RLHF için: [[ppo-trpo-modern-rl-algoritmalari]]. DeepSeek için: [[deepseek-r1-cin-ai-i-acik-kaynak-ile]] (varsa). Inference-time scaling için: [[o1-chain-of-thought-reasoning]] (varsa). Emergent reasoning için: [[chain-of-thought-prompting-llm-akil-yuru]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. GRPO'nun temel fikri nedir?
2. GRPO neden matematik/kod için ideal?
3. DeepSeek-R1'in "Aha moment" nedir?
4. GRPO advantage formülü nedir?
5. GRPO'nun en büyük sınırı nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?