GRPO'nun temel fikri nedir?

Aynı sorudan $G$ örnek üret, grup ortalamasıyla advantage hesapla; kritik (value network) gereksiz

GRPO neden matematik/kod için ideal?

Verifiable reward (doğru/yanlış hesap, derleme/test) — ödül modeli gerek değil

DeepSeek-R1'in "Aha moment" nedir?

Model GRPO eğitimi sırasında kendiliğinden "düşünme zamanı" almaya başladı — emergent reasoning

GRPO advantage formülü nedir?

$(r_i - \text{mean}) / \text{std}$ — grup ortalama ve standart sapmaya göre

GRPO'nun en büyük sınırı nedir?

Verifiable reward gerek; yaratıcı yazı gibi subjektif görevlerde zor

GRPO: DeepSeek'in Akıl Yürütme için RL Algoritması

DeepSeek devrimi

Ocak 2025'te küçük bir Çin start-up'ı DeepSeek R1 modelini açık kaynak olarak yayımladı. Performans: GPT-4o'ya yakın, eğitim maliyeti 5.6 milyon dolar (OpenAI/Anthropic'in onda biri). Stok piyasası NVIDIA hisselerini bir günde 600 milyar dolar düşürdü.

R1'in sırrı tek bir bileşende değil — eğitim teknolojisi mimarisi paketi. Ama en dikkat çekici bileşen: GRPO (Group Relative Policy Optimization).

PPO'nun sorunları (kısa)

Modern LLM'lerin RLHF'i genellikle PPO ile yapılır. PPO'nun sorunları:

Dört model: Politika, referans, ödül, kritik. Bellek kıt.
Kritik (value function) eğitimi zor: Ayrı bir sinir ağı, ayrı kayıp.
Hayalet ödül: Ödül modeli "yanıltıcı" özellikleri ödüllendirir.
Hiper-parametre cehennemi: KL ceza, advantage hesabı, vb.

DeepSeek'in DeepSeekMath (Şubat 2024) makalesi bu sorunlara saldırdı.

GRPO — fikir

Temel sezgi:

"Kritik'i (value network) atın. Bunun yerine, aynı sorudan birkaç örnek alın. Bu örneklerin grup ortalamasına göre advantage hesaplayın."

Algoritma:

Bir soru $q$ al. Model şu anki politika $\pi_\theta$ ile $G$ farklı cevap üret ( $G=64$ tipik).
Her cevaba bir ödül $r_i$ ata. (Matematik: doğru/yanlış kontrol; kod: derleme + test.)
Grup-göreceli advantage: $A_i = \frac{r_i - \text{mean}(r_1, \ldots, r_G)}{\text{std}(r_1, \ldots, r_G)}$
Bu advantage'la politika güncelleme (PPO benzeri klip mekanizması).
KL ceza referans modelden uzaklaşmayı sınırlar.

İşte bu. Kritik yok, ayrı value model yok.

Neden çalışır

Klasik RL'de "advantage" $r - V(s)$ olarak hesaplanır — $V$ kritik. Bu hangi durumun "iyi" olduğunu öğrenen ayrı bir model.

GRPO'nun trick'i: aynı sorudan birden fazla örnek aldığınızda, grup ortalaması zaten "bu sorunun beklenen ödülü" yi tahmin eder. Kritik gereksiz.

Bu yaklaşım özellikle akıl yürütme görevlerinde işe yarar:

Aynı soruya birden çok yaklaşım dene.
Doğru cevaba ulaşan trajektorileri ödüllendir.
Yanlış olanlardan uzaklaş.

Matematik problemleri için neden ideal

GRPO'nun parlaklığı verifiable rewards'da:

Matematik: cevap doğru mu? Hesapla, kontrol et. Ödül modeli gerek değil.
Kod: derleme + unit test? Çalıştır. Subjektif değer yok.

Bu görevlerde ödül deterministik ve net. RLHF'in en zor parçası (ödül modeli) tamamen kaldırılır.

DeepSeek-R1 nasıl eğitildi

DeepSeek-V3 base modelinden başlayarak:

R1-Zero (saf RL): Doğrudan GRPO uygula, hiç SFT yok. Matematik benchmarklarında patlama. Ama dil karışık (Çince-İngilizce karışmış), kötü formatlama.
R1 (karma): Önce 1000 örnekle SFT, sonra GRPO, sonra rejection sampling fine-tune, sonra son GRPO turu.

Sonuç: AIME 2024'te 79.8% (önde gelen modellerden iyi), MATH-500'de 97.3% — GPT-4o seviyesi.

Aha moment

R1-Zero eğitimi sırasında ilginç bir gözlem: model kendiliğinden "düşünme zamanı" alıyor — bir problemde hata yaptığını fark ettiğinde yarıda durup yeniden başlıyordu. Cevaplarda "ah, hayır, başka şekilde deneyelim" gibi cümleler.

DeepSeek bunu "Aha Moment" olarak adlandırdı. Bu davranış öğretilmedi; GRPO eğitimi sırasında ortaya çıktı. Sadece "doğru cevap iyi" sinyaliyle.

Bu, emergent reasoning ya da inference-time scaling olarak adlandırılan paradigmanın somut örneği — OpenAI o1 ile aynı dönemde.

Avantajlar — özet

GRPO'nun PPO'ya göre avantajları:

Boyut	PPO	GRPO
Modeller	4 (pol, ref, kritik, ödül)	2 (pol, ref)
Kritik	Var	Yok
Ödül modeli	Var	Verifiable görevlerde yok
Bellek	Yüksek	%40-50 düşük
Eğitim hızı	Yavaş	Hızlı
Karmaşıklık	Yüksek	Orta

Sınırlamaları

Verifiable reward gerek. Matematik, kod için ideal. Yaratıcı yazı için zor.
Group size $G$ önemli. Çok küçükse advantage gürültülü, çok büyükse pahalı.
Çeşitlilik için yüksek sıcaklık gerek. Aynı cevabı $G$ kez üretirsen "ortalama" anlamsız.

Endüstri etkisi

GRPO 2024 sonu ve 2025 başında modeller arası yayıldı:

DeepSeek-R1 (2025): Orijinal yayım, açık ağırlık.
Qwen-2.5-Math (2024): Alibaba'nın matematik modeli.
OpenMathInstruct-2 (2024): NVIDIA'nın matematik için açık ekosistemi.
Tülu 3 (2024, Allen AI): GRPO ve DPO karma.

GRPO'nun OpenAI o1 ve Anthropic'in reasoning modellerinde kullanıldığı gayri resmi olarak iddia ediliyor.

Klasik benzetme

Bir öğretmen sınıfa bir matematik problemi veriyor. Klasik yöntem (PPO): her cevabı 1-10 arası puanla. Bu puanları öğrenen ayrı bir "kritik" eğit. Sonra öğrencileri buna göre değerlendir.

GRPO: aynı problemi 64 öğrenciye sor. Doğru cevap verenler ortalamadan yukarı, yanlışlar aşağı. Doğru olanların yöntemini kopyala. Kritik yok.

Sade ders

GRPO hikâyesinden iki şey:

Daha az model = daha iyi sonuç (bazen). PPO'nun 4-model şeması GRPO'nun 2-model şemasıyla aynı sonucu, daha az kaynakla veriyor.
Sentetik ödül emergence yaratır. Sadece "doğru cevap iyi" sinyaliyle model kendiliğinden akıl yürütme öğrendi. Bu, scaling laws kadar önemli bir bulgu.

Bağlam

DPO ile karşılaştırma için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. PPO ve klasik RLHF için: [[ppo-trpo-modern-rl-algoritmalari]]. DeepSeek için: [[deepseek-r1-cin-ai-i-acik-kaynak-ile]] (varsa). Inference-time scaling için: [[o1-chain-of-thought-reasoning]] (varsa). Emergent reasoning için: [[chain-of-thought-prompting-llm-akil-yuru]].