Tüm yazılar
Matematik6 Haziran 2025

GRPO: DeepSeek'in Akıl Yürütme için RL Algoritması

DeepSeek-R1'in arkasındaki, PPO'dan basit ve ödül modeline ihtiyaç duymayan modern pekiştirmeli öğrenme yöntemi.

Matematik Karavanı 7 dk okuma 5 soru
Grup ve karşılaştırma — GRPO'nun grup-göreceli yapısı

DeepSeek devrimi

Ocak 2025'te küçük bir Çin start-up'ı DeepSeek R1 modelini açık kaynak olarak yayımladı. Performans: GPT-4o'ya yakın, eğitim maliyeti 5.6 milyon dolar (OpenAI/Anthropic'in onda biri). Stok piyasası NVIDIA hisselerini bir günde 600 milyar dolar düşürdü.

R1'in sırrı tek bir bileşende değil — eğitim teknolojisi mimarisi paketi. Ama en dikkat çekici bileşen: GRPO (Group Relative Policy Optimization).

PPO'nun sorunları (kısa)

Modern LLM'lerin RLHF'i genellikle PPO ile yapılır. PPO'nun sorunları:

  1. Dört model: Politika, referans, ödül, kritik. Bellek kıt.
  2. Kritik (value function) eğitimi zor: Ayrı bir sinir ağı, ayrı kayıp.
  3. Hayalet ödül: Ödül modeli "yanıltıcı" özellikleri ödüllendirir.
  4. Hiper-parametre cehennemi: KL ceza, advantage hesabı, vb.

DeepSeek'in DeepSeekMath (Şubat 2024) makalesi bu sorunlara saldırdı.

GRPO — fikir

Temel sezgi:

"Kritik'i (value network) atın. Bunun yerine, aynı sorudan birkaç örnek alın. Bu örneklerin grup ortalamasına göre advantage hesaplayın."

Algoritma:

  1. Bir soru qq al. Model şu anki politika πθ\pi_\theta ile GG farklı cevap üret (G=64G=64 tipik).
  2. Her cevaba bir ödül rir_i ata. (Matematik: doğru/yanlış kontrol; kod: derleme + test.)
  3. Grup-göreceli advantage: Ai=rimean(r1,,rG)std(r1,,rG)A_i = \frac{r_i - \text{mean}(r_1, \ldots, r_G)}{\text{std}(r_1, \ldots, r_G)}
  4. Bu advantage'la politika güncelleme (PPO benzeri klip mekanizması).
  5. KL ceza referans modelden uzaklaşmayı sınırlar.

İşte bu. Kritik yok, ayrı value model yok.

Neden çalışır

Klasik RL'de "advantage" rV(s)r - V(s) olarak hesaplanır — VV kritik. Bu hangi durumun "iyi" olduğunu öğrenen ayrı bir model.

GRPO'nun trick'i: aynı sorudan birden fazla örnek aldığınızda, grup ortalaması zaten "bu sorunun beklenen ödülü" yi tahmin eder. Kritik gereksiz.

Bu yaklaşım özellikle akıl yürütme görevlerinde işe yarar:

  • Aynı soruya birden çok yaklaşım dene.
  • Doğru cevaba ulaşan trajektorileri ödüllendir.
  • Yanlış olanlardan uzaklaş.

Matematik problemleri için neden ideal

GRPO'nun parlaklığı verifiable rewards'da:

  • Matematik: cevap doğru mu? Hesapla, kontrol et. Ödül modeli gerek değil.
  • Kod: derleme + unit test? Çalıştır. Subjektif değer yok.

Bu görevlerde ödül deterministik ve net. RLHF'in en zor parçası (ödül modeli) tamamen kaldırılır.

DeepSeek-R1 nasıl eğitildi

DeepSeek-V3 base modelinden başlayarak:

  1. R1-Zero (saf RL): Doğrudan GRPO uygula, hiç SFT yok. Matematik benchmarklarında patlama. Ama dil karışık (Çince-İngilizce karışmış), kötü formatlama.
  2. R1 (karma): Önce 1000 örnekle SFT, sonra GRPO, sonra rejection sampling fine-tune, sonra son GRPO turu.

Sonuç: AIME 2024'te 79.8% (önde gelen modellerden iyi), MATH-500'de 97.3% — GPT-4o seviyesi.

Aha moment

R1-Zero eğitimi sırasında ilginç bir gözlem: model kendiliğinden "düşünme zamanı" alıyor — bir problemde hata yaptığını fark ettiğinde yarıda durup yeniden başlıyordu. Cevaplarda "ah, hayır, başka şekilde deneyelim" gibi cümleler.

DeepSeek bunu "Aha Moment" olarak adlandırdı. Bu davranış öğretilmedi; GRPO eğitimi sırasında ortaya çıktı. Sadece "doğru cevap iyi" sinyaliyle.

Bu, emergent reasoning ya da inference-time scaling olarak adlandırılan paradigmanın somut örneği — OpenAI o1 ile aynı dönemde.

Avantajlar — özet

GRPO'nun PPO'ya göre avantajları:

BoyutPPOGRPO
Modeller4 (pol, ref, kritik, ödül)2 (pol, ref)
KritikVarYok
Ödül modeliVarVerifiable görevlerde yok
BellekYüksek%40-50 düşük
Eğitim hızıYavaşHızlı
KarmaşıklıkYüksekOrta

Sınırlamaları

  1. Verifiable reward gerek. Matematik, kod için ideal. Yaratıcı yazı için zor.
  2. Group size GG önemli. Çok küçükse advantage gürültülü, çok büyükse pahalı.
  3. Çeşitlilik için yüksek sıcaklık gerek. Aynı cevabı GG kez üretirsen "ortalama" anlamsız.

Endüstri etkisi

GRPO 2024 sonu ve 2025 başında modeller arası yayıldı:

  • DeepSeek-R1 (2025): Orijinal yayım, açık ağırlık.
  • Qwen-2.5-Math (2024): Alibaba'nın matematik modeli.
  • OpenMathInstruct-2 (2024): NVIDIA'nın matematik için açık ekosistemi.
  • Tülu 3 (2024, Allen AI): GRPO ve DPO karma.

GRPO'nun OpenAI o1 ve Anthropic'in reasoning modellerinde kullanıldığı gayri resmi olarak iddia ediliyor.

Klasik benzetme

Bir öğretmen sınıfa bir matematik problemi veriyor. Klasik yöntem (PPO): her cevabı 1-10 arası puanla. Bu puanları öğrenen ayrı bir "kritik" eğit. Sonra öğrencileri buna göre değerlendir.

GRPO: aynı problemi 64 öğrenciye sor. Doğru cevap verenler ortalamadan yukarı, yanlışlar aşağı. Doğru olanların yöntemini kopyala. Kritik yok.

Sade ders

GRPO hikâyesinden iki şey:

  1. Daha az model = daha iyi sonuç (bazen). PPO'nun 4-model şeması GRPO'nun 2-model şemasıyla aynı sonucu, daha az kaynakla veriyor.
  2. Sentetik ödül emergence yaratır. Sadece "doğru cevap iyi" sinyaliyle model kendiliğinden akıl yürütme öğrendi. Bu, scaling laws kadar önemli bir bulgu.

Bağlam

DPO ile karşılaştırma için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. PPO ve klasik RLHF için: [[ppo-trpo-modern-rl-algoritmalari]]. DeepSeek için: [[deepseek-r1-cin-ai-i-acik-kaynak-ile]] (varsa). Inference-time scaling için: [[o1-chain-of-thought-reasoning]] (varsa). Emergent reasoning için: [[chain-of-thought-prompting-llm-akil-yuru]].

Etiketler

GRPODeepSeek-R1RLHFreasoningPPO

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. GRPO'nun temel fikri nedir?

2. GRPO neden matematik/kod için ideal?

3. DeepSeek-R1'in "Aha moment" nedir?

4. GRPO advantage formülü nedir?

5. GRPO'nun en büyük sınırı nedir?