Tüm yazılar
Matematik22 Mart 2025

MDP: Pekiştirmeli Öğrenmenin Matematik İskeleti

Bir robot, bir oyuncu, bir AI — hepsi aynı çerçevede karar verir: Markov Karar Süreci. Modern RL'in temel taşı.

Matematik Karavanı 6 dk okuma 5 soru
Yön levhası — MDP'nin karar metaforu

Hayat — bir karar süreci

Her gün karar veriyorsun. Sabah uyanıp ne yiyeceksin? Hangi yoldan işe gideceksin? Hangi projeye odaklanacaksın?

Her karar:

  1. Şu anki durum (uyanık, ne kadar zaman var, ne kadar para).
  2. Olası eylemler (kahvaltı, atla, balık).
  3. Sonuç (tok, açık, sağlık etkisi).
  4. Yeni durum (sonraki anın koşulları).

Bu karar verme sürecidir. Matematik dili: MDP.

MDP — formal tanım

Bir Markov Decision Process = (S,A,P,R,γ)(S, A, P, R, \gamma).

  • SS: Durumlar kümesi.
  • AA: Eylemler kümesi.
  • P(ss,a)P(s'|s, a): Geçiş olasılığı — şu anda ss'de, aa yaptım, sonra ss''e geçme olasılığı.
  • R(s,a)R(s, a): Ödül — bu durumda bu eylemi yapınca ne kazanırım.
  • γ\gamma: Discount factor — gelecek ödüller bugüne göre ne kadar değerli.

Bu küçük çerçeve modern RL'in tüm matematiğini kapsar.

Markov özelliği

"Şu anki durum geleceği tam belirler." Geçmiş ilgisiz.

Yani: bir satranç oyuncusu, sadece şu anki tahtaya bakar. Önceki hamleler önemli değil (mantıken).

Bu basitleştirme matematiği yapılabilir kılar.

Politika ve değer

İki temel kavram:

Politika (π\pi)

Hangi durumda hangi eylemi yapacağımı söyleyen fonksiyon: π(as)\pi(a|s).

Değer fonksiyonu (VV)

Her durumun "kalitesi". Şu anki durumdan başlayarak, optimal davranırsam ne kadar gelecek ödül alırım?

V(s)=E[t=0γtRts0=s]V(s) = \mathbb{E}\left[\sum_{t=0}^\infty \gamma^t R_t | s_0 = s\right]

Bellman denklemi — RL'in kalbi

Sutton ve Bellman'in temel formülasyonu:

V(s)=maxa[R(s,a)+γsP(ss,a)V(s)]V(s) = \max_a \left[ R(s, a) + \gamma \sum_{s'} P(s'|s, a) V(s') \right]

Yorum: bir durumun değeri = mevcut ödül + gelecek durumların değerinin beklenen değeri.

Bu dinamik programlama denklemi. Her optimal RL algoritması bunun türevi.

Q-fonksiyonu

Daha kullanışlı: Q(s,a)Q(s, a) = "ss durumda aa eylemi yapma değeri."

Q(s,a)=R(s,a)+γsP(ss,a)maxaQ(s,a)Q(s, a) = R(s, a) + \gamma \sum_{s'} P(s'|s, a) \max_{a'} Q(s', a')

Bu Q-learning algoritmasının temelidir. AlphaGo dahil pek çok RL sistemde merkezdedir.

Pratik uygulamalar

Robotik

  • Durum: Robot pozisyonu, sensör okumaları.
  • Eylem: Motor kontrolü.
  • Ödül: Hedefe ulaşma.

Oyun

  • Durum: Oyun ekranı.
  • Eylem: Klavye/oyun kumandası.
  • Ödül: Skor.

LLM RLHF

  • Durum: Şu ana kadar üretilen text.
  • Eylem: Sonraki token.
  • Ödül: İnsan tercihi.

Bütün modern RL bu çerçevede. Sadece boyutlar değişir.

"Tam vs kısmi gözlemli"

MDP varsayımı: tam gözlemli. Şu anki durumu tam biliyorum.

Pratikte çoğu zaman değil:

  • Robot kısmi sensör ile dünyayı görmüş.
  • Oyuncu rakibin elini bilmez.
  • LLM tam bağlamı görür ama kullanıcı niyetini bilmez.

Çözüm: POMDP (Partially Observable MDP). Daha karmaşık ama gerçekçi.

Klasik benzetme

Bir labirente girdin. Her odada:

  • Sağ, sol, ileri seçenekleri var (eylemler).
  • Bazı odalar değerli (ödül).
  • Bazıları çıkmaz (negatif ödül).
  • Sonsuza kadar mı, γt\gamma^t ile gelecek azalır.

MDP = optimum gezinti stratejisi bul.

Sade ders

MDP hikâyesinden iki şey:

  1. Sade çerçeve büyük güçtür. (S,A,P,R,γ)(S, A, P, R, \gamma) beşliği muazzam karmaşık problemler için yeter. Sutton-Barto bu sadeliği akademik araç haline getirdi.
  2. Modern AI MDP üzerine kurulu. AlphaGo, ChatGPT RLHF, otonom araç — hepsi MDP varyantları. Tek bir matematik çerçevesi modern AI'ın temeli.

Bağlam

Rich Sutton için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]]. PPO ve modern RL için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]]. Modern RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. AlphaGo MCTS için: [[monte-carlo-tree-search-mcts-alphagonun-zekasinin-kalbi]]. Robotik için: [[pieter-abbeel-robotik-ve-pekistirmeli-ogrenmenin-pratik-yuzu]].

Etiketler

MDPpekiştirmeli öğrenmeMarkovBellmanRL

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. MDP nedir?

2. Markov özelliği nedir?

3. Bellman denklemi ne anlatır?

4. POMDP nedir?

5. LLM RLHF MDP olarak?