Markov Decision Process — $(S, A, P, R, \gamma)$ ile karar verme çerçevesi

Bellman denklemi ne anlatır?

Bir durumun değeri = mevcut ödül + gelecek değerlerin beklentisi

Partially Observable MDP — durumu kısmi gözlemli; gerçekçi

Durum = bağlam, eylem = sonraki token, ödül = insan tercihi

MDP: Pekiştirmeli Öğrenmenin Matematik İskeleti

Hayat — bir karar süreci

Her gün karar veriyorsun. Sabah uyanıp ne yiyeceksin? Hangi yoldan işe gideceksin? Hangi projeye odaklanacaksın?

Her karar:

Şu anki durum (uyanık, ne kadar zaman var, ne kadar para).
Olası eylemler (kahvaltı, atla, balık).
Sonuç (tok, açık, sağlık etkisi).
Yeni durum (sonraki anın koşulları).

Bu karar verme sürecidir. Matematik dili: MDP.

MDP — formal tanım

Bir Markov Decision Process = $(S, A, P, R, \gamma)$ .

$S$ : Durumlar kümesi.
$A$ : Eylemler kümesi.
$P(s'|s, a)$ : Geçiş olasılığı — şu anda $s$ 'de, $a$ yaptım, sonra $s'$ 'e geçme olasılığı.
$R(s, a)$ : Ödül — bu durumda bu eylemi yapınca ne kazanırım.
$\gamma$ : Discount factor — gelecek ödüller bugüne göre ne kadar değerli.

Bu küçük çerçeve modern RL'in tüm matematiğini kapsar.

Markov özelliği

"Şu anki durum geleceği tam belirler." Geçmiş ilgisiz.

Yani: bir satranç oyuncusu, sadece şu anki tahtaya bakar. Önceki hamleler önemli değil (mantıken).

Bu basitleştirme matematiği yapılabilir kılar.

Politika ve değer

İki temel kavram:

Politika ( $\pi$ )

Hangi durumda hangi eylemi yapacağımı söyleyen fonksiyon: $\pi(a|s)$ .

Değer fonksiyonu ( $V$ )

Her durumun "kalitesi". Şu anki durumdan başlayarak, optimal davranırsam ne kadar gelecek ödül alırım?

V(s) = \mathbb{E}\left[\sum_{t=0}^\infty \gamma^t R_t | s_0 = s\right]

Bellman denklemi — RL'in kalbi

Sutton ve Bellman'in temel formülasyonu:

V(s) = \max_a \left[ R(s, a) + \gamma \sum_{s'} P(s'|s, a) V(s') \right]

Yorum: bir durumun değeri = mevcut ödül + gelecek durumların değerinin beklenen değeri.

Bu dinamik programlama denklemi. Her optimal RL algoritması bunun türevi.

Q-fonksiyonu

Daha kullanışlı: $Q(s, a)$ = " $s$ durumda $a$ eylemi yapma değeri."

Q(s, a) = R(s, a) + \gamma \sum_{s'} P(s'|s, a) \max_{a'} Q(s', a')

Bu Q-learning algoritmasının temelidir. AlphaGo dahil pek çok RL sistemde merkezdedir.

Pratik uygulamalar

Robotik

Durum: Robot pozisyonu, sensör okumaları.
Eylem: Motor kontrolü.
Ödül: Hedefe ulaşma.

Oyun

Durum: Oyun ekranı.
Eylem: Klavye/oyun kumandası.
Ödül: Skor.

LLM RLHF

Durum: Şu ana kadar üretilen text.
Eylem: Sonraki token.
Ödül: İnsan tercihi.

Bütün modern RL bu çerçevede. Sadece boyutlar değişir.

"Tam vs kısmi gözlemli"

MDP varsayımı: tam gözlemli. Şu anki durumu tam biliyorum.

Pratikte çoğu zaman değil:

Robot kısmi sensör ile dünyayı görmüş.
Oyuncu rakibin elini bilmez.
LLM tam bağlamı görür ama kullanıcı niyetini bilmez.

Çözüm: POMDP (Partially Observable MDP). Daha karmaşık ama gerçekçi.

Klasik benzetme

Bir labirente girdin. Her odada:

Sağ, sol, ileri seçenekleri var (eylemler).
Bazı odalar değerli (ödül).
Bazıları çıkmaz (negatif ödül).
Sonsuza kadar mı, $\gamma^t$ ile gelecek azalır.

MDP = optimum gezinti stratejisi bul.

Sade ders

MDP hikâyesinden iki şey:

Sade çerçeve büyük güçtür. $(S, A, P, R, \gamma)$ beşliği muazzam karmaşık problemler için yeter. Sutton-Barto bu sadeliği akademik araç haline getirdi.
Modern AI MDP üzerine kurulu. AlphaGo, ChatGPT RLHF, otonom araç — hepsi MDP varyantları. Tek bir matematik çerçevesi modern AI'ın temeli.

Bağlam

Rich Sutton için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]]. PPO ve modern RL için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]]. Modern RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. AlphaGo MCTS için: [[monte-carlo-tree-search-mcts-alphagonun-zekasinin-kalbi]]. Robotik için: [[pieter-abbeel-robotik-ve-pekistirmeli-ogrenmenin-pratik-yuzu]].

MDP: Pekiştirmeli Öğrenmenin Matematik İskeleti

Hayat — bir karar süreci

MDP — formal tanım

Markov özelliği

Politika ve değer

Politika ( $\pi$ )

Değer fonksiyonu ( $V$ )

Bellman denklemi — RL'in kalbi

Q-fonksiyonu

Pratik uygulamalar

Robotik

Oyun

LLM RLHF

"Tam vs kısmi gözlemli"

Klasik benzetme

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü

MDP: Pekiştirmeli Öğrenmenin Matematik İskeleti

Hayat — bir karar süreci

MDP — formal tanım

Markov özelliği

Politika ve değer

Politika (π\piπ)

Değer fonksiyonu (VVV)

Bellman denklemi — RL'in kalbi

Q-fonksiyonu

Pratik uygulamalar

Robotik

Oyun

LLM RLHF

"Tam vs kısmi gözlemli"

Klasik benzetme

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü

Politika ( $\pi$ )

Değer fonksiyonu ( $V$ )