MDP: Pekiştirmeli Öğrenmenin Matematik İskeleti
Bir robot, bir oyuncu, bir AI — hepsi aynı çerçevede karar verir: Markov Karar Süreci. Modern RL'in temel taşı.

Hayat — bir karar süreci
Her gün karar veriyorsun. Sabah uyanıp ne yiyeceksin? Hangi yoldan işe gideceksin? Hangi projeye odaklanacaksın?
Her karar:
- Şu anki durum (uyanık, ne kadar zaman var, ne kadar para).
- Olası eylemler (kahvaltı, atla, balık).
- Sonuç (tok, açık, sağlık etkisi).
- Yeni durum (sonraki anın koşulları).
Bu karar verme sürecidir. Matematik dili: MDP.
MDP — formal tanım
Bir Markov Decision Process = .
- : Durumlar kümesi.
- : Eylemler kümesi.
- : Geçiş olasılığı — şu anda 'de, yaptım, sonra 'e geçme olasılığı.
- : Ödül — bu durumda bu eylemi yapınca ne kazanırım.
- : Discount factor — gelecek ödüller bugüne göre ne kadar değerli.
Bu küçük çerçeve modern RL'in tüm matematiğini kapsar.
Markov özelliği
"Şu anki durum geleceği tam belirler." Geçmiş ilgisiz.
Yani: bir satranç oyuncusu, sadece şu anki tahtaya bakar. Önceki hamleler önemli değil (mantıken).
Bu basitleştirme matematiği yapılabilir kılar.
Politika ve değer
İki temel kavram:
Politika ()
Hangi durumda hangi eylemi yapacağımı söyleyen fonksiyon: .
Değer fonksiyonu ()
Her durumun "kalitesi". Şu anki durumdan başlayarak, optimal davranırsam ne kadar gelecek ödül alırım?
Bellman denklemi — RL'in kalbi
Sutton ve Bellman'in temel formülasyonu:
Yorum: bir durumun değeri = mevcut ödül + gelecek durumların değerinin beklenen değeri.
Bu dinamik programlama denklemi. Her optimal RL algoritması bunun türevi.
Q-fonksiyonu
Daha kullanışlı: = " durumda eylemi yapma değeri."
Bu Q-learning algoritmasının temelidir. AlphaGo dahil pek çok RL sistemde merkezdedir.
Pratik uygulamalar
Robotik
- Durum: Robot pozisyonu, sensör okumaları.
- Eylem: Motor kontrolü.
- Ödül: Hedefe ulaşma.
Oyun
- Durum: Oyun ekranı.
- Eylem: Klavye/oyun kumandası.
- Ödül: Skor.
LLM RLHF
- Durum: Şu ana kadar üretilen text.
- Eylem: Sonraki token.
- Ödül: İnsan tercihi.
Bütün modern RL bu çerçevede. Sadece boyutlar değişir.
"Tam vs kısmi gözlemli"
MDP varsayımı: tam gözlemli. Şu anki durumu tam biliyorum.
Pratikte çoğu zaman değil:
- Robot kısmi sensör ile dünyayı görmüş.
- Oyuncu rakibin elini bilmez.
- LLM tam bağlamı görür ama kullanıcı niyetini bilmez.
Çözüm: POMDP (Partially Observable MDP). Daha karmaşık ama gerçekçi.
Klasik benzetme
Bir labirente girdin. Her odada:
- Sağ, sol, ileri seçenekleri var (eylemler).
- Bazı odalar değerli (ödül).
- Bazıları çıkmaz (negatif ödül).
- Sonsuza kadar mı, ile gelecek azalır.
MDP = optimum gezinti stratejisi bul.
Sade ders
MDP hikâyesinden iki şey:
- Sade çerçeve büyük güçtür. beşliği muazzam karmaşık problemler için yeter. Sutton-Barto bu sadeliği akademik araç haline getirdi.
- Modern AI MDP üzerine kurulu. AlphaGo, ChatGPT RLHF, otonom araç — hepsi MDP varyantları. Tek bir matematik çerçevesi modern AI'ın temeli.
Bağlam
Rich Sutton için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]]. PPO ve modern RL için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]]. Modern RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. AlphaGo MCTS için: [[monte-carlo-tree-search-mcts-alphagonun-zekasinin-kalbi]]. Robotik için: [[pieter-abbeel-robotik-ve-pekistirmeli-ogrenmenin-pratik-yuzu]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. MDP nedir?
2. Markov özelliği nedir?
3. Bellman denklemi ne anlatır?
4. POMDP nedir?
5. LLM RLHF MDP olarak?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?