Pekiştirmeli öğrenmenin temel kavramları nelerdir?

Ajan, durum (state), eylem (action), ödül (reward), politika (policy), değer fonksiyonu

Bellman denklemi neyi tanımlar?

Optimal değer fonksiyonu için özyinelemeli ilişki: bir durumun değeri = mevcut ödül + indirilmiş gelecek değeri

AlphaGo (2016) ne başardı?

Go oyununun dünya şampiyonlarından Lee Sedol'u 4-1 yendi; bu bilim camiasında şok yarattı

Pekiştirmeli öğrenmenin temel ikilemi nedir?

Exploitation (bildiğin en iyiyi yap) vs Exploration (yeniyi dene) — bu denge RL'nin temel zorluklarından

Modern ChatGPT/GPT-4 son eğitim aşamasında hangi yöntemi kullanır?

RLHF (Reinforcement Learning from Human Feedback) — insan değerlendirmelerinden pekiştirmeli öğrenme; "insan gibi yanıt verme" yeteneği bu sayede

Tüm yazılar

Matematik12 Eylül 2025

Pekiştirmeli Öğrenme: Deneme-Yanılma ile Zekayı Öğretmek

Bir bebek yürümeyi nasıl öğrenir? Düşer, kalkar, ödül-cezayla deneyimler. Pekiştirmeli öğrenme bunun matematiksel formudur — 2016'da AlphaGo dünya şampiyonunu bu yöntemle yendi.

Matematik Karavanı Editörü 8 dk okuma 5 soru

Bebek nasıl yürümeyi öğrenir?

Bir bebek yürümeyi kitaptan okuyarak öğrenmez. Hiç yürüme dersi almaz. Sadece:

Denenir: ayağa kalkar.
Düşer: olumsuz geri bildirim.
Tekrar dener: belki biraz farklı.
Başarı: bir adım atar; pozitif geri bildirim (belki anne gülümser).
Tekrarlanır. Sonunda yürüme öğrenilir.

Bu süreç — deneme-yanılma + ödül/ceza — pekiştirmeli öğrenme'nin (Reinforcement Learning, RL) özüdür.

RL nedir?

Pekiştirmeli öğrenme: bir ajan, bir çevre ile etkileşir; eylemler seçer; ödül alır; amacı toplam ödülü maksimize etmek.

Resmi olarak:

Durum (state) $s$ : dünyanın o anki halini tanımlar.
Eylem (action) $a$ : ajanın yapabileceği seçimler.
Ödül (reward) $r$ : eylem sonucu sayısal geri bildirim.
Politika (policy) $\pi(a|s)$ : hangi durumda hangi eylemi seçeceği.
Değer fonksiyonu (value function) $V(s)$ : bir durumdan beklenen toplam gelecek ödül.

Ajan çevreyi deneyimleyerek en iyi politikayı öğrenmeye çalışır.

Markov Karar Süreci (MDP)

RL'nin matematiksel iskeleti Markov Karar Süreci (Markov Decision Process, MDP):

Durum kümesi $S$
Eylem kümesi $A$
Geçiş olasılığı $P(s' | s, a)$ : $s$ durumunda $a$ eylemi yaparsa $s'$ durumuna geçme olasılığı.
Ödül fonksiyonu $R(s, a, s')$
İndirim faktörü $\gamma \in [0, 1]$ : gelecekteki ödüllerin bugünkü değeri.

Amaç: toplam indirilmiş ödülü maksimize edecek $\pi^*$ optimal politikasını bulmak.

Bellman denklemi

RL'nin temel matematiksel denklemi: Bellman denklemi (Richard Bellman, 1957).

Optimal değer fonksiyonu için:

$V^*(s) = \max_a \left\{ R(s, a) + \gamma \sum_{s'} P(s'|s,a) V^*(s') \right\}$

Sezgi: bir durumun değeri = mevcut ödül + indirilmiş gelecek beklenen değer.

Bu özyinelemeli denklem RL algoritmalarının temelidir. Dinamik programlama ile çözülür.

Q-learning

Q-learning RL'nin en ünlü algoritmasıdır (Christopher Watkins, 1989). Q-fonksiyonu $Q(s, a)$ " $s$ durumunda $a$ eylemini yapıp sonra optimal politika izlemenin beklenen değeri".

Güncelleme kuralı:

$Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]$

$\alpha$ öğrenme oranı, $\gamma$ indirim faktörü.

Bu basit kuralın garantili olarak optimal Q'ya yakınsadığı kanıtlanmıştır (uygun koşullarda).

"Exploration vs exploitation"

RL'nin temel ikilemi:

Exploitation: bildiğin en iyi eylemi yap, kesin ödül al.
Exploration: yeni eylemleri dene, belki daha iyi olabilir.

İkisi arasında dengelemek zor. Klasik strateji: epsilon-greedy ( $\epsilon$ olasılığıyla rastgele, $1-\epsilon$ ile en iyi).

Bu ikilem hayatta da geçerli: bilinen restoran mı, yeni bir yer mi? Modern AI da aynı sorunla yüzleşir.

Derin pekiştirmeli öğrenme (DRL)

2013'ten itibaren RL ile derin öğrenme birleşti: derin pekiştirmeli öğrenme (Deep RL). Q-fonksiyonu artık sinir ağı ile temsil edilir; klasik tablo yetersiz büyük durum uzayları için.

DeepMind'in Atari oyunları çalışması (2013): DQN (Deep Q-Network) Atari oyunlarını insan seviyesinde oynayabildi — sadece ekran piksellerinden öğrenerek.

AlphaGo (2016)

DRL'nin en büyük zaferi: AlphaGo (DeepMind, 2016). Go oyunu — çok karmaşık, $10^{170}$ olası oyun durumu (satrancın $10^{120}$ 'sinden fazla).

AlphaGo Mart 2016'da Lee Sedol ile (Go'nun dünya şampiyonlarından biri) 5 maçlık seri oynadı. 4-1 kazandı. Bilim camiası şokta kaldı.

Sonra AlphaGo Zero (2017): hiç insan verisi olmadan, kendi kendine oynayarak (self-play) öğrenen versiyon. Original AlphaGo'yu 100-0 yendi.

Sonra AlphaZero (2017): tek bir algoritma satranç, Go, Shogi öğrenebilir.

Bu, yapay genel zeka (AGI) yolunda önemli bir kilometre taşı olarak görüldü.

Modern uygulamalar

RL bugün:

1) Robotik

Robot kollarının yeni görevleri öğrenmesi (Boston Dynamics, OpenAI).

2) Otonom araçlar

Tesla, Waymo — şehir içi sürüş kararları.

3) Oyun AI'sı

OpenAI Five (Dota 2), DeepMind StarCraft (StarCraft II) — profesyonel oyuncuları yenen sistemler.

4) Finans

Algoritmik ticaret, portföy optimizasyonu.

5) Enerji ve veri merkezi

DeepMind Google'ın veri merkezlerinde soğutma optimizasyonu ile %40 enerji tasarrufu sağladı.

6) İlaç keşfi

Yeni moleküllerin tasarlanması.

7) Sağlık

Tedavi planlaması, kişiselleştirilmiş tıp.

8) LLM eğitimi

ChatGPT, GPT-4 — son eğitim aşaması RLHF (Reinforcement Learning from Human Feedback) ile yapılır. Yani modern dil modellerinin "insan gibi yanıt verme" yeteneği RL'den geliyor.

Modern RL algoritmaları

Policy gradient (REINFORCE, 1992)
Actor-Critic yöntemleri
PPO (Proximal Policy Optimization, 2017) — OpenAI'nin standardı
SAC (Soft Actor-Critic)
DDPG, TD3 — sürekli eylem uzayları için
MuZero (2019) — modeli olmayan, modeli içeriden öğrenen

"Bellman'in mirası"

Richard Bellman (1920-1984) Amerikan matematikçi, 1950'lerde dinamik programlama'yı geliştirdi. Bellman denklemini icat etti. RL'nin matematiksel temellerini attı.

İkinci Dünya Savaşı sonrası RAND Corporation'da askeri uygulamalar için DP'yi geliştirdi. Modern RL onun 70 yıl önce attığı temel üzerinde duruyor.

RL'nin sınırları

RL bir mucize değil; ciddi sınırlamaları var:

Veri açgözlülüğü: milyonlarca deney gerekir.
Ödül tasarımı zor: yanlış ödül tasarlarsanız beklenmedik davranış (Goodhart's law).
Genelleme zayıf: bir çevrede öğrenilen başka çevreye taşınmaz.
Güvenlik: AI istenmedik şekilde "hile" yapabilir.

Bu sınırlar modern AI güvenlik araştırması'nın merkezi konularıdır.

"Yaşamak gibi öğrenme"

Pekiştirmeli öğrenme, AI'nın insan benzeri öğrenmeye en yakın yaklaşımıdır:

Etiket yok (denetimli öğrenmeden farklı).
Deneme-yanılma.
Geri bildirim (ödül/ceza).
Sürekli adaptasyon.

Bir bebeğin yürümeyi öğrenmesi gibi, RL ajanı da çevreyle etkileşerek öğrenir. Modern AI'nın "akıllı görünme" yeteneğinin önemli bir parçası bu çatı.

Bellman denkleminden AlphaGo'ya 70 yıllık matematiksel macera, modern yapay zekânın en ilgi çekici öykülerinden biri. Belki bir gün yapay genel zekâ da bu yoldan gelecektir.

Etiketler

pekiştirmeli öğrenmereinforcement learningAImarkov kararalphago

İlgili Yazılar

Matematik