Pekiştirmeli Öğrenme: Deneme-Yanılma ile Zekayı Öğretmek
Bir bebek yürümeyi nasıl öğrenir? Düşer, kalkar, ödül-cezayla deneyimler. Pekiştirmeli öğrenme bunun matematiksel formudur — 2016'da AlphaGo dünya şampiyonunu bu yöntemle yendi.

Bebek nasıl yürümeyi öğrenir?
Bir bebek yürümeyi kitaptan okuyarak öğrenmez. Hiç yürüme dersi almaz. Sadece:
- Denenir: ayağa kalkar.
- Düşer: olumsuz geri bildirim.
- Tekrar dener: belki biraz farklı.
- Başarı: bir adım atar; pozitif geri bildirim (belki anne gülümser).
- Tekrarlanır. Sonunda yürüme öğrenilir.
Bu süreç — deneme-yanılma + ödül/ceza — pekiştirmeli öğrenme'nin (Reinforcement Learning, RL) özüdür.
RL nedir?
Pekiştirmeli öğrenme: bir ajan, bir çevre ile etkileşir; eylemler seçer; ödül alır; amacı toplam ödülü maksimize etmek.
Resmi olarak:
- Durum (state) : dünyanın o anki halini tanımlar.
- Eylem (action) : ajanın yapabileceği seçimler.
- Ödül (reward) : eylem sonucu sayısal geri bildirim.
- Politika (policy) : hangi durumda hangi eylemi seçeceği.
- Değer fonksiyonu (value function) : bir durumdan beklenen toplam gelecek ödül.
Ajan çevreyi deneyimleyerek en iyi politikayı öğrenmeye çalışır.
Markov Karar Süreci (MDP)
RL'nin matematiksel iskeleti Markov Karar Süreci (Markov Decision Process, MDP):
- Durum kümesi
- Eylem kümesi
- Geçiş olasılığı : durumunda eylemi yaparsa durumuna geçme olasılığı.
- Ödül fonksiyonu
- İndirim faktörü : gelecekteki ödüllerin bugünkü değeri.
Amaç: toplam indirilmiş ödülü maksimize edecek optimal politikasını bulmak.
Bellman denklemi
RL'nin temel matematiksel denklemi: Bellman denklemi (Richard Bellman, 1957).
Optimal değer fonksiyonu için:
Sezgi: bir durumun değeri = mevcut ödül + indirilmiş gelecek beklenen değer.
Bu özyinelemeli denklem RL algoritmalarının temelidir. Dinamik programlama ile çözülür.
Q-learning
Q-learning RL'nin en ünlü algoritmasıdır (Christopher Watkins, 1989). Q-fonksiyonu " durumunda eylemini yapıp sonra optimal politika izlemenin beklenen değeri".
Güncelleme kuralı:
öğrenme oranı, indirim faktörü.
Bu basit kuralın garantili olarak optimal Q'ya yakınsadığı kanıtlanmıştır (uygun koşullarda).
"Exploration vs exploitation"
RL'nin temel ikilemi:
- Exploitation: bildiğin en iyi eylemi yap, kesin ödül al.
- Exploration: yeni eylemleri dene, belki daha iyi olabilir.
İkisi arasında dengelemek zor. Klasik strateji: epsilon-greedy ( olasılığıyla rastgele, ile en iyi).
Bu ikilem hayatta da geçerli: bilinen restoran mı, yeni bir yer mi? Modern AI da aynı sorunla yüzleşir.
Derin pekiştirmeli öğrenme (DRL)
2013'ten itibaren RL ile derin öğrenme birleşti: derin pekiştirmeli öğrenme (Deep RL). Q-fonksiyonu artık sinir ağı ile temsil edilir; klasik tablo yetersiz büyük durum uzayları için.
DeepMind'in Atari oyunları çalışması (2013): DQN (Deep Q-Network) Atari oyunlarını insan seviyesinde oynayabildi — sadece ekran piksellerinden öğrenerek.
AlphaGo (2016)
DRL'nin en büyük zaferi: AlphaGo (DeepMind, 2016). Go oyunu — çok karmaşık, olası oyun durumu (satrancın 'sinden fazla).
AlphaGo Mart 2016'da Lee Sedol ile (Go'nun dünya şampiyonlarından biri) 5 maçlık seri oynadı. 4-1 kazandı. Bilim camiası şokta kaldı.
Sonra AlphaGo Zero (2017): hiç insan verisi olmadan, kendi kendine oynayarak (self-play) öğrenen versiyon. Original AlphaGo'yu 100-0 yendi.
Sonra AlphaZero (2017): tek bir algoritma satranç, Go, Shogi öğrenebilir.
Bu, yapay genel zeka (AGI) yolunda önemli bir kilometre taşı olarak görüldü.
Modern uygulamalar
RL bugün:
1) Robotik
Robot kollarının yeni görevleri öğrenmesi (Boston Dynamics, OpenAI).
2) Otonom araçlar
Tesla, Waymo — şehir içi sürüş kararları.
3) Oyun AI'sı
OpenAI Five (Dota 2), DeepMind StarCraft (StarCraft II) — profesyonel oyuncuları yenen sistemler.
4) Finans
Algoritmik ticaret, portföy optimizasyonu.
5) Enerji ve veri merkezi
DeepMind Google'ın veri merkezlerinde soğutma optimizasyonu ile %40 enerji tasarrufu sağladı.
6) İlaç keşfi
Yeni moleküllerin tasarlanması.
7) Sağlık
Tedavi planlaması, kişiselleştirilmiş tıp.
8) LLM eğitimi
ChatGPT, GPT-4 — son eğitim aşaması RLHF (Reinforcement Learning from Human Feedback) ile yapılır. Yani modern dil modellerinin "insan gibi yanıt verme" yeteneği RL'den geliyor.
Modern RL algoritmaları
- Policy gradient (REINFORCE, 1992)
- Actor-Critic yöntemleri
- PPO (Proximal Policy Optimization, 2017) — OpenAI'nin standardı
- SAC (Soft Actor-Critic)
- DDPG, TD3 — sürekli eylem uzayları için
- MuZero (2019) — modeli olmayan, modeli içeriden öğrenen
"Bellman'in mirası"
Richard Bellman (1920-1984) Amerikan matematikçi, 1950'lerde dinamik programlama'yı geliştirdi. Bellman denklemini icat etti. RL'nin matematiksel temellerini attı.
İkinci Dünya Savaşı sonrası RAND Corporation'da askeri uygulamalar için DP'yi geliştirdi. Modern RL onun 70 yıl önce attığı temel üzerinde duruyor.
RL'nin sınırları
RL bir mucize değil; ciddi sınırlamaları var:
- Veri açgözlülüğü: milyonlarca deney gerekir.
- Ödül tasarımı zor: yanlış ödül tasarlarsanız beklenmedik davranış (Goodhart's law).
- Genelleme zayıf: bir çevrede öğrenilen başka çevreye taşınmaz.
- Güvenlik: AI istenmedik şekilde "hile" yapabilir.
Bu sınırlar modern AI güvenlik araştırması'nın merkezi konularıdır.
"Yaşamak gibi öğrenme"
Pekiştirmeli öğrenme, AI'nın insan benzeri öğrenmeye en yakın yaklaşımıdır:
- Etiket yok (denetimli öğrenmeden farklı).
- Deneme-yanılma.
- Geri bildirim (ödül/ceza).
- Sürekli adaptasyon.
Bir bebeğin yürümeyi öğrenmesi gibi, RL ajanı da çevreyle etkileşerek öğrenir. Modern AI'nın "akıllı görünme" yeteneğinin önemli bir parçası bu çatı.
Bellman denkleminden AlphaGo'ya 70 yıllık matematiksel macera, modern yapay zekânın en ilgi çekici öykülerinden biri. Belki bir gün yapay genel zekâ da bu yoldan gelecektir.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Pekiştirmeli öğrenmenin temel kavramları nelerdir?
2. Bellman denklemi neyi tanımlar?
3. AlphaGo (2016) ne başardı?
4. Pekiştirmeli öğrenmenin temel ikilemi nedir?
5. Modern ChatGPT/GPT-4 son eğitim aşamasında hangi yöntemi kullanır?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?