Tüm yazılar
Matematik20 Mart 2025

DQN: Derin Q-Network, Atari Oyunlarını Çözen RL Devrimi

DeepMind'in 2013'te tanıttığı, klasik RL'i derin öğrenmeyle birleştiren ve modern AI patlamasının başlangıcı olan model.

Matematik Karavanı 6 dk okuma 5 soru
Klasik atari oyunu — DQN'in ilk başarısı

DeepMind'in büyük çıkışı

2013 Aralık. DeepMind (henüz Google tarafından alınmamış) NIPS'te bir poster sundu. Atari oyunlarını insan seviyesinde oynayan AI.

Sadece 7 oyun. Sadece piksel girdisi (oyun arayüzü değil). Hiç insan rehberli özellik yok.

Bu çalışma 2014'te Google'ın DeepMind'i 400 milyon dolara almasının ana sebebi oldu. 2015'te Nature'da yayımlandı.

İsmi: DQN — Deep Q-Network.

Klasik Q-learning sorunu

Klasik Q-learning Q(s,a)Q(s, a) değerini tabela ile saklar. Atari oyununda durum:

  • 84×84 piksel × 4 kare = 28.224 piksel.
  • Her piksel 256 değer.
  • Toplam durum: 25628224256^{28224} — astronomi.

Tabela ile imkansız. Derin sinir ağı gerek.

DQN — derin RL

DQN: konvolüsyonel sinir ağı Q-değerlerini öğrensin.

Mimari:

  • Giriş: 4 ardışık oyun ekranı (hareket için).
  • 3 CNN katmanı.
  • 2 fully connected katman.
  • Çıkış: her eylem için Q-değeri.

Eğitim: standart Q-learning + sinir ağı + dikkatli mühendislik.

"Dikkatli mühendislik"

DQN'in akademik başarısı sadece fikir değil, uygulama detaylar:

Experience replay

Geçmiş deneyimleri bufferda sakla. Eğitim sırasında rastgele örnekle. Bu, i.i.d. (independent identical distribution) varsayımını sağlar — derin öğrenmenin gereksinimi.

Target network

İki Q-network: biri eğitim, biri hedef (yavaş güncellenen). Bu, kararsızlığı azaltır.

Frame skipping

Her 4 karede bir karar — eğitim hızlanır.

Reward clipping

Ödülleri [1,1][-1, 1]'e kırp. Yine eğitim stabilizasyonu için.

Bu dört trick olmadan DQN çalışmaz. Modern derin RL'in mühendislik dersidir.

Sonuçlar

DQN 49 Atari oyununda insan seviyesi veya üstü performans:

  • Breakout: Yaratıcı stratejiler bulur.
  • Space Invaders: İnsanı geçer.
  • Pong: Mükemmel.
  • Pac-Man: İyi.

Bazı oyunlarda zayıf:

  • Montezuma's Revenge: Çıkmaz — keşif gerek.
  • Strategi oyunları: Uzun planlama yok.

Bu zayıflıklar modern RL araştırmasının temel sorularını ortaya koydu.

Etki — derin RL patlaması

DQN'den sonra:

  • Double DQN (2015): Overestimation problemini çöz.
  • Dueling DQN: Politika ve avantajı ayrıştır.
  • Prioritized Experience Replay: Önemli örnekleri sık örnekle.
  • Rainbow DQN (2017): Hepsi birlikte.

Sonra AlphaGo (2016), AlphaZero (2017), OpenAI Five (2018) — hepsi DQN'in akademik temeli üzerine kuruldu.

"DeepMind'i kuran çalışma"

DQN olmasaydı modern DeepMind olmazdı. AlphaFold, AlphaGo, Gemini — hepsi DQN'in sembolik başarısı ile başlayan kapıdan girdi.

David Silver, Volodymyr Mnih, Demis Hassabis — DQN ekibi DeepMind'in çekirdek kadrosu.

Modern RL'de DQN'in yeri

2024'te DQN tek başına nadir kullanılır. Modern modeller daha sofistike (PPO, SAC, DreamerV3).

Ama DQN paradigması her yerde:

  • LLM RLHF: PPO ile değer ağı.
  • AlphaFold: Politika ağı.
  • Otonom araç: Derin RL.

DQN, derin RL'in modern formunu kurdu.

Sade ders

DQN hikâyesinden iki şey:

  1. Mühendislik detaylar fikrin kendisi kadar önemli. Q-learning vardı, derin öğrenme vardı. DQN bunları çalışan model yaptı — experience replay, target network gibi detaylarla. Detaylar büyük.
  2. Bir model bir şirketi tanımlayabilir. DQN olmasaydı DeepMind 400M dolar değil olmazdı. Bir başarılı çalışma şirketin DNAsını oluşturur.

Bağlam

Pekiştirmeli öğrenme için: [[pekistirme-ogrenmesi-deneme-yanilma-ile-zekayi-ogretmek]]. MDP ve Q-learning için: [[mdp-pekistirmeli-ogrenmenin-matematik-iskele]]. Sutton ve Barto için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]], [[andrew-barto-sutton-un-mentoru-modern-rl-in-kurucularindan]]. DeepMind ve AlphaGo için: [[demis-hassabis-deepmind-in-vizyoner-kurucusu]]. PPO için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]].

Etiketler

DQNpekiştirmeli öğrenmeDeepMindAtariderin RL

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. DQN ne yaptı?

2. DQN'in dört mühendislik trick'i nedir?

3. Experience replay ne yapar?

4. DQN nerede başarısız?

5. DQN sonrası DeepMind ne yaptı?