DQN: Derin Q-Network, Atari Oyunlarını Çözen RL Devrimi
DeepMind'in 2013'te tanıttığı, klasik RL'i derin öğrenmeyle birleştiren ve modern AI patlamasının başlangıcı olan model.

DeepMind'in büyük çıkışı
2013 Aralık. DeepMind (henüz Google tarafından alınmamış) NIPS'te bir poster sundu. Atari oyunlarını insan seviyesinde oynayan AI.
Sadece 7 oyun. Sadece piksel girdisi (oyun arayüzü değil). Hiç insan rehberli özellik yok.
Bu çalışma 2014'te Google'ın DeepMind'i 400 milyon dolara almasının ana sebebi oldu. 2015'te Nature'da yayımlandı.
İsmi: DQN — Deep Q-Network.
Klasik Q-learning sorunu
Klasik Q-learning değerini tabela ile saklar. Atari oyununda durum:
- 84×84 piksel × 4 kare = 28.224 piksel.
- Her piksel 256 değer.
- Toplam durum: — astronomi.
Tabela ile imkansız. Derin sinir ağı gerek.
DQN — derin RL
DQN: konvolüsyonel sinir ağı Q-değerlerini öğrensin.
Mimari:
- Giriş: 4 ardışık oyun ekranı (hareket için).
- 3 CNN katmanı.
- 2 fully connected katman.
- Çıkış: her eylem için Q-değeri.
Eğitim: standart Q-learning + sinir ağı + dikkatli mühendislik.
"Dikkatli mühendislik"
DQN'in akademik başarısı sadece fikir değil, uygulama detaylar:
Experience replay
Geçmiş deneyimleri bufferda sakla. Eğitim sırasında rastgele örnekle. Bu, i.i.d. (independent identical distribution) varsayımını sağlar — derin öğrenmenin gereksinimi.
Target network
İki Q-network: biri eğitim, biri hedef (yavaş güncellenen). Bu, kararsızlığı azaltır.
Frame skipping
Her 4 karede bir karar — eğitim hızlanır.
Reward clipping
Ödülleri 'e kırp. Yine eğitim stabilizasyonu için.
Bu dört trick olmadan DQN çalışmaz. Modern derin RL'in mühendislik dersidir.
Sonuçlar
DQN 49 Atari oyununda insan seviyesi veya üstü performans:
- Breakout: Yaratıcı stratejiler bulur.
- Space Invaders: İnsanı geçer.
- Pong: Mükemmel.
- Pac-Man: İyi.
Bazı oyunlarda zayıf:
- Montezuma's Revenge: Çıkmaz — keşif gerek.
- Strategi oyunları: Uzun planlama yok.
Bu zayıflıklar modern RL araştırmasının temel sorularını ortaya koydu.
Etki — derin RL patlaması
DQN'den sonra:
- Double DQN (2015): Overestimation problemini çöz.
- Dueling DQN: Politika ve avantajı ayrıştır.
- Prioritized Experience Replay: Önemli örnekleri sık örnekle.
- Rainbow DQN (2017): Hepsi birlikte.
Sonra AlphaGo (2016), AlphaZero (2017), OpenAI Five (2018) — hepsi DQN'in akademik temeli üzerine kuruldu.
"DeepMind'i kuran çalışma"
DQN olmasaydı modern DeepMind olmazdı. AlphaFold, AlphaGo, Gemini — hepsi DQN'in sembolik başarısı ile başlayan kapıdan girdi.
David Silver, Volodymyr Mnih, Demis Hassabis — DQN ekibi DeepMind'in çekirdek kadrosu.
Modern RL'de DQN'in yeri
2024'te DQN tek başına nadir kullanılır. Modern modeller daha sofistike (PPO, SAC, DreamerV3).
Ama DQN paradigması her yerde:
- LLM RLHF: PPO ile değer ağı.
- AlphaFold: Politika ağı.
- Otonom araç: Derin RL.
DQN, derin RL'in modern formunu kurdu.
Sade ders
DQN hikâyesinden iki şey:
- Mühendislik detaylar fikrin kendisi kadar önemli. Q-learning vardı, derin öğrenme vardı. DQN bunları çalışan model yaptı — experience replay, target network gibi detaylarla. Detaylar büyük.
- Bir model bir şirketi tanımlayabilir. DQN olmasaydı DeepMind 400M dolar değil olmazdı. Bir başarılı çalışma şirketin DNAsını oluşturur.
Bağlam
Pekiştirmeli öğrenme için: [[pekistirme-ogrenmesi-deneme-yanilma-ile-zekayi-ogretmek]]. MDP ve Q-learning için: [[mdp-pekistirmeli-ogrenmenin-matematik-iskele]]. Sutton ve Barto için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]], [[andrew-barto-sutton-un-mentoru-modern-rl-in-kurucularindan]]. DeepMind ve AlphaGo için: [[demis-hassabis-deepmind-in-vizyoner-kurucusu]]. PPO için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. DQN ne yaptı?
2. DQN'in dört mühendislik trick'i nedir?
3. Experience replay ne yapar?
4. DQN nerede başarısız?
5. DQN sonrası DeepMind ne yaptı?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?