Atari oyunlarını piksel girdisinden insan seviyesinde oynamak — DeepMind 2013

DQN'in dört mühendislik trick'i nedir?

Experience replay + target network + frame skipping + reward clipping

Experience replay ne yapar?

Geçmiş deneyimleri bufferda saklar; rastgele örnekleme i.i.d. sağlar

DQN nerede başarısız?

Keşif gerektiren oyunlar (Montezuma's Revenge) ve uzun planlama

DQN sonrası DeepMind ne yaptı?

AlphaGo, AlphaZero, AlphaFold, Gemini — DQN paradigmasının üzerine

DQN: Derin Q-Network, Atari Oyunlarını Çözen RL Devrimi

DeepMind'in büyük çıkışı

2013 Aralık. DeepMind (henüz Google tarafından alınmamış) NIPS'te bir poster sundu. Atari oyunlarını insan seviyesinde oynayan AI.

Sadece 7 oyun. Sadece piksel girdisi (oyun arayüzü değil). Hiç insan rehberli özellik yok.

Bu çalışma 2014'te Google'ın DeepMind'i 400 milyon dolara almasının ana sebebi oldu. 2015'te Nature'da yayımlandı.

İsmi: DQN — Deep Q-Network.

Klasik Q-learning sorunu

Klasik Q-learning $Q(s, a)$ değerini tabela ile saklar. Atari oyununda durum:

84×84 piksel × 4 kare = 28.224 piksel.
Her piksel 256 değer.
Toplam durum: $256^{28224}$ — astronomi.

Tabela ile imkansız. Derin sinir ağı gerek.

DQN — derin RL

DQN: konvolüsyonel sinir ağı Q-değerlerini öğrensin.

Mimari:

Giriş: 4 ardışık oyun ekranı (hareket için).
3 CNN katmanı.
2 fully connected katman.
Çıkış: her eylem için Q-değeri.

Eğitim: standart Q-learning + sinir ağı + dikkatli mühendislik.

"Dikkatli mühendislik"

DQN'in akademik başarısı sadece fikir değil, uygulama detaylar:

Experience replay

Geçmiş deneyimleri bufferda sakla. Eğitim sırasında rastgele örnekle. Bu, i.i.d. (independent identical distribution) varsayımını sağlar — derin öğrenmenin gereksinimi.

Target network

İki Q-network: biri eğitim, biri hedef (yavaş güncellenen). Bu, kararsızlığı azaltır.

Frame skipping

Her 4 karede bir karar — eğitim hızlanır.

Reward clipping

Ödülleri $[-1, 1]$ 'e kırp. Yine eğitim stabilizasyonu için.

Bu dört trick olmadan DQN çalışmaz. Modern derin RL'in mühendislik dersidir.

Sonuçlar

DQN 49 Atari oyununda insan seviyesi veya üstü performans:

Breakout: Yaratıcı stratejiler bulur.
Space Invaders: İnsanı geçer.
Pong: Mükemmel.
Pac-Man: İyi.

Bazı oyunlarda zayıf:

Montezuma's Revenge: Çıkmaz — keşif gerek.
Strategi oyunları: Uzun planlama yok.

Bu zayıflıklar modern RL araştırmasının temel sorularını ortaya koydu.

Etki — derin RL patlaması

DQN'den sonra:

Double DQN (2015): Overestimation problemini çöz.
Dueling DQN: Politika ve avantajı ayrıştır.
Prioritized Experience Replay: Önemli örnekleri sık örnekle.
Rainbow DQN (2017): Hepsi birlikte.

Sonra AlphaGo (2016), AlphaZero (2017), OpenAI Five (2018) — hepsi DQN'in akademik temeli üzerine kuruldu.

"DeepMind'i kuran çalışma"

DQN olmasaydı modern DeepMind olmazdı. AlphaFold, AlphaGo, Gemini — hepsi DQN'in sembolik başarısı ile başlayan kapıdan girdi.

David Silver, Volodymyr Mnih, Demis Hassabis — DQN ekibi DeepMind'in çekirdek kadrosu.

Modern RL'de DQN'in yeri

2024'te DQN tek başına nadir kullanılır. Modern modeller daha sofistike (PPO, SAC, DreamerV3).

Ama DQN paradigması her yerde:

LLM RLHF: PPO ile değer ağı.
AlphaFold: Politika ağı.
Otonom araç: Derin RL.

DQN, derin RL'in modern formunu kurdu.

Sade ders

DQN hikâyesinden iki şey:

Mühendislik detaylar fikrin kendisi kadar önemli. Q-learning vardı, derin öğrenme vardı. DQN bunları çalışan model yaptı — experience replay, target network gibi detaylarla. Detaylar büyük.
Bir model bir şirketi tanımlayabilir. DQN olmasaydı DeepMind 400M dolar değil olmazdı. Bir başarılı çalışma şirketin DNAsını oluşturur.

Bağlam

Pekiştirmeli öğrenme için: [[pekistirme-ogrenmesi-deneme-yanilma-ile-zekayi-ogretmek]]. MDP ve Q-learning için: [[mdp-pekistirmeli-ogrenmenin-matematik-iskele]]. Sutton ve Barto için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]], [[andrew-barto-sutton-un-mentoru-modern-rl-in-kurucularindan]]. DeepMind ve AlphaGo için: [[demis-hassabis-deepmind-in-vizyoner-kurucusu]]. PPO için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]].