Tüm yazılar
Bilim Tarihi5 Mart 2025

David Silver: AlphaGo'nun Akademik Mimarı ve DeepMind RL Baba Figürü

Cambridge'den Alberta'ya, DeepMind'in pekiştirmeli öğrenme cephesinin akademik liderine uzanan yol.

Matematik Karavanı 5 dk okuma 5 soru
Klasik strateji oyunu — Silver'in AlphaGo metaforu

"AlphaGo'yu yapan"

AlphaGo 2016'da Lee Sedol'u yendi. Modern AI tarihinin dönüm noktası. Bu sistemin akademik mimarı: David Silver.

Silver Sutton'in akademik takipçisi. Modern derin RL'in baba figürlerinden.

Cambridge'den Alberta'ya

Silver 1975 ABD doğumlu. Cambridge'de bilgisayar bilimi lisans. Alberta Üniversitesi'nde doktora — Rich Sutton'in danışmanlığında.

Doktora konusu: bilgisayar Go'su. 2009'da, AI henüz Go'da insan seviyesine yakın değildi. Silver bu alanın akademik araştırmacısı oldu.

DeepMind (2014)

Silver 2014'te DeepMind'a katıldı. Bilgisayar Go araştırması burada somut hedef kazandı.

DeepMind RL cephesinde:

  • DQN (Mnih ile birlikte, 2013/2015): Atari oyunları.
  • AlphaGo (2016): Go.
  • AlphaGo Zero (2017): Sıfırdan self-play.
  • AlphaZero (2018): Go + satranç + shogi.
  • MuZero (2019): Tüm oyunları self-play öğrenir.

Bu ardışık sistemler RL'in akademik ve pratik etkisinin kümülatif gösterimi.

AlphaGo nasıl çalışır

AlphaGo karma sistem:

  1. Politika ağı: Hangi hamle iyi?
  2. Değer ağı: Bu durumdan ne kazanır?
  3. MCTS (Monte Carlo Tree Search): Olası dalları araştır.

Silver bu üç bileşenin birleşimini tasarladı.

Eğitim:

  • İnsan oyunları (denetimli).
  • Self-play (RL).
  • Kendi sürümleriyle yarış.

"Sıfırdan self-play"

AlphaGo Zero insan oyunlarını hiç görmedi. Sadece kendi kendine oynayarak öğrendi.

3 günde dünyanın en iyi insan oyuncusunu geçti. AlphaGo Zero, dahası insan deneyimi öğrenmedi ama daha iyi.

Bu sembolik: insan deneyimi gerek değil. Self-play yeter.

"Reward is Enough" tezi

Silver ve Sutton 2021'de "Reward is Enough" makalesini yayımladı. Tez:

"Yapay genel zekânın tek bir ödül fonksiyonunu maksimize etmesi yeterli olabilir. Karmaşıklık ödülden çıkar."

Tartışmalı görüş. Choi ve diğerleri karşı. Modern AI temel tartışmasının bir parçası.

"Sade akademik"

Silver akademik tarzı: sade, akademik, sosyal medyada nadir. Konferans konuşmaları net.

Bir 2024 söyleşisinde:

"AlphaGo başardı çünkü çok basit fikirler doğru zaman ve doğru ölçek ile birleşti. Karmaşıklık değil temel matematik önemli."

Sade ders

Silver hikâyesinden iki şey:

  1. Akademik miras endüstri başarısı yaratır. Silver Sutton-Barto geleneğinin devamı. AlphaGo bu akademik mirasın endüstri sonucu. Akademik soyağacı önemli.
  2. Self-play paradigması geniş. AlphaGo Zero "insan deneyimi gerek değil" gösterdi. Bu fikir AlphaProof, DeepSeek-R1'e kadar uzandı.

Bağlam

AlphaGo ve MCTS için: [[monte-carlo-tree-search-mcts-alphagonun-zekasinin-kalbi]]. DQN ve Mnih için: [[volodymyr-mnih-dqn-makalesinin-bas-yazari-ve-deepmind-in-rl-ustasi]]. Sutton için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]]. Demis Hassabis için: [[demis-hassabis-deepmind-kurucu-ortagi-ve-2024-nobel-kimya]]. AlphaProof ve self-play için: [[alphaproof-ai-matematik-olimpiyatinda-gumus-madalyaya]].

Etiketler

David SilverAlphaGoDeepMindpekiştirmeli öğrenmeAlberta

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Silver'in akademik kökeni nedir?

2. AlphaGo mimarisi?

3. AlphaGo Zero ne yaptı?

4. "Reward is Enough" tezi nedir?

5. Silver'in akademik tarzı?