David Silver: AlphaGo'nun Akademik Mimarı ve DeepMind RL Baba Figürü
Cambridge'den Alberta'ya, DeepMind'in pekiştirmeli öğrenme cephesinin akademik liderine uzanan yol.

"AlphaGo'yu yapan"
AlphaGo 2016'da Lee Sedol'u yendi. Modern AI tarihinin dönüm noktası. Bu sistemin akademik mimarı: David Silver.
Silver Sutton'in akademik takipçisi. Modern derin RL'in baba figürlerinden.
Cambridge'den Alberta'ya
Silver 1975 ABD doğumlu. Cambridge'de bilgisayar bilimi lisans. Alberta Üniversitesi'nde doktora — Rich Sutton'in danışmanlığında.
Doktora konusu: bilgisayar Go'su. 2009'da, AI henüz Go'da insan seviyesine yakın değildi. Silver bu alanın akademik araştırmacısı oldu.
DeepMind (2014)
Silver 2014'te DeepMind'a katıldı. Bilgisayar Go araştırması burada somut hedef kazandı.
DeepMind RL cephesinde:
- DQN (Mnih ile birlikte, 2013/2015): Atari oyunları.
- AlphaGo (2016): Go.
- AlphaGo Zero (2017): Sıfırdan self-play.
- AlphaZero (2018): Go + satranç + shogi.
- MuZero (2019): Tüm oyunları self-play öğrenir.
Bu ardışık sistemler RL'in akademik ve pratik etkisinin kümülatif gösterimi.
AlphaGo nasıl çalışır
AlphaGo karma sistem:
- Politika ağı: Hangi hamle iyi?
- Değer ağı: Bu durumdan ne kazanır?
- MCTS (Monte Carlo Tree Search): Olası dalları araştır.
Silver bu üç bileşenin birleşimini tasarladı.
Eğitim:
- İnsan oyunları (denetimli).
- Self-play (RL).
- Kendi sürümleriyle yarış.
"Sıfırdan self-play"
AlphaGo Zero insan oyunlarını hiç görmedi. Sadece kendi kendine oynayarak öğrendi.
3 günde dünyanın en iyi insan oyuncusunu geçti. AlphaGo Zero, dahası insan deneyimi öğrenmedi ama daha iyi.
Bu sembolik: insan deneyimi gerek değil. Self-play yeter.
"Reward is Enough" tezi
Silver ve Sutton 2021'de "Reward is Enough" makalesini yayımladı. Tez:
"Yapay genel zekânın tek bir ödül fonksiyonunu maksimize etmesi yeterli olabilir. Karmaşıklık ödülden çıkar."
Tartışmalı görüş. Choi ve diğerleri karşı. Modern AI temel tartışmasının bir parçası.
"Sade akademik"
Silver akademik tarzı: sade, akademik, sosyal medyada nadir. Konferans konuşmaları net.
Bir 2024 söyleşisinde:
"AlphaGo başardı çünkü çok basit fikirler doğru zaman ve doğru ölçek ile birleşti. Karmaşıklık değil temel matematik önemli."
Sade ders
Silver hikâyesinden iki şey:
- Akademik miras endüstri başarısı yaratır. Silver Sutton-Barto geleneğinin devamı. AlphaGo bu akademik mirasın endüstri sonucu. Akademik soyağacı önemli.
- Self-play paradigması geniş. AlphaGo Zero "insan deneyimi gerek değil" gösterdi. Bu fikir AlphaProof, DeepSeek-R1'e kadar uzandı.
Bağlam
AlphaGo ve MCTS için: [[monte-carlo-tree-search-mcts-alphagonun-zekasinin-kalbi]]. DQN ve Mnih için: [[volodymyr-mnih-dqn-makalesinin-bas-yazari-ve-deepmind-in-rl-ustasi]]. Sutton için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]]. Demis Hassabis için: [[demis-hassabis-deepmind-kurucu-ortagi-ve-2024-nobel-kimya]]. AlphaProof ve self-play için: [[alphaproof-ai-matematik-olimpiyatinda-gumus-madalyaya]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Silver'in akademik kökeni nedir?
2. AlphaGo mimarisi?
3. AlphaGo Zero ne yaptı?
4. "Reward is Enough" tezi nedir?
5. Silver'in akademik tarzı?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.