Silver'in akademik kökeni nedir?

Cambridge lisans + Alberta PhD (Sutton danışmanlığında)

Politika ağı + değer ağı + MCTS — üç bileşen birleşimi

AlphaGo Zero ne yaptı?

Sıfırdan self-play — insan oyunları görmeden 3 günde dünya en iyisini geçti

"Reward is Enough" tezi nedir?

AGI için tek bir ödülün maksimize edilmesi yeterli olabilir — karmaşıklık ödülden çıkar

Silver'in akademik tarzı?

Sade — sosyal medyada nadir, konferans konuşmaları net

David Silver: AlphaGo'nun Akademik Mimarı ve DeepMind RL Baba Figürü

"AlphaGo'yu yapan"

AlphaGo 2016'da Lee Sedol'u yendi. Modern AI tarihinin dönüm noktası. Bu sistemin akademik mimarı: David Silver.

Silver Sutton'in akademik takipçisi. Modern derin RL'in baba figürlerinden.

Cambridge'den Alberta'ya

Silver 1975 ABD doğumlu. Cambridge'de bilgisayar bilimi lisans. Alberta Üniversitesi'nde doktora — Rich Sutton'in danışmanlığında.

Doktora konusu: bilgisayar Go'su. 2009'da, AI henüz Go'da insan seviyesine yakın değildi. Silver bu alanın akademik araştırmacısı oldu.

DeepMind (2014)

Silver 2014'te DeepMind'a katıldı. Bilgisayar Go araştırması burada somut hedef kazandı.

DeepMind RL cephesinde:

DQN (Mnih ile birlikte, 2013/2015): Atari oyunları.
AlphaGo (2016): Go.
AlphaGo Zero (2017): Sıfırdan self-play.
AlphaZero (2018): Go + satranç + shogi.
MuZero (2019): Tüm oyunları self-play öğrenir.

Bu ardışık sistemler RL'in akademik ve pratik etkisinin kümülatif gösterimi.

AlphaGo nasıl çalışır

AlphaGo karma sistem:

Politika ağı: Hangi hamle iyi?
Değer ağı: Bu durumdan ne kazanır?
MCTS (Monte Carlo Tree Search): Olası dalları araştır.

Silver bu üç bileşenin birleşimini tasarladı.

Eğitim:

İnsan oyunları (denetimli).
Self-play (RL).
Kendi sürümleriyle yarış.

"Sıfırdan self-play"

AlphaGo Zero insan oyunlarını hiç görmedi. Sadece kendi kendine oynayarak öğrendi.

3 günde dünyanın en iyi insan oyuncusunu geçti. AlphaGo Zero, dahası insan deneyimi öğrenmedi ama daha iyi.

Bu sembolik: insan deneyimi gerek değil. Self-play yeter.

"Reward is Enough" tezi

Silver ve Sutton 2021'de "Reward is Enough" makalesini yayımladı. Tez:

"Yapay genel zekânın tek bir ödül fonksiyonunu maksimize etmesi yeterli olabilir. Karmaşıklık ödülden çıkar."

Tartışmalı görüş. Choi ve diğerleri karşı. Modern AI temel tartışmasının bir parçası.

"Sade akademik"

Silver akademik tarzı: sade, akademik, sosyal medyada nadir. Konferans konuşmaları net.

Bir 2024 söyleşisinde:

"AlphaGo başardı çünkü çok basit fikirler doğru zaman ve doğru ölçek ile birleşti. Karmaşıklık değil temel matematik önemli."

Sade ders

Silver hikâyesinden iki şey:

Akademik miras endüstri başarısı yaratır. Silver Sutton-Barto geleneğinin devamı. AlphaGo bu akademik mirasın endüstri sonucu. Akademik soyağacı önemli.
Self-play paradigması geniş. AlphaGo Zero "insan deneyimi gerek değil" gösterdi. Bu fikir AlphaProof, DeepSeek-R1'e kadar uzandı.

Bağlam

AlphaGo ve MCTS için: [[monte-carlo-tree-search-mcts-alphagonun-zekasinin-kalbi]]. DQN ve Mnih için: [[volodymyr-mnih-dqn-makalesinin-bas-yazari-ve-deepmind-in-rl-ustasi]]. Sutton için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]]. Demis Hassabis için: [[demis-hassabis-deepmind-kurucu-ortagi-ve-2024-nobel-kimya]]. AlphaProof ve self-play için: [[alphaproof-ai-matematik-olimpiyatinda-gumus-madalyaya]].

David Silver: AlphaGo'nun Akademik Mimarı ve DeepMind RL Baba Figürü

"AlphaGo'yu yapan"

Cambridge'den Alberta'ya

DeepMind (2014)

AlphaGo nasıl çalışır

"Sıfırdan self-play"

"Reward is Enough" tezi

"Sade akademik"

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi

Hypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu

Étienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci