Barto'nun akademik kökeni nedir?

Michigan'da matematik + doktora (nörosibernetik, adaptive control)

Sutton ile ilişkisi nedir?

Sutton'in doktora danışmanı (1978-); 40+ yıl ortak

TD learning kimleri etkiledi?

Sutton-Barto çalışmaları AlphaGo ve modern RL'in temeli

Barto'nun akademik tarzı nasıl?

Sade — kitap ve dersler, sosyal medya yok

Barto'nun öğrencileri kimler?

Rich Sutton, Singh, Anderson, Konda — modern RL kuşağı

Andrew Barto: Sutton'in Mentoru, Modern RL'in Kurucularından

"Sutton'in mentoru"

Modern pekiştirmeli öğrenme dünyasında Sutton-Barto ikilisi standart referans. Sutton ön planda, ama temellerin önemli kısmı Andrew Barto tarafından kuruldu.

Barto, Sutton'in doktora danışmanı ve uzun yıllar boyunca ortağı oldu.

Akademik kökeni

Barto 1948 doğumlu. Michigan Üniversitesi'nde matematik. Sonra Michigan Üniversitesi'nde doktora (1975). Konusu: nörosibernetik ve adaptive control.

Bu klasik sibernetik gelenek: makine öğrenmesi öncesi, sinirbilim + kontrol teorisi sentezi.

1977'de Massachusetts Üniversitesi'ne profesör olarak katıldı. 40+ yıl orada kaldı.

Sutton'le çalışma — 1980'lerin başı

1978'de Sutton, Barto'nun yanına doktora için geldi. Modern pekiştirmeli öğrenmenin akademik temeli burada şekillendi.

Birlikte çalıştıkları konular:

TD learning: Temporal Difference.
Actor-critic methods: Politika + değer ayrı modeller.
Adaptive heuristic critic: Klasik adaptive control + ML.

Bu çalışmalar 1980'lerde niş akademik konuydu. 2010'larda AlphaGo ve modern RL ile patladı.

"Reinforcement Learning: An Introduction" — ortak kitap

1998'de Sutton ve Barto birlikte modern RL'in standart ders kitabını yayımladı.

Bu kitap iki yazarın 30 yıllık çalışmasının özeti. Her bölüm matematik temellendirme + sezgi + pratik örnekler.

2018 ikinci baskısı modern RL'i (DQN, AlphaGo) kapsayacak şekilde güncellendi.

"Sessiz akademisyen"

Sutton modern medyada daha görünür. Barto sade akademik figür. Twitter'da yok, podcast yok.

Bu farklı profil özellikle:

Sutton: makaleler, bloglar.
Barto: kitap, akademik dersler.

Barto kuşak yetiştirmeye odaklı. UMass'ta düzinelerce doktora öğrencisi.

Akademik soyağacı

Barto'nun doktora öğrencileri:

Rich Sutton: Modern RL'in baba figürü.
Charles Anderson: Robotik RL.
Satinder Singh: Hiyerarşik RL.
Vijay Konda: Actor-critic.

Bu akademik nesil modern RL'in koridorlarını şekillendirdi.

"Klasik AI ile bağlantı"

Barto, klasik AI ile modern RL arasında köprü kuran az sayıda figürlerden:

Klasik sibernetik + makine öğrenmesi.
Adaptive control + Q-learning.
Sinirbilim + algoritma.

Bu eski-yeni birleşim modern AI'da nadir. Çoğu modern araştırmacı sadece son 10 yıla bakar.

Sade ders

Barto hikâyesinden iki şey:

Mentor etkisi makale etkisinden büyük olabilir. Barto Sutton'i yetiştirdi; Sutton modern RL'in baba figürü oldu. Bir öğrenci bir kuşağı dönüştürebilir.
Klasik bilgi kıymetlidir. Barto'nun sibernetik geçmişi modern RL'in bazı kavramlarına temel sağlar. Eski disiplinler modern teknoloji ile birleşince güçlüdür.

Bağlam

Sutton için: [[rich-sutton-pekistirmeli-ogrenmenin-baba-figuru-ve-bitter-lesson]]. MDP ve RL temeli için: [[mdp-pekistirmeli-ogrenmenin-matematik-iskele]]. Modern RL uygulamaları için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]]. Pieter Abbeel için: [[pieter-abbeel-robotik-ve-pekistirmeli-ogrenmenin-pratik-yuzu]]. Mentor etkisi için: [[max-welling-hollanda-ai-akademisinin-baba-figuru]], [[christopher-re-stanford-veri-sistemleri-ve-foundation-models-mucidi]].

Andrew Barto: Sutton'in Mentoru, Modern RL'in Kurucularından

"Sutton'in mentoru"

Akademik kökeni

Sutton'le çalışma — 1980'lerin başı

"Reinforcement Learning: An Introduction" — ortak kitap

"Sessiz akademisyen"

Akademik soyağacı

"Klasik AI ile bağlantı"

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi

Hypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu

Étienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci