Rich Sutton: Pekiştirmeli Öğrenmenin Baba Figürü ve "Bitter Lesson"
Alberta'da çalışan Kanadalı akademisyen, modern pekiştirmeli öğrenmenin temel ders kitabını yazdı ve "Bitter Lesson" makalesiyle paradigmayı tanımladı.

"Bitter Lesson"
2019 Mart. Richard Sutton emekli kıdemli akademisyen olarak kişisel blog'unda "The Bitter Lesson" yazısını yayımladı.
Tez:
"70 yıllık AI tarihinin ana dersi: insan bilgisini elle kurmaya çalışan yöntemler uzun vadede başarısız olur. Hesap güç + arama + öğrenme kazanır."
Bu kısa makale modern AI tartışmasının temel paradigma sloganı oldu. OpenAI ve Anthropic'in "daha büyük model" stratejisi bu felsefeden besleniyor.
Kanada'da bir hayat
Rich Sutton 1957 ABD doğumlu. Stanford'da fizik lisans (1978). Yerel hesaplamalı sinirbilim mezunu Andrew Barto'nun yanında Massachusetts Üniversitesi'nde doktora.
Sutton-Barto ortaklığı modern RL'in akademik temellerinin başlangıcıydı.
1990'larda AT&T Bell Labs'a katıldı. Sonra Alberta Üniversitesi (Kanada) 2003'te.
DeepMind ile uzun süreli işbirliği. Edmondton'da DeepMind ofisinin başkanı (2017-2024).
"Reinforcement Learning: An Introduction" (1998)
Sutton ve Barto'nun yazdığı modern RL'in standart ders kitabı. Pekiştirmeli öğrenmenin matematik temelini ortaya koyar:
- MDP (Markov Decision Process)
- Bellman denklemleri
- TD learning
- Q-learning
İkinci baskı 2018'de güncellendi. 70.000+ atıf. RL araştırmacılarının vazgeçilmezi.
Temporal Difference (TD) learning
Sutton'in temel akademik katkısı: TD learning algoritması. Q-learning'in matematiksel temeli.
Fikir: bir karardan anında öğrenmek — sonucu beklemeden. Bu, modern RL'in temel adımıdır.
TD learning 1980'lerde önerildi, 2010'larda AlphaGo ve Atari oyunlarında pratik başarılar verdi.
DeepMind ile bağlantı
Sutton ve DeepMind'in işbirliği derin. Demis Hassabis Sutton'in akademik etkisini kabul eder:
"Pekiştirmeli öğrenme konusunda her şey Sutton ve Barto'ya borçluyuz."
Edmondton'da DeepMind ofisi (sonradan kapatıldı) Sutton'in laboratuvarının uzantısıydı.
"Bitter Lesson" tartışması
Bitter Lesson makalesi tartışmalı:
- Pro: OpenAI GPT-4, DeepMind AlphaGo, modern LLM'ler — hepsi ölçek + öğrenme. Sutton haklı.
- Kontra: Sağduyu, robustness, etik — sadece ölçek ile çözülmüyor. Choi karşı.
Modern AI tartışmasının temel eksenidir.
"Akıl ölçeği"
Sutton 2019 sonrası "Era of Experience" konuşmaları yapar. Tez:
"AI bir sonraki aşamada kendi deneyiminden öğrenecek. İnsandan değil. Bu, yapay zekânın gerçek bağımsızlığı."
Bu argüman modern reasoning model (o1, DeepSeek-R1) çağı ile somutlaştı. Modeller artık kendi düşünce zincirlerinden öğreniyor.
Türkçe çevirisi
Sutton-Barto kitabı Türkçe'ye çevrilmedi. Modern RL Türkçe okuyucu için sınırlı kaynak. Bu, akademik çeviri eksikliğinin somut örneği.
"Akademik sade"
Sutton modern AI medyasında nadir profil. Twitter'da yok. Akademik konferanslarda mütevazi. Sadece kitap ve makalelerle konuşur.
Bu, akademik gelenekten gelen tarz. Brockman'in mühendis-pazarlamacı tarzının tersi.
Sade ders
Sutton hikâyesinden iki şey:
- Klasik akademik etki kalıcıdır. Sutton kitabı yıllarca okutuluyor; makaleleri binlerce alıntı. Akademik miras endüstri trendlerinden büyük. Uzun vadeli etki.
- Tek bir makale paradigma değiştirebilir. Bitter Lesson kısa bir blog yazısı. Ama modern AI strateji tartışmasının ekseni oldu. Doğru zamanda doğru tez büyük etki.
Bağlam
Common Sense AI ve Choi karşı duruşu için: [[sagduyu-ai-bir-bebek-bilir-ama-gpt-4-bilmez]], [[yejin-choi-sagduyu-ai-nin-en-aktif-akademik-sesi]]. Pekiştirmeli öğrenme için: [[pekistirmeli-ogrenme-q-learning-policy-gradient]] (varsa). DeepMind için: [[demis-hassabis-deepmind-in-vizyoner-kurucusu]]. Modern RL için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]] (PPO). Test-time compute ile bağlantı: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Bitter Lesson tezi nedir?
2. Sutton-Barto kitabı neyle ilgilidir?
3. TD learning nedir?
4. Sutton'in "Era of Experience" tezi nedir?
5. Sutton'in akademik tarzı nasıl?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.