Bitter Lesson tezi nedir?

Hesap güç + arama + öğrenme kazanır; insan bilgisi kurmak başarısız

Sutton-Barto kitabı neyle ilgilidir?

Reinforcement Learning: An Introduction — modern RL'in standart ders kitabı

Temporal Difference — sonucu beklemeden anında öğrenme; modern RL temel adımı

Sutton'in "Era of Experience" tezi nedir?

AI kendi deneyiminden öğrenecek — modern reasoning modeller (o1) somutlaştırdı

Sutton'in akademik tarzı nasıl?

Sade — Twitter yok, kitap ve makale ile konuşur

Rich Sutton: Pekiştirmeli Öğrenmenin Baba Figürü ve "Bitter Lesson"

"Bitter Lesson"

2019 Mart. Richard Sutton emekli kıdemli akademisyen olarak kişisel blog'unda "The Bitter Lesson" yazısını yayımladı.

Tez:

"70 yıllık AI tarihinin ana dersi: insan bilgisini elle kurmaya çalışan yöntemler uzun vadede başarısız olur. Hesap güç + arama + öğrenme kazanır."

Bu kısa makale modern AI tartışmasının temel paradigma sloganı oldu. OpenAI ve Anthropic'in "daha büyük model" stratejisi bu felsefeden besleniyor.

Kanada'da bir hayat

Rich Sutton 1957 ABD doğumlu. Stanford'da fizik lisans (1978). Yerel hesaplamalı sinirbilim mezunu Andrew Barto'nun yanında Massachusetts Üniversitesi'nde doktora.

Sutton-Barto ortaklığı modern RL'in akademik temellerinin başlangıcıydı.

1990'larda AT&T Bell Labs'a katıldı. Sonra Alberta Üniversitesi (Kanada) 2003'te.

DeepMind ile uzun süreli işbirliği. Edmondton'da DeepMind ofisinin başkanı (2017-2024).

"Reinforcement Learning: An Introduction" (1998)

Sutton ve Barto'nun yazdığı modern RL'in standart ders kitabı. Pekiştirmeli öğrenmenin matematik temelini ortaya koyar:

MDP (Markov Decision Process)
Bellman denklemleri
TD learning
Q-learning

İkinci baskı 2018'de güncellendi. 70.000+ atıf. RL araştırmacılarının vazgeçilmezi.

Temporal Difference (TD) learning

Sutton'in temel akademik katkısı: TD learning algoritması. Q-learning'in matematiksel temeli.

Fikir: bir karardan anında öğrenmek — sonucu beklemeden. Bu, modern RL'in temel adımıdır.

TD learning 1980'lerde önerildi, 2010'larda AlphaGo ve Atari oyunlarında pratik başarılar verdi.

DeepMind ile bağlantı

Sutton ve DeepMind'in işbirliği derin. Demis Hassabis Sutton'in akademik etkisini kabul eder:

"Pekiştirmeli öğrenme konusunda her şey Sutton ve Barto'ya borçluyuz."

Edmondton'da DeepMind ofisi (sonradan kapatıldı) Sutton'in laboratuvarının uzantısıydı.

"Bitter Lesson" tartışması

Bitter Lesson makalesi tartışmalı:

Pro: OpenAI GPT-4, DeepMind AlphaGo, modern LLM'ler — hepsi ölçek + öğrenme. Sutton haklı.
Kontra: Sağduyu, robustness, etik — sadece ölçek ile çözülmüyor. Choi karşı.

Modern AI tartışmasının temel eksenidir.

"Akıl ölçeği"

Sutton 2019 sonrası "Era of Experience" konuşmaları yapar. Tez:

"AI bir sonraki aşamada kendi deneyiminden öğrenecek. İnsandan değil. Bu, yapay zekânın gerçek bağımsızlığı."

Bu argüman modern reasoning model (o1, DeepSeek-R1) çağı ile somutlaştı. Modeller artık kendi düşünce zincirlerinden öğreniyor.

Türkçe çevirisi

Sutton-Barto kitabı Türkçe'ye çevrilmedi. Modern RL Türkçe okuyucu için sınırlı kaynak. Bu, akademik çeviri eksikliğinin somut örneği.

"Akademik sade"

Sutton modern AI medyasında nadir profil. Twitter'da yok. Akademik konferanslarda mütevazi. Sadece kitap ve makalelerle konuşur.

Bu, akademik gelenekten gelen tarz. Brockman'in mühendis-pazarlamacı tarzının tersi.

Sade ders

Sutton hikâyesinden iki şey:

Klasik akademik etki kalıcıdır. Sutton kitabı yıllarca okutuluyor; makaleleri binlerce alıntı. Akademik miras endüstri trendlerinden büyük. Uzun vadeli etki.
Tek bir makale paradigma değiştirebilir. Bitter Lesson kısa bir blog yazısı. Ama modern AI strateji tartışmasının ekseni oldu. Doğru zamanda doğru tez büyük etki.

Bağlam

Common Sense AI ve Choi karşı duruşu için: [[sagduyu-ai-bir-bebek-bilir-ama-gpt-4-bilmez]], [[yejin-choi-sagduyu-ai-nin-en-aktif-akademik-sesi]]. Pekiştirmeli öğrenme için: [[pekistirmeli-ogrenme-q-learning-policy-gradient]] (varsa). DeepMind için: [[demis-hassabis-deepmind-in-vizyoner-kurucusu]]. Modern RL için: [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]] (PPO). Test-time compute ile bağlantı: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]].