John Schulman: PPO'nun Mucidi, RLHF'in Mimarı
Berkeley'den OpenAI'ye, ChatGPT'nin "yardımcı kişiliğinin" arkasındaki pekiştirmeli öğrenme uzmanının hikâyesi.

Caltech'ten Berkeley'e
John Schulman 1986 doğumlu. Caltech'te fizik lisans (2008). Sonra Berkeley'de bilgisayar bilimi doktora (2016). Berkeley'de Pieter Abbeel'in öğrencisi oldu — pekiştirmeli öğrenmenin pratik tarafı.
Doktora dönemi tezleri derin pekiştirmeli öğrenme üzerine. Sonradan OpenAI'in kurucularından biri olacaktı.
TRPO (2015) — ilk büyük katkı
Schulman'ın 2015 makalesi Trust Region Policy Optimization (TRPO). Tez: politika güncellemelerini "güven bölgesi" içinde tut — büyük adımlar atma, KL-divergence ile sınırla.
Bu, klasik politika gradyan yöntemlerinin (REINFORCE) kararsızlığını çözer. Önceden iyi olan politikadan çok uzaklaşmadan, kontrollü güncelleme.
TRPO matematiksel olarak şık ama implementasyonu zor. Hessian hesaplaması, conjugate gradient, line search...
PPO (2017) — pratik darbe
İki yıl sonra Schulman PPO'yu yayımladı. Fikir: TRPO'nun karmaşık matematiğini basit klip mekanizmasıyla değiştir.
: yeni politika / eski politika oranı. : advantage. tipik.
Yorum: politika oranını arasında tut. Daha büyük değişimleri kırp.
PPO açık kaynak, basit, hızlı, TRPO ile aynı performansı verir. Bir yılda RL'nin standardı oldu.
OpenAI'in pekiştirmeli öğrenme yüzü
2016'da OpenAI'i kurmaya yardım etti. Pekiştirmeli öğrenme cephesinin akademik lideri. Schulman'ın liderliğindeki çalışmalar:
- OpenAI Five (Dota 2 botu): 5 PPO ajanı, profesyonel takımları yendi.
- OpenAI Gym: Pekiştirmeli öğrenmenin standart test ortamı.
- InstructGPT (2022): ChatGPT'nin atası; RLHF'in akademik gösterimi.
InstructGPT belki en önemli. ChatGPT'nin "yardımcı, zararsız, dürüst" kişiliği bu makaledeki tekniklerle inşa edildi.
RLHF — ChatGPT'nin arka planı
Schulman'ın 2022 InstructGPT makalesi RLHF'in resmi başlangıcı:
- Önceden eğitilmiş GPT modelinden başla.
- İnsanlardan tercih verileri topla.
- PPO ile politikayı bu tercihlere göre optimize et.
ChatGPT (Kasım 2022) bu pipeline'in ürün versiyonu. Schulman teknik lideri.
Modern Claude, Gemini, LLaMA Chat — hepsi RLHF kullanır. PPO algoritması olmasa modern hizalama olmayacaktı.
OpenAI'dan Anthropic'e (2024)
Ağustos 2024'te Schulman, OpenAI'dan Anthropic'e geçti. Bu, sektörü sarsan bir transferdi. Schulman gerekçesi:
"AI hizalama problemine daha derin odaklanmak istiyorum. Anthropic bu konuda yapısal olarak daha tutarlı."
Bu hamle Anthropic'in alignment cephesinin akademik gücünü iki katına çıkardı. Chris Olah + John Schulman = modern AI güvenlik araştırmasının ana iki gücü.
Akademik tavır
Schulman akademik söyleminde temkinli pragmatik:
"AI risk gerçektir ama hızı yavaşlatmakla çözülmez. Daha iyi teknik araçlar geliştirmeliyiz — yorumlanabilirlik, hizalama, denetim."
Bu, Russell'ın felsefi yaklaşımı ile Brockman'in iyimser hızlandırıcılığının ortasında bir konum.
"Yararlı + zararsız" optimizasyon problemi
Schulman'ın 2023 SemiAnalysis söyleşisinde:
"ChatGPT'yi inşa ederken en zor şey: iki çatışan optimizasyonu dengelemek. Yararlı olsun (kullanıcı sorduğunda cevap versin) ve zararsız olsun (kötüye kullanılmasın). PPO ile her iki ödülü beraber optimize etmek temel zorluk."
Bu denge alignment tax olarak bilinir: yararlı + zararsız bir model, sadece yararlı bir modelden biraz daha kötü olur — yaratıcılık, hız, çeşitlilik bazen kaybedilir.
Sade ders
Schulman hikâyesinden iki şey:
- Akademik katkı pratik etki olabilir. PPO bir matematik makalesi. ChatGPT trilyon dolarlık bir ürün. İkisi aynı algoritma üzerine kurulu. Akademik araştırma → endüstri ürünü hattı modern AI'da çok kısa.
- Aynı kişi farklı şirketlerde değer yaratır. Schulman'ın OpenAI'dan Anthropic'e geçişi, modern AI'da bilgi paylaşımının kısıtlanamayan doğasını gösterir. Üst düzey akademisyenler bağımsız bir piyasadır.
Bağlam
Pekiştirmeli öğrenme için: [[pekistirmeli-ogrenme-q-learning-policy-gradient]] (varsa), [[pieter-abbeel-robotik-ve-pekistirmeli-ogrenmenin-pratik-yuzu]]. DPO ile karşılaştırma için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. GRPO için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]]. Modern RLHF için: [[rlhf-modern-llm-egitimi]] (varsa). OpenAI ekibi için: [[greg-brockman-openai-in-en-mizah-ve-en-acik-muhendisi]], [[mira-murati-arnavutluk-tan-openai-cto-luguna]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. TRPO ne yapar?
2. PPO'nun TRPO'ya göre avantajı nedir?
3. InstructGPT ne yaptı?
4. Schulman 2024'te nereye geçti?
5. Alignment tax nedir?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.