Politika güncellemelerini "güven bölgesi" içinde tutar — KL-divergence ile sınırlanmış adımlar

PPO'nun TRPO'ya göre avantajı nedir?

Aynı performans, basit klip mekanizması, açık implementasyon — RL standardı oldu

InstructGPT ne yaptı?

RLHF ile GPT'yi "yardımcı, zararsız, dürüst" hizalamak — ChatGPT'nin atası

Schulman 2024'te nereye geçti?

OpenAI'dan Anthropic'e — alignment cephesine derin odaklanma için

Hizalanmış model (yararlı + zararsız), sadece yararlı modelden biraz daha düşük performans gösterir

John Schulman: PPO'nun Mucidi, RLHF'in Mimarı

Caltech'ten Berkeley'e

John Schulman 1986 doğumlu. Caltech'te fizik lisans (2008). Sonra Berkeley'de bilgisayar bilimi doktora (2016). Berkeley'de Pieter Abbeel'in öğrencisi oldu — pekiştirmeli öğrenmenin pratik tarafı.

Doktora dönemi tezleri derin pekiştirmeli öğrenme üzerine. Sonradan OpenAI'in kurucularından biri olacaktı.

TRPO (2015) — ilk büyük katkı

Schulman'ın 2015 makalesi Trust Region Policy Optimization (TRPO). Tez: politika güncellemelerini "güven bölgesi" içinde tut — büyük adımlar atma, KL-divergence ile sınırla.

Bu, klasik politika gradyan yöntemlerinin (REINFORCE) kararsızlığını çözer. Önceden iyi olan politikadan çok uzaklaşmadan, kontrollü güncelleme.

TRPO matematiksel olarak şık ama implementasyonu zor. Hessian hesaplaması, conjugate gradient, line search...

PPO (2017) — pratik darbe

İki yıl sonra Schulman PPO'yu yayımladı. Fikir: TRPO'nun karmaşık matematiğini basit klip mekanizmasıyla değiştir.

L^{CLIP} = \mathbb{E}\left[ \min(r_t \hat{A}_t, \text{clip}(r_t, 1-\epsilon, 1+\epsilon) \hat{A}_t) \right]

$r_t$ : yeni politika / eski politika oranı. $\hat{A}_t$ : advantage. $\epsilon = 0.2$ tipik.

Yorum: politika oranını $[0.8, 1.2]$ arasında tut. Daha büyük değişimleri kırp.

PPO açık kaynak, basit, hızlı, TRPO ile aynı performansı verir. Bir yılda RL'nin standardı oldu.

OpenAI'in pekiştirmeli öğrenme yüzü

2016'da OpenAI'i kurmaya yardım etti. Pekiştirmeli öğrenme cephesinin akademik lideri. Schulman'ın liderliğindeki çalışmalar:

OpenAI Five (Dota 2 botu): 5 PPO ajanı, profesyonel takımları yendi.
OpenAI Gym: Pekiştirmeli öğrenmenin standart test ortamı.
InstructGPT (2022): ChatGPT'nin atası; RLHF'in akademik gösterimi.

InstructGPT belki en önemli. ChatGPT'nin "yardımcı, zararsız, dürüst" kişiliği bu makaledeki tekniklerle inşa edildi.

RLHF — ChatGPT'nin arka planı

Schulman'ın 2022 InstructGPT makalesi RLHF'in resmi başlangıcı:

Önceden eğitilmiş GPT modelinden başla.
İnsanlardan tercih verileri topla.
PPO ile politikayı bu tercihlere göre optimize et.

ChatGPT (Kasım 2022) bu pipeline'in ürün versiyonu. Schulman teknik lideri.

Modern Claude, Gemini, LLaMA Chat — hepsi RLHF kullanır. PPO algoritması olmasa modern hizalama olmayacaktı.

OpenAI'dan Anthropic'e (2024)

Ağustos 2024'te Schulman, OpenAI'dan Anthropic'e geçti. Bu, sektörü sarsan bir transferdi. Schulman gerekçesi:

"AI hizalama problemine daha derin odaklanmak istiyorum. Anthropic bu konuda yapısal olarak daha tutarlı."

Bu hamle Anthropic'in alignment cephesinin akademik gücünü iki katına çıkardı. Chris Olah + John Schulman = modern AI güvenlik araştırmasının ana iki gücü.

Akademik tavır

Schulman akademik söyleminde temkinli pragmatik:

"AI risk gerçektir ama hızı yavaşlatmakla çözülmez. Daha iyi teknik araçlar geliştirmeliyiz — yorumlanabilirlik, hizalama, denetim."

Bu, Russell'ın felsefi yaklaşımı ile Brockman'in iyimser hızlandırıcılığının ortasında bir konum.

"Yararlı + zararsız" optimizasyon problemi

Schulman'ın 2023 SemiAnalysis söyleşisinde:

"ChatGPT'yi inşa ederken en zor şey: iki çatışan optimizasyonu dengelemek. Yararlı olsun (kullanıcı sorduğunda cevap versin) ve zararsız olsun (kötüye kullanılmasın). PPO ile her iki ödülü beraber optimize etmek temel zorluk."

Bu denge alignment tax olarak bilinir: yararlı + zararsız bir model, sadece yararlı bir modelden biraz daha kötü olur — yaratıcılık, hız, çeşitlilik bazen kaybedilir.

Sade ders

Schulman hikâyesinden iki şey:

Akademik katkı pratik etki olabilir. PPO bir matematik makalesi. ChatGPT trilyon dolarlık bir ürün. İkisi aynı algoritma üzerine kurulu. Akademik araştırma → endüstri ürünü hattı modern AI'da çok kısa.
Aynı kişi farklı şirketlerde değer yaratır. Schulman'ın OpenAI'dan Anthropic'e geçişi, modern AI'da bilgi paylaşımının kısıtlanamayan doğasını gösterir. Üst düzey akademisyenler bağımsız bir piyasadır.

Bağlam

Pekiştirmeli öğrenme için: [[pekistirmeli-ogrenme-q-learning-policy-gradient]] (varsa), [[pieter-abbeel-robotik-ve-pekistirmeli-ogrenmenin-pratik-yuzu]]. DPO ile karşılaştırma için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. GRPO için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]]. Modern RLHF için: [[rlhf-modern-llm-egitimi]] (varsa). OpenAI ekibi için: [[greg-brockman-openai-in-en-mizah-ve-en-acik-muhendisi]], [[mira-murati-arnavutluk-tan-openai-cto-luguna]].

John Schulman: PPO'nun Mucidi, RLHF'in Mimarı

Caltech'ten Berkeley'e

TRPO (2015) — ilk büyük katkı

PPO (2017) — pratik darbe

OpenAI'in pekiştirmeli öğrenme yüzü

RLHF — ChatGPT'nin arka planı

OpenAI'dan Anthropic'e (2024)

Akademik tavır

"Yararlı + zararsız" optimizasyon problemi

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi

Hypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu

Étienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci