Paul Christiano: RLHF'in Akademik Mucitlerinden, ARC Kurucusu
RLHF makalesinin baş yazarlarından, OpenAI'da hizalama ekibinin ilk lideri, ABD Hükümetinin AI Güvenlik Enstitüsü başkanı.

Hizalamayı pratik bir araştırma alanına dönüştüren kişi
Paul Christiano (d. ~1987) — modern AI hizalama araştırmasının en etkili akademik figürlerinden. RLHF'in mucitleri arasında ve ABD'nin AI Safety Institute başkanı.
Tek cümle: AI güvenliğini bilimsel projeye dönüştürdü.
Yol
- MIT lisans (matematik, programlama yarışmaları — Putnam üyesi).
- UC Berkeley doktora — kuantum hesaplama ve kompleksite teorisi.
- OpenAI (2017-2021) — Alignment Team kurucu lider.
- Alignment Research Center (ARC) (2021-) — kendi kar amacı gütmeyen kuruluşunu kurdu.
- 2024: ABD National Institute of Standards and Technology (NIST) bünyesinde AI Safety Institute başkanı.
Ana akademik katkı: "Deep RL from Human Preferences" (2017)
OpenAI'da Christiano ve ekip: RL ajanlarına insan tercihlerinden öğrenmenin yolunu açtı.
Klasik RL: insan ödül fonksiyonu yazar — zor, hatalı.
Bunun yerine:
- Ajana iki davranış göster.
- İnsan hangisini tercih ediyor seç.
- Bu tercihten ödül modeli çıkar.
- Ajan ödül modelini maksimize et.
Sonuç: Atari oyunlarında ödül fonksiyonu yazmadan insan tercihiyle eğitim.
Bu makale doğrudan ChatGPT'nin RLHF altyapısının atası.
Iterated Amplification
Christiano'nun teorik teknikleri:
- HCH (Humans Consulting HCH): bir insan, kendisinden daha bilgili bir AI'la beraber çalışarak karmaşık soruları yinelemeli olarak çözer.
- Imitative Amplification: insanın çoklu kopyasını taklit eden AI.
- Debate (Geoffrey Irving ile): iki AI birbirine karşı tartışır, insan hakem.
Bu teknikler bir insanın anlayabileceğinden çok daha karmaşık problemleri güvenli şekilde çözebilecek AI sistem tasarımına çalışır.
ARC ve Eliciting Latent Knowledge
ARC'ın merkez problemi: bir AI sistem belki gerçekte bildiklerinden farklı şeyler söylüyordur — gizli bilgisini nasıl çıkarırız?
ELK (Eliciting Latent Knowledge): hâlâ çözülememiş ünlü açık problem. AI hizalama tarihinin en derin teknik problemlerinden.
Tahminler
Paul, AI gelişimi hakkında somut sayısal tahminler yapar:
- AI takeover (AI'nın insan kontrolünden çıkması) olasılığını ~%50 olarak öngörür (2023 tahmini).
- Konuyu belirsiz korkular olarak değil, olasılıksal hesap olarak ele alır.
Tarz
- Sessiz, akademik, dikkatli.
- Hassas dil: belirsizlikleri matematiksel olarak ifade eder.
- Eliezer Yudkowsky'nin antitezi: aynı korkuları paylaşır ama olasılıksal, araştırmacı tonla.
- Pratik araştırma odaklı: teori ile deney arası köprü.
NIST AI Safety Institute
2024: ABD hükümeti AI Safety Institute kurdu (NIST altında). Christiano başkan oldu.
Görevleri:
- Sınır modellerin risk değerlendirmesi.
- Red teaming standartları.
- Hükümet ve şirket arasında köprü.
- Uluslararası işbirliği (UK AISI, Japon AISI vs.).
Tartışmalar
- Bazıları "OpenAI'dan ayrılması" eleştirilirken o "araştırma için akademik özgürlük lazım" der.
- ARC'ın GPT-4 öncesi "tehlike değerlendirmesi" eleştirildi (yetersiz bulundu).
- Hükümette çalışması "AI doomer atamaları" eleştirisinin hedefi oldu.
Kapanış
Paul Christiano, AI hizalamasını felsefik kaygıdan standartlaştırılmış araştırmaya dönüştüren kişilerden. Aynı anda RLHF gibi pratik tekniklerin mucidi ve ELK gibi derin teorik soruların mimarı.
OpenAI → ARC → NIST yolculuğu modern AI güvenlik politikasının da hikayesini özetler.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Paul Christiano'nun ana akademik katkısı?
2. ARC neyi araştırır?
3. 2024 itibariyle yeni rolü?
4. Iterated Amplification fikri?
5. Yudkowsky ile farkı?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.