Tüm yazılar
Bilim Tarihi5 Şubat 2025

Paul Christiano: RLHF'in Akademik Mucitlerinden, ARC Kurucusu

RLHF makalesinin baş yazarlarından, OpenAI'da hizalama ekibinin ilk lideri, ABD Hükümetinin AI Güvenlik Enstitüsü başkanı.

Matematik Karavanı 5 dk okuma 5 soru
Siber güvenlik — AI güvenlik metaforu

Hizalamayı pratik bir araştırma alanına dönüştüren kişi

Paul Christiano (d. ~1987) — modern AI hizalama araştırmasının en etkili akademik figürlerinden. RLHF'in mucitleri arasında ve ABD'nin AI Safety Institute başkanı.

Tek cümle: AI güvenliğini bilimsel projeye dönüştürdü.

Yol

  • MIT lisans (matematik, programlama yarışmaları — Putnam üyesi).
  • UC Berkeley doktora — kuantum hesaplama ve kompleksite teorisi.
  • OpenAI (2017-2021) — Alignment Team kurucu lider.
  • Alignment Research Center (ARC) (2021-) — kendi kar amacı gütmeyen kuruluşunu kurdu.
  • 2024: ABD National Institute of Standards and Technology (NIST) bünyesinde AI Safety Institute başkanı.

Ana akademik katkı: "Deep RL from Human Preferences" (2017)

OpenAI'da Christiano ve ekip: RL ajanlarına insan tercihlerinden öğrenmenin yolunu açtı.

Klasik RL: insan ödül fonksiyonu yazar — zor, hatalı.

Bunun yerine:

  1. Ajana iki davranış göster.
  2. İnsan hangisini tercih ediyor seç.
  3. Bu tercihten ödül modeli çıkar.
  4. Ajan ödül modelini maksimize et.

Sonuç: Atari oyunlarında ödül fonksiyonu yazmadan insan tercihiyle eğitim.

Bu makale doğrudan ChatGPT'nin RLHF altyapısının atası.

Iterated Amplification

Christiano'nun teorik teknikleri:

  • HCH (Humans Consulting HCH): bir insan, kendisinden daha bilgili bir AI'la beraber çalışarak karmaşık soruları yinelemeli olarak çözer.
  • Imitative Amplification: insanın çoklu kopyasını taklit eden AI.
  • Debate (Geoffrey Irving ile): iki AI birbirine karşı tartışır, insan hakem.

Bu teknikler bir insanın anlayabileceğinden çok daha karmaşık problemleri güvenli şekilde çözebilecek AI sistem tasarımına çalışır.

ARC ve Eliciting Latent Knowledge

ARC'ın merkez problemi: bir AI sistem belki gerçekte bildiklerinden farklı şeyler söylüyordur — gizli bilgisini nasıl çıkarırız?

ELK (Eliciting Latent Knowledge): hâlâ çözülememiş ünlü açık problem. AI hizalama tarihinin en derin teknik problemlerinden.

Tahminler

Paul, AI gelişimi hakkında somut sayısal tahminler yapar:

  • AI takeover (AI'nın insan kontrolünden çıkması) olasılığını ~%50 olarak öngörür (2023 tahmini).
  • Konuyu belirsiz korkular olarak değil, olasılıksal hesap olarak ele alır.

Tarz

  • Sessiz, akademik, dikkatli.
  • Hassas dil: belirsizlikleri matematiksel olarak ifade eder.
  • Eliezer Yudkowsky'nin antitezi: aynı korkuları paylaşır ama olasılıksal, araştırmacı tonla.
  • Pratik araştırma odaklı: teori ile deney arası köprü.

NIST AI Safety Institute

2024: ABD hükümeti AI Safety Institute kurdu (NIST altında). Christiano başkan oldu.

Görevleri:

  • Sınır modellerin risk değerlendirmesi.
  • Red teaming standartları.
  • Hükümet ve şirket arasında köprü.
  • Uluslararası işbirliği (UK AISI, Japon AISI vs.).

Tartışmalar

  • Bazıları "OpenAI'dan ayrılması" eleştirilirken o "araştırma için akademik özgürlük lazım" der.
  • ARC'ın GPT-4 öncesi "tehlike değerlendirmesi" eleştirildi (yetersiz bulundu).
  • Hükümette çalışması "AI doomer atamaları" eleştirisinin hedefi oldu.

Kapanış

Paul Christiano, AI hizalamasını felsefik kaygıdan standartlaştırılmış araştırmaya dönüştüren kişilerden. Aynı anda RLHF gibi pratik tekniklerin mucidi ve ELK gibi derin teorik soruların mimarı.

OpenAI → ARC → NIST yolculuğu modern AI güvenlik politikasının da hikayesini özetler.

Etiketler

Paul ChristianoRLHFAI hizalamaARCAI safety

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Paul Christiano'nun ana akademik katkısı?

2. ARC neyi araştırır?

3. 2024 itibariyle yeni rolü?

4. Iterated Amplification fikri?

5. Yudkowsky ile farkı?