Paul Christiano'nun ana akademik katkısı?

Deep RL from Human Preferences (2017) — RLHF'in temel makalesi

ARC neyi araştırır?

AI hizalama — özellikle ELK (Eliciting Latent Knowledge) gibi temel problemler

2024 itibariyle yeni rolü?

NIST altında ABD AI Safety Institute başkanı

Iterated Amplification fikri?

İnsan + AI işbirliğiyle yinelemeli olarak çok karmaşık problemleri güvenli çözmek

Yudkowsky ile farkı?

Aynı korkular ama olasılıksal-akademik dille; araştırma odaklı, kıyamet retoriği değil

Paul Christiano: RLHF'in Akademik Mucitlerinden, ARC Kurucusu

Hizalamayı pratik bir araştırma alanına dönüştüren kişi

Paul Christiano (d. ~1987) — modern AI hizalama araştırmasının en etkili akademik figürlerinden. RLHF'in mucitleri arasında ve ABD'nin AI Safety Institute başkanı.

Tek cümle: AI güvenliğini bilimsel projeye dönüştürdü.

Yol

MIT lisans (matematik, programlama yarışmaları — Putnam üyesi).
UC Berkeley doktora — kuantum hesaplama ve kompleksite teorisi.
OpenAI (2017-2021) — Alignment Team kurucu lider.
Alignment Research Center (ARC) (2021-) — kendi kar amacı gütmeyen kuruluşunu kurdu.
2024: ABD National Institute of Standards and Technology (NIST) bünyesinde AI Safety Institute başkanı.

Ana akademik katkı: "Deep RL from Human Preferences" (2017)

OpenAI'da Christiano ve ekip: RL ajanlarına insan tercihlerinden öğrenmenin yolunu açtı.

Klasik RL: insan ödül fonksiyonu yazar — zor, hatalı.

Bunun yerine:

Ajana iki davranış göster.
İnsan hangisini tercih ediyor seç.
Bu tercihten ödül modeli çıkar.
Ajan ödül modelini maksimize et.

Sonuç: Atari oyunlarında ödül fonksiyonu yazmadan insan tercihiyle eğitim.

Bu makale doğrudan ChatGPT'nin RLHF altyapısının atası.

Iterated Amplification

Christiano'nun teorik teknikleri:

HCH (Humans Consulting HCH): bir insan, kendisinden daha bilgili bir AI'la beraber çalışarak karmaşık soruları yinelemeli olarak çözer.
Imitative Amplification: insanın çoklu kopyasını taklit eden AI.
Debate (Geoffrey Irving ile): iki AI birbirine karşı tartışır, insan hakem.

Bu teknikler bir insanın anlayabileceğinden çok daha karmaşık problemleri güvenli şekilde çözebilecek AI sistem tasarımına çalışır.

ARC ve Eliciting Latent Knowledge

ARC'ın merkez problemi: bir AI sistem belki gerçekte bildiklerinden farklı şeyler söylüyordur — gizli bilgisini nasıl çıkarırız?

ELK (Eliciting Latent Knowledge): hâlâ çözülememiş ünlü açık problem. AI hizalama tarihinin en derin teknik problemlerinden.

Tahminler

Paul, AI gelişimi hakkında somut sayısal tahminler yapar:

AI takeover (AI'nın insan kontrolünden çıkması) olasılığını ~%50 olarak öngörür (2023 tahmini).
Konuyu belirsiz korkular olarak değil, olasılıksal hesap olarak ele alır.

Tarz

Sessiz, akademik, dikkatli.
Hassas dil: belirsizlikleri matematiksel olarak ifade eder.
Eliezer Yudkowsky'nin antitezi: aynı korkuları paylaşır ama olasılıksal, araştırmacı tonla.
Pratik araştırma odaklı: teori ile deney arası köprü.

NIST AI Safety Institute

2024: ABD hükümeti AI Safety Institute kurdu (NIST altında). Christiano başkan oldu.

Görevleri:

Sınır modellerin risk değerlendirmesi.
Red teaming standartları.
Hükümet ve şirket arasında köprü.
Uluslararası işbirliği (UK AISI, Japon AISI vs.).

Tartışmalar

Bazıları "OpenAI'dan ayrılması" eleştirilirken o "araştırma için akademik özgürlük lazım" der.
ARC'ın GPT-4 öncesi "tehlike değerlendirmesi" eleştirildi (yetersiz bulundu).
Hükümette çalışması "AI doomer atamaları" eleştirisinin hedefi oldu.

Kapanış

Paul Christiano, AI hizalamasını felsefik kaygıdan standartlaştırılmış araştırmaya dönüştüren kişilerden. Aynı anda RLHF gibi pratik tekniklerin mucidi ve ELK gibi derin teorik soruların mimarı.

OpenAI → ARC → NIST yolculuğu modern AI güvenlik politikasının da hikayesini özetler.

Paul Christiano: RLHF'in Akademik Mucitlerinden, ARC Kurucusu

Hizalamayı pratik bir araştırma alanına dönüştüren kişi

Yol

Ana akademik katkı: "Deep RL from Human Preferences" (2017)

Iterated Amplification

ARC ve Eliciting Latent Knowledge

Tahminler

Tarz

NIST AI Safety Institute

Tartışmalar

Kapanış

Kendinizi Test Edin

İlgili Yazılar

Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi

Hypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu

Étienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci