Jan Leike Mayıs 2024'te ne yaptı?

OpenAI'dan ayrıldı, güvenlik kültürünün parlak ürünlerden sonraya itildiğini açıkladı

Superalignment ekibinin misyonu neydi?

4 yıl içinde super-intelligent AI'in hizalama problemini çözmek

OpenAI'dan ayrılma nedeni nedir?

%20 hesap taahhüdü yerine getirilmedi; güvenlik çalışmaları ürün baskısı altında

Recursive reward modeling nedir?

İnsan + AI birlikte değerlendirir; AI'lar birbirini değerlendirir — ölçeklenebilir alignment

Anthropic'te kimlerle birlikte çalışıyor?

Schulman + Olah + Leike — modern AI güvenlik araştırmasının en güçlü ekibi

Jan Leike: Superalignment Tartışmasının Merkez Figürü

Mayıs 2024 — sarsıcı tweet

15 Mayıs 2024. Jan Leike Twitter'da uzun bir thread yazdı. OpenAI'dan ayrıldığını duyurdu. Sebepler:

"Son birkaç yıl, OpenAI'da güvenlik kültürü ve süreçleri parlak ürünlerden sonraya itildi. Bunun değişmesi için savaştım. Başaramadım."

Aynı hafta Ilya Sutskever da ayrıldı. Superalignment ekibinin lideri ve OpenAI co-founder. İki büyük kayıp ardına. AI dünyası sarsıldı.

Birkaç gün sonra Jan Leike Anthropic'e katıldığını duyurdu.

Almanya'dan DeepMind'a

Jan Leike 1986 Almanya doğumlu. Freiburg Üniversitesi'nde bilgisayar bilimi (2014). Avustralya Ulusal Üniversitesi'nde AI güvenlik doktorası (2017). Marcus Hutter'in öğrencisi.

Doktora konusu: inverse reward design — yapay ajanların insan değerlerini öğrenmesi. Klasik AI güvenlik problemleri.

DeepMind (2017–2021)

Doktoradan sonra DeepMind'a katıldı. AI güvenlik cephesinde araştırma:

Safe exploration: Pekiştirmeli öğrenmede tehlikeli durumlardan kaçınma.
Reward modeling: İnsan tercihinden ödül öğrenme.
Recursive reward modeling: Ölçeklenebilir alignment.

Bu çalışmalar modern RLHF'in temellerinden.

OpenAI (2021–2024)

2021'de OpenAI'a katıldı. Alignment ekibinin lideri oldu. Sutskever ile birlikte 2023'te Superalignment ekibini kurdu.

Superalignment misyonu: "4 yıl içinde super-intelligent AI'i hizalama probleminin çözümü." Hedef tartışmalı yüksek, ama OpenAI'ın bu konuya kaynak ayırdığının işareti.

OpenAI'ın %20'sinin hesap kaynağı Superalignment'a tahsis edileceğine söz verildi. Bu, AI güvenliğine yapılan en büyük taahhütlerden biriydi.

Kriz noktası

Mayıs 2024'te Leike'in ayrılış tweetinde önemli bir nokta:

"%20 hesap taahhüdü yerine getirilmedi. Güvenlik çalışmaları sürekli ürün baskısı altında bırakıldı."

Yani: söz verilen kaynak gelmiyordu. Superalignment ekibi GPT modellerini güvenli yapmak için yeterli hesap güç gerekiyordu. Bunun yerine ürün ekibi alıyordu.

Bu çatışma, OpenAI'ın ürün vs güvenlik dengesinin somut örneği. AI dünyasında konuşulan ama gizli kalan bir gerilim.

Anthropic'e geçiş

Mayıs 2024 sonu Leike Anthropic'e katıldı. Dario ve Daniela Amodei ile birlikte alignment cephesini güçlendirdi.

Anthropic'in kuruluşu (2021) zaten OpenAI'den ayrılan alignment-odaklı bir kanaldan başlamıştı. Leike'in katılımı bu hattı doğal olarak güçlendirdi.

Anthropic'in Leike + Olah + Schulman üçlüsü modern AI güvenlik araştırmasının en güçlü akademik ekibidir.

Akademik etkisi

Leike'in akademik makalelerinin bir kısmı:

"Scalable agent alignment via reward modeling" (2018): Modern RLHF'in teorik temeli.
"Goal misgeneralization" (2022): Eğitim ortamı ile test ortamı arasındaki hedef kayması.
"Weak-to-strong generalization" (2023): Düşük seviye modellerle yüksek seviye modellerin hizalanması.

Bu makaleler modern alignment literatürünün ana referansları.

"Akademik ses"

Leike Twitter'da aktif. Akademik bir araştırmacı tarzı: net, sıkı, kanıt odaklı. Bağıracak bir tip değil ama söyledikleri sektörde ağırlıklı.

Mayıs 2024 tweet'i bu yüzden bu kadar sarsıcıydı. Sessiz birinin sessizliğini bozması.

"Recursive reward modeling" — felsefi katkı

Leike'in en önemli akademik fikri: recursive reward modeling. Tez: AI'ı hizalamak için insandan daha akıllı bir AI gerekecektir. Klasik insan değerlendirmesi yetmez.

Çözüm: insan + AI birlikte değerlendirir. AI'lar birbirini değerlendirir. Özyinelemeli bir denetim sistemi.

Bu fikir Anthropic'in Constitutional AI (2022) ve OpenAI'ın RLHF + reward model sistemlerinin felsefi temelidir.

Sade ders

Leike hikâyesinden iki şey:

Kişiler dağıtık AI güvenliği için kritiktir. Leike OpenAI'dan Anthropic'e geçince Anthropic'in alignment cephesi güçlendi. Modern AI dünyasında bireyler dağıtık güç merkezleridir.
Şirket vaadleri her zaman tutmaz. OpenAI'ın %20 hesap taahhüdü gerçekleşmedi. Bu, modern AI laboratuvarlarının ürün baskısı altında güvenlik söz vermesinin sınırlarını gösteriyor.

Bağlam

OpenAI ekibi için: [[mira-murati-arnavutluk-tan-openai-cto-luguna]], [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]], [[ilya-sutskever-derin-ogrenme-devriminin-rus-israilli-kanadali-mimari]]. Anthropic için: [[dario-amodei-anthropic-kurucu-ortagi-ve-ai-guvenliginin-onde-gelen-savunucusu]], [[chris-olah-sinir-aglarinin-mikroskopcusu]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]], [[aleksander-madry-mit-de-ai-guvenligi-ve-robustness-uzmani]].