Jan Leike: Superalignment Tartışmasının Merkez Figürü
Alman AI güvenlik araştırmacısı, OpenAI Superalignment ekibinin başı, 2024'te dramatik ayrılışın merkezi.

Mayıs 2024 — sarsıcı tweet
15 Mayıs 2024. Jan Leike Twitter'da uzun bir thread yazdı. OpenAI'dan ayrıldığını duyurdu. Sebepler:
"Son birkaç yıl, OpenAI'da güvenlik kültürü ve süreçleri parlak ürünlerden sonraya itildi. Bunun değişmesi için savaştım. Başaramadım."
Aynı hafta Ilya Sutskever da ayrıldı. Superalignment ekibinin lideri ve OpenAI co-founder. İki büyük kayıp ardına. AI dünyası sarsıldı.
Birkaç gün sonra Jan Leike Anthropic'e katıldığını duyurdu.
Almanya'dan DeepMind'a
Jan Leike 1986 Almanya doğumlu. Freiburg Üniversitesi'nde bilgisayar bilimi (2014). Avustralya Ulusal Üniversitesi'nde AI güvenlik doktorası (2017). Marcus Hutter'in öğrencisi.
Doktora konusu: inverse reward design — yapay ajanların insan değerlerini öğrenmesi. Klasik AI güvenlik problemleri.
DeepMind (2017–2021)
Doktoradan sonra DeepMind'a katıldı. AI güvenlik cephesinde araştırma:
- Safe exploration: Pekiştirmeli öğrenmede tehlikeli durumlardan kaçınma.
- Reward modeling: İnsan tercihinden ödül öğrenme.
- Recursive reward modeling: Ölçeklenebilir alignment.
Bu çalışmalar modern RLHF'in temellerinden.
OpenAI (2021–2024)
2021'de OpenAI'a katıldı. Alignment ekibinin lideri oldu. Sutskever ile birlikte 2023'te Superalignment ekibini kurdu.
Superalignment misyonu: "4 yıl içinde super-intelligent AI'i hizalama probleminin çözümü." Hedef tartışmalı yüksek, ama OpenAI'ın bu konuya kaynak ayırdığının işareti.
OpenAI'ın %20'sinin hesap kaynağı Superalignment'a tahsis edileceğine söz verildi. Bu, AI güvenliğine yapılan en büyük taahhütlerden biriydi.
Kriz noktası
Mayıs 2024'te Leike'in ayrılış tweetinde önemli bir nokta:
"%20 hesap taahhüdü yerine getirilmedi. Güvenlik çalışmaları sürekli ürün baskısı altında bırakıldı."
Yani: söz verilen kaynak gelmiyordu. Superalignment ekibi GPT modellerini güvenli yapmak için yeterli hesap güç gerekiyordu. Bunun yerine ürün ekibi alıyordu.
Bu çatışma, OpenAI'ın ürün vs güvenlik dengesinin somut örneği. AI dünyasında konuşulan ama gizli kalan bir gerilim.
Anthropic'e geçiş
Mayıs 2024 sonu Leike Anthropic'e katıldı. Dario ve Daniela Amodei ile birlikte alignment cephesini güçlendirdi.
Anthropic'in kuruluşu (2021) zaten OpenAI'den ayrılan alignment-odaklı bir kanaldan başlamıştı. Leike'in katılımı bu hattı doğal olarak güçlendirdi.
Anthropic'in Leike + Olah + Schulman üçlüsü modern AI güvenlik araştırmasının en güçlü akademik ekibidir.
Akademik etkisi
Leike'in akademik makalelerinin bir kısmı:
- "Scalable agent alignment via reward modeling" (2018): Modern RLHF'in teorik temeli.
- "Goal misgeneralization" (2022): Eğitim ortamı ile test ortamı arasındaki hedef kayması.
- "Weak-to-strong generalization" (2023): Düşük seviye modellerle yüksek seviye modellerin hizalanması.
Bu makaleler modern alignment literatürünün ana referansları.
"Akademik ses"
Leike Twitter'da aktif. Akademik bir araştırmacı tarzı: net, sıkı, kanıt odaklı. Bağıracak bir tip değil ama söyledikleri sektörde ağırlıklı.
Mayıs 2024 tweet'i bu yüzden bu kadar sarsıcıydı. Sessiz birinin sessizliğini bozması.
"Recursive reward modeling" — felsefi katkı
Leike'in en önemli akademik fikri: recursive reward modeling. Tez: AI'ı hizalamak için insandan daha akıllı bir AI gerekecektir. Klasik insan değerlendirmesi yetmez.
Çözüm: insan + AI birlikte değerlendirir. AI'lar birbirini değerlendirir. Özyinelemeli bir denetim sistemi.
Bu fikir Anthropic'in Constitutional AI (2022) ve OpenAI'ın RLHF + reward model sistemlerinin felsefi temelidir.
Sade ders
Leike hikâyesinden iki şey:
- Kişiler dağıtık AI güvenliği için kritiktir. Leike OpenAI'dan Anthropic'e geçince Anthropic'in alignment cephesi güçlendi. Modern AI dünyasında bireyler dağıtık güç merkezleridir.
- Şirket vaadleri her zaman tutmaz. OpenAI'ın %20 hesap taahhüdü gerçekleşmedi. Bu, modern AI laboratuvarlarının ürün baskısı altında güvenlik söz vermesinin sınırlarını gösteriyor.
Bağlam
OpenAI ekibi için: [[mira-murati-arnavutluk-tan-openai-cto-luguna]], [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]], [[ilya-sutskever-derin-ogrenme-devriminin-rus-israilli-kanadali-mimari]]. Anthropic için: [[dario-amodei-anthropic-kurucu-ortagi-ve-ai-guvenliginin-onde-gelen-savunucusu]], [[chris-olah-sinir-aglarinin-mikroskopcusu]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]], [[aleksander-madry-mit-de-ai-guvenligi-ve-robustness-uzmani]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Jan Leike Mayıs 2024'te ne yaptı?
2. Superalignment ekibinin misyonu neydi?
3. OpenAI'dan ayrılma nedeni nedir?
4. Recursive reward modeling nedir?
5. Anthropic'te kimlerle birlikte çalışıyor?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.