Olah'ın kurduğu interaktif görsel akademik makale dergisi (2017-2021)

Mekanistik yorumlanabilirlik nedir?

Modelin iç hesap yapısını ve devrelerini analiz etme — tek tek nöronları inceleme

"Golden Gate Claude" ne gösterdi?

Modelin iç özelliklerini manipüle ederek davranışı değiştirebilmek — yorumlanabilirliğin somut sonucu

Olah'ın akademik geçmişi nasıldır?

Lisans dahi tamamlamadı; Thiel Fellowship'le doğrudan endüstri

Olah'ın güvenlik söylemine yaklaşımı nedir?

Mikroskopla içeri bakmak — yorumlanabilirlik sadece güvenlik için değil iyi bilim için de gerek

Chris Olah: Sinir Ağlarının Mikroskopçusu

Üniversite okumadan AI lideri

Chris Olah'ın CV'sinde bir gariplik var: doktora yok, master yok, lisans yok. Toronto Üniversitesi'nde başladı, bir yıl sonra bıraktı. 19 yaşında.

Bunun yerine Thiel Fellowship aldı — Peter Thiel'in "kolej yerine girişimcilik" programı. 2 yıl serbest proje. 2014'te Google'a katıldı, doğrudan Brain takımının görsel araştırmasına.

2017'de OpenAI'ye geçti. 2021'de Anthropic'in kurucularından biri oldu. Bugün Anthropic'in Interpretability ekibinin başında. Sanford Üniversitesi'nde fahri profesör.

Olah'ın hikâyesi modern AI'da nadir: akademik kurumların dışında bir akademik karakter inşa etmek.

Distill.pub (2017–2021)

Olah'ın ilk büyük etkisi: Distill dergisi. Akademik makalelerin sıkıcı PDF formatına alternatif: interaktif, görsel, sezgisel. Web tabanlı, herkese açık.

Yayımladığı makaleler:

"Visualizing Neural Networks" — sinir ağlarını görsel olarak göstermek.
"How (and Why) Backpropagation Works" — geri yayılımın 5 farklı zihinsel modeli.
"Feature Visualization" — ConvNet katmanlarının ne öğrendiğini görsellemek.
"Building Blocks of Interpretability" — yorumlanabilirliğin temel parçaları.

Bu makaleler bir kuşak araştırmacının sinir ağına bakışını şekillendirdi. Etkisi akademik makaleleri kat kat aşar.

Distill 2021'de "duraksamaya" geçti. Sebep: editorial workload muazzam; gönüllü editorler tükendi. Ama miras kalıcı: modern AI blogger geleneği (Andrej Karpathy, Lilian Weng, vb.) onunla başladı.

"Circuits" — yorumlanabilirliğin başlangıcı

2020'de Olah ve ark. "Zoom In: An Introduction to Circuits" makalesi yayımladı. Tez:

"Sinir ağları analizleri makro düzeyde — 'şu katman ne yapıyor?' Yetersiz. Tek tek nöronları, küçük gruplarını incelemek gerek. Bunlara devre (circuit) diyelim."

Bu Olah'ın mekanistik yorumlanabilirlik (mechanistic interpretability) çerçevesi. Klasik yaklaşımdan farkı:

Klasik: Modelin çıktıları neye dayanıyor (saliency, attention map).
Mekanistik: Modelin iç hesap yapısı nasıl çalışıyor.

Olah devre örnekleri verdi: araba detektör nöronları, köpek detektör birleştirme, renk geçişi gizlenen yapılar. Sinir ağı bir "kara kutu" değil; içeride anlaşılabilir alt programlar var.

Anthropic'te interpretability ekibi

2021'de Dario ve Daniela Amodei'le birlikte OpenAI'den ayrıldı, Anthropic'i kurdu. Olah burada interpretability ekibinin başı oldu.

Önemli yayınları:

"In-Context Learning and Induction Heads" (2022): Transformer'da "tekrar et" devresinin keşfi.
"Toy Models of Superposition" (2022): Modellerin neden tek nöronda birden çok kavram saklayabildiği.
"Decomposing Language Models with Dictionary Learning" (2023): Polysemantic'ten monosemantic'e — anlamlı özellik ayrıştırması.
"Scaling Monosemanticity" (2024): Claude 3 Sonnet'in iç temsillerinde 3.4 milyon özellik.

Bu son makale, modern LLM'lerin içine bakmanın ilk büyük başarısı. Olah ekibi şöyle açıkladı: "Modeli açıyoruz, içindeki konsept temsillerini görüyoruz. 'Altın köprü' özelliğini bulduk; aktivasyonu artırdığımızda model her cevabı altın köprü'ye bağlamaya başladı."

"Golden Gate Claude" — viral örnek

2024 Mayıs'ta Anthropic, bu yorumlanabilirlik araştırmasının somut bir gösterisi olarak Golden Gate Claude sürümünü çıkardı. Modelin "altın köprü" özelliğinin aktivasyonunu manuel olarak artırdı.

Sonuç: model her şeyi altın köprüyle ilişkilendiriyor. Tarif istesen: "Altın köprü'nün üzerinde pişirilecek malzemeler". Matematik problemi: "Altın köprü'nün uzunluğu kadar 12 cm."

Viral oldu. Daha önemlisi: iç düzenlemenin model davranışını değiştirdiği somut kanıt. Bu, AI güvenliği için temel bir adım.

"Inside Out" — bilimsel duruş

Olah'ın akademik tarzı:

"AI tehlikelidir; ama nedenini sadece tahmin etmek yetmez. İçeri bakmak zorundayız. Model bir kara kutu değil; bizim bilgisizliğimizdir. Yorumlanabilirlik sadece güvenlik için değil, iyi bilim için gerek."

Bu tavır, AI risk söyleminin akademik temelini güçlendirdi. Hinton ve Russell felsefi argüman yaparken, Olah mikroskop kuruyor.

Sade ders

Olah hikâyesinden iki şey:

Yorumlanabilirlik akademinin merkez bir disiplini olmalı. AI modellerini bilimsel olarak incelemek, "kullan ve gözle" yetmiyor. Mikroskop gerek.
Geleneksel akademik yol tek yol değil. Olah üniversite okumadan sinir ağı yorumlanabilirliğinin akademik mimarı oldu — kalite akademiden değil, çalışmadan gelir.

Bağlam

Anthropic için: [[dario-amodei-anthropic-in-kurucusu]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]], [[ai-hizalama-modelleri-niye-istedigi-mizi-yapsin]]. Transformer iç yapısı için: [[transformer-attention-is-all-you-need]]. Yorumlanabilirlik için: [[explainable-ai-model-icindekini-anlama]] (varsa).

Chris Olah: Sinir Ağlarının Mikroskopçusu

Üniversite okumadan AI lideri

Distill.pub (2017–2021)

"Circuits" — yorumlanabilirliğin başlangıcı

Anthropic'te interpretability ekibi

"Golden Gate Claude" — viral örnek

"Inside Out" — bilimsel duruş

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi

Hypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu

Étienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci