Chris Olah: Sinir Ağlarının Mikroskopçusu
Yüksek lisans dahi olmadan OpenAI ve Anthropic'in araştırma direktörü olan, AI yorumlanabilirliğinin akademik mimarı.

Üniversite okumadan AI lideri
Chris Olah'ın CV'sinde bir gariplik var: doktora yok, master yok, lisans yok. Toronto Üniversitesi'nde başladı, bir yıl sonra bıraktı. 19 yaşında.
Bunun yerine Thiel Fellowship aldı — Peter Thiel'in "kolej yerine girişimcilik" programı. 2 yıl serbest proje. 2014'te Google'a katıldı, doğrudan Brain takımının görsel araştırmasına.
2017'de OpenAI'ye geçti. 2021'de Anthropic'in kurucularından biri oldu. Bugün Anthropic'in Interpretability ekibinin başında. Sanford Üniversitesi'nde fahri profesör.
Olah'ın hikâyesi modern AI'da nadir: akademik kurumların dışında bir akademik karakter inşa etmek.
Distill.pub (2017–2021)
Olah'ın ilk büyük etkisi: Distill dergisi. Akademik makalelerin sıkıcı PDF formatına alternatif: interaktif, görsel, sezgisel. Web tabanlı, herkese açık.
Yayımladığı makaleler:
- "Visualizing Neural Networks" — sinir ağlarını görsel olarak göstermek.
- "How (and Why) Backpropagation Works" — geri yayılımın 5 farklı zihinsel modeli.
- "Feature Visualization" — ConvNet katmanlarının ne öğrendiğini görsellemek.
- "Building Blocks of Interpretability" — yorumlanabilirliğin temel parçaları.
Bu makaleler bir kuşak araştırmacının sinir ağına bakışını şekillendirdi. Etkisi akademik makaleleri kat kat aşar.
Distill 2021'de "duraksamaya" geçti. Sebep: editorial workload muazzam; gönüllü editorler tükendi. Ama miras kalıcı: modern AI blogger geleneği (Andrej Karpathy, Lilian Weng, vb.) onunla başladı.
"Circuits" — yorumlanabilirliğin başlangıcı
2020'de Olah ve ark. "Zoom In: An Introduction to Circuits" makalesi yayımladı. Tez:
"Sinir ağları analizleri makro düzeyde — 'şu katman ne yapıyor?' Yetersiz. Tek tek nöronları, küçük gruplarını incelemek gerek. Bunlara devre (circuit) diyelim."
Bu Olah'ın mekanistik yorumlanabilirlik (mechanistic interpretability) çerçevesi. Klasik yaklaşımdan farkı:
- Klasik: Modelin çıktıları neye dayanıyor (saliency, attention map).
- Mekanistik: Modelin iç hesap yapısı nasıl çalışıyor.
Olah devre örnekleri verdi: araba detektör nöronları, köpek detektör birleştirme, renk geçişi gizlenen yapılar. Sinir ağı bir "kara kutu" değil; içeride anlaşılabilir alt programlar var.
Anthropic'te interpretability ekibi
2021'de Dario ve Daniela Amodei'le birlikte OpenAI'den ayrıldı, Anthropic'i kurdu. Olah burada interpretability ekibinin başı oldu.
Önemli yayınları:
- "In-Context Learning and Induction Heads" (2022): Transformer'da "tekrar et" devresinin keşfi.
- "Toy Models of Superposition" (2022): Modellerin neden tek nöronda birden çok kavram saklayabildiği.
- "Decomposing Language Models with Dictionary Learning" (2023): Polysemantic'ten monosemantic'e — anlamlı özellik ayrıştırması.
- "Scaling Monosemanticity" (2024): Claude 3 Sonnet'in iç temsillerinde 3.4 milyon özellik.
Bu son makale, modern LLM'lerin içine bakmanın ilk büyük başarısı. Olah ekibi şöyle açıkladı: "Modeli açıyoruz, içindeki konsept temsillerini görüyoruz. 'Altın köprü' özelliğini bulduk; aktivasyonu artırdığımızda model her cevabı altın köprü'ye bağlamaya başladı."
"Golden Gate Claude" — viral örnek
2024 Mayıs'ta Anthropic, bu yorumlanabilirlik araştırmasının somut bir gösterisi olarak Golden Gate Claude sürümünü çıkardı. Modelin "altın köprü" özelliğinin aktivasyonunu manuel olarak artırdı.
Sonuç: model her şeyi altın köprüyle ilişkilendiriyor. Tarif istesen: "Altın köprü'nün üzerinde pişirilecek malzemeler". Matematik problemi: "Altın köprü'nün uzunluğu kadar 12 cm."
Viral oldu. Daha önemlisi: iç düzenlemenin model davranışını değiştirdiği somut kanıt. Bu, AI güvenliği için temel bir adım.
"Inside Out" — bilimsel duruş
Olah'ın akademik tarzı:
"AI tehlikelidir; ama nedenini sadece tahmin etmek yetmez. İçeri bakmak zorundayız. Model bir kara kutu değil; bizim bilgisizliğimizdir. Yorumlanabilirlik sadece güvenlik için değil, iyi bilim için gerek."
Bu tavır, AI risk söyleminin akademik temelini güçlendirdi. Hinton ve Russell felsefi argüman yaparken, Olah mikroskop kuruyor.
Sade ders
Olah hikâyesinden iki şey:
- Yorumlanabilirlik akademinin merkez bir disiplini olmalı. AI modellerini bilimsel olarak incelemek, "kullan ve gözle" yetmiyor. Mikroskop gerek.
- Geleneksel akademik yol tek yol değil. Olah üniversite okumadan sinir ağı yorumlanabilirliğinin akademik mimarı oldu — kalite akademiden değil, çalışmadan gelir.
Bağlam
Anthropic için: [[dario-amodei-anthropic-in-kurucusu]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]], [[ai-hizalama-modelleri-niye-istedigi-mizi-yapsin]]. Transformer iç yapısı için: [[transformer-attention-is-all-you-need]]. Yorumlanabilirlik için: [[explainable-ai-model-icindekini-anlama]] (varsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Distill.pub neydi?
2. Mekanistik yorumlanabilirlik nedir?
3. "Golden Gate Claude" ne gösterdi?
4. Olah'ın akademik geçmişi nasıldır?
5. Olah'ın güvenlik söylemine yaklaşımı nedir?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.