Neel Nanda: DeepMind'in Mechanistic Interpretability Elçisi
Genç bir araştırmacı, mechanistic interpretability'yi nişa bir konudan AI güvenliğinin merkezine taşıdı.

Eğitici-öncelikli bir bilim insanı
Neel Nanda (d. ~1998) — modern AI'da mechanistic interpretability'i ulaşılabilir kılan kişi. Tekniği bir nişten kariyer alanı haline getirdi.
Tek cümle: "Modeli açıp bakmak öğretilebilir".
Yol
- Cambridge — matematik (Trinity College), genç yaşta dahi etiketi.
- DeepMind'de Chris Olah ile staj — Anthropic'in interpretability ekibiyle çalıştı.
- Anthropic — bir süre tam zamanlı interpretability.
- DeepMind — şu an Mechanistic Interpretability Team Lead.
- Kişisel blog/Substack: neelnanda.io — sektörün en bilgi yoğun referansı.
Ana katkıları
1. TransformerLens (2022)
Açık kaynak Python kütüphanesi: GPT-2 ve benzeri modellerin iç durumlarına kolay erişim.
model = HookedTransformer.from_pretrained("gpt2")
_, cache = model.run_with_cache("Hello world")
attention = cache["pattern", 0, 0] # 0. katman, 0. başlık
MI araştırması için de facto standart oldu.
2. Grokking analizi (2022)
Power-Anil-Carleton'un "grokking" gözlemi (eğitim devam ederken modelin birden doğruyu öğrenmesi) — Neel modüler aritmetik üzerinde tam devreyi çözdü.
Sonuç: model Fourier dönüşümü benzeri bir yapı öğreniyor. "Magic" yok; algoritma var.
3. "200 MI Concepts" rehberi
İnternet üzerindeki en geniş mechanistic interpretability okuma listesi — kavramları, makaleleri, yöntemleri sıralar.
4. MATS — Eğitim programı
ML Alignment & Theory Scholars: yüzlerce genç araştırmacıyı MI'ya hazırlayan 6 haftalık yoğun program. Neel mentor ve örnek figür.
Tarz
- Aşırı üretken blog: haftada 1–2 derin yazı.
- Şeffaf: araştırma sürecini açık yazar (başarısızlıklar dahil).
- Yüksek enerji: konuşmalarında çok hızlı, bilgi yoğun.
- Sosyal aksiyon: Twitter/X'te aktif, genç araştırmacıları doğrudan yönlendirir.
Felsefe
Neel'in tekrarladığı temalar:
- "Interpretability is a young science" — daha bir Newton'umuz yok.
- "Show, don't tell" — her iddiayı kod ile gösterilebilir yap.
- "AI safety needs MI" — alignment için modeli anlamak şart.
- Açık kaynak her zaman — Anthropic'in kapalı kuruna karşı DeepMind'in açık MI cephesi.
Etki
- Yeni nesil MI araştırmacılarının çoğu Neel'in materyallerinden öğrendi.
- Şirket dışı tek başına mech interp'i öğrenmek mümkün hâle geldi.
- MATS'tan çıkanlar bugün Anthropic, DeepMind, Apollo Research, OpenAI'de.
Tartışmalar
- Bazıları yazılarının çok hızlı, kalitenin değişken olduğunu söyler.
- "Mech interp güvenliği gerçekten çözecek mi?" sorusu açık.
- Kendisi de alçakgönüllü: "henüz çok az şey biliyoruz" sık tekrarladığı söz.
Kapanış
Neel Nanda, bir araştırmacının sadece araştırmayla değil, eğitimle de büyük etki yapabileceğinin örneği. Mechanistic interpretability bugün ciddiye alınıyorsa — buna en çok katkı yapan kişilerden biri Neel.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Neel Nanda'nın açık kaynak kütüphanesi?
2. Grokking analizinde neyi buldu?
3. Şu an çalıştığı yer?
4. MATS nedir?
5. Tarzı?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.