Tüm yazılar
Bilim Tarihi9 Şubat 2025

Neel Nanda: DeepMind'in Mechanistic Interpretability Elçisi

Genç bir araştırmacı, mechanistic interpretability'yi nişa bir konudan AI güvenliğinin merkezine taşıdı.

Matematik Karavanı 5 dk okuma 5 soru
Devre kartı — mechanistic interpretability metaforu

Eğitici-öncelikli bir bilim insanı

Neel Nanda (d. ~1998) — modern AI'da mechanistic interpretability'i ulaşılabilir kılan kişi. Tekniği bir nişten kariyer alanı haline getirdi.

Tek cümle: "Modeli açıp bakmak öğretilebilir".

Yol

  • Cambridge — matematik (Trinity College), genç yaşta dahi etiketi.
  • DeepMind'de Chris Olah ile staj — Anthropic'in interpretability ekibiyle çalıştı.
  • Anthropic — bir süre tam zamanlı interpretability.
  • DeepMind — şu an Mechanistic Interpretability Team Lead.
  • Kişisel blog/Substack: neelnanda.io — sektörün en bilgi yoğun referansı.

Ana katkıları

1. TransformerLens (2022)

Açık kaynak Python kütüphanesi: GPT-2 ve benzeri modellerin iç durumlarına kolay erişim.

model = HookedTransformer.from_pretrained("gpt2")
_, cache = model.run_with_cache("Hello world")
attention = cache["pattern", 0, 0]  # 0. katman, 0. başlık

MI araştırması için de facto standart oldu.

2. Grokking analizi (2022)

Power-Anil-Carleton'un "grokking" gözlemi (eğitim devam ederken modelin birden doğruyu öğrenmesi) — Neel modüler aritmetik üzerinde tam devreyi çözdü.

Sonuç: model Fourier dönüşümü benzeri bir yapı öğreniyor. "Magic" yok; algoritma var.

3. "200 MI Concepts" rehberi

İnternet üzerindeki en geniş mechanistic interpretability okuma listesi — kavramları, makaleleri, yöntemleri sıralar.

4. MATS — Eğitim programı

ML Alignment & Theory Scholars: yüzlerce genç araştırmacıyı MI'ya hazırlayan 6 haftalık yoğun program. Neel mentor ve örnek figür.

Tarz

  • Aşırı üretken blog: haftada 1–2 derin yazı.
  • Şeffaf: araştırma sürecini açık yazar (başarısızlıklar dahil).
  • Yüksek enerji: konuşmalarında çok hızlı, bilgi yoğun.
  • Sosyal aksiyon: Twitter/X'te aktif, genç araştırmacıları doğrudan yönlendirir.

Felsefe

Neel'in tekrarladığı temalar:

  • "Interpretability is a young science" — daha bir Newton'umuz yok.
  • "Show, don't tell" — her iddiayı kod ile gösterilebilir yap.
  • "AI safety needs MI" — alignment için modeli anlamak şart.
  • Açık kaynak her zaman — Anthropic'in kapalı kuruna karşı DeepMind'in açık MI cephesi.

Etki

  • Yeni nesil MI araştırmacılarının çoğu Neel'in materyallerinden öğrendi.
  • Şirket dışı tek başına mech interp'i öğrenmek mümkün hâle geldi.
  • MATS'tan çıkanlar bugün Anthropic, DeepMind, Apollo Research, OpenAI'de.

Tartışmalar

  • Bazıları yazılarının çok hızlı, kalitenin değişken olduğunu söyler.
  • "Mech interp güvenliği gerçekten çözecek mi?" sorusu açık.
  • Kendisi de alçakgönüllü: "henüz çok az şey biliyoruz" sık tekrarladığı söz.

Kapanış

Neel Nanda, bir araştırmacının sadece araştırmayla değil, eğitimle de büyük etki yapabileceğinin örneği. Mechanistic interpretability bugün ciddiye alınıyorsa — buna en çok katkı yapan kişilerden biri Neel.

Etiketler

Neel Nandamechanistic interpretabilityDeepMindAI güvenliğieğitim

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Neel Nanda'nın açık kaynak kütüphanesi?

2. Grokking analizinde neyi buldu?

3. Şu an çalıştığı yer?

4. MATS nedir?

5. Tarzı?