Neel Nanda'nın açık kaynak kütüphanesi?

TransformerLens — GPT-2 vb. modellerin iç durumuna kolay erişim

Grokking analizinde neyi buldu?

Modüler aritmetik için model Fourier benzeri bir devreyi öğreniyor

Şu an çalıştığı yer?

DeepMind — Mechanistic Interpretability Team Lead

ML Alignment & Theory Scholars — Neel'in mentor olduğu 6 haftalık MI eğitim programı

Aşırı üretken blog, açık kaynak öncelik, eğitim odaklı

Neel Nanda: DeepMind'in Mechanistic Interpretability Elçisi

Eğitici-öncelikli bir bilim insanı

Neel Nanda (d. ~1998) — modern AI'da mechanistic interpretability'i ulaşılabilir kılan kişi. Tekniği bir nişten kariyer alanı haline getirdi.

Tek cümle: "Modeli açıp bakmak öğretilebilir".

Yol

Cambridge — matematik (Trinity College), genç yaşta dahi etiketi.
DeepMind'de Chris Olah ile staj — Anthropic'in interpretability ekibiyle çalıştı.
Anthropic — bir süre tam zamanlı interpretability.
DeepMind — şu an Mechanistic Interpretability Team Lead.
Kişisel blog/Substack: neelnanda.io — sektörün en bilgi yoğun referansı.

Ana katkıları

1. TransformerLens (2022)

Açık kaynak Python kütüphanesi: GPT-2 ve benzeri modellerin iç durumlarına kolay erişim.

model = HookedTransformer.from_pretrained("gpt2")
_, cache = model.run_with_cache("Hello world")
attention = cache["pattern", 0, 0]  # 0. katman, 0. başlık

MI araştırması için de facto standart oldu.

2. Grokking analizi (2022)

Power-Anil-Carleton'un "grokking" gözlemi (eğitim devam ederken modelin birden doğruyu öğrenmesi) — Neel modüler aritmetik üzerinde tam devreyi çözdü.

Sonuç: model Fourier dönüşümü benzeri bir yapı öğreniyor. "Magic" yok; algoritma var.

3. "200 MI Concepts" rehberi

İnternet üzerindeki en geniş mechanistic interpretability okuma listesi — kavramları, makaleleri, yöntemleri sıralar.

4. MATS — Eğitim programı

ML Alignment & Theory Scholars: yüzlerce genç araştırmacıyı MI'ya hazırlayan 6 haftalık yoğun program. Neel mentor ve örnek figür.

Tarz

Aşırı üretken blog: haftada 1–2 derin yazı.
Şeffaf: araştırma sürecini açık yazar (başarısızlıklar dahil).
Yüksek enerji: konuşmalarında çok hızlı, bilgi yoğun.
Sosyal aksiyon: Twitter/X'te aktif, genç araştırmacıları doğrudan yönlendirir.

Felsefe

Neel'in tekrarladığı temalar:

"Interpretability is a young science" — daha bir Newton'umuz yok.
"Show, don't tell" — her iddiayı kod ile gösterilebilir yap.
"AI safety needs MI" — alignment için modeli anlamak şart.
Açık kaynak her zaman — Anthropic'in kapalı kuruna karşı DeepMind'in açık MI cephesi.

Etki

Yeni nesil MI araştırmacılarının çoğu Neel'in materyallerinden öğrendi.
Şirket dışı tek başına mech interp'i öğrenmek mümkün hâle geldi.
MATS'tan çıkanlar bugün Anthropic, DeepMind, Apollo Research, OpenAI'de.

Tartışmalar

Bazıları yazılarının çok hızlı, kalitenin değişken olduğunu söyler.
"Mech interp güvenliği gerçekten çözecek mi?" sorusu açık.
Kendisi de alçakgönüllü: "henüz çok az şey biliyoruz" sık tekrarladığı söz.

Kapanış

Neel Nanda, bir araştırmacının sadece araştırmayla değil, eğitimle de büyük etki yapabileceğinin örneği. Mechanistic interpretability bugün ciddiye alınıyorsa — buna en çok katkı yapan kişilerden biri Neel.