Mechanistic interpretability ne yapar?

Modelin içindeki "devreleri/algoritmaları" tersine mühendislikle çözer

Nöron sayısı kavram sayısından az olduğu için model kavramları üst üste bindirir

Sparse Autoencoder ne yapar?

Aktivasyonları geniş ve seyrek bir özellik sözlüğüne çevirir → yorumlanabilir özellikler

Activation patching ne işe yarar?

Bir özelliği zorla aç/kapa, çıktıya etkisini ölç → nedensellik testi

Anthropic 2024 SAE çalışması neyi gösterdi?

Claude 3 Sonnet üzerinde milyonlarca yorumlanabilir özellik (Golden Gate, kod hatası, deception)

Mechanistic Interpretability: Sinir Ağının "İçini Açmak"

Sorun: model çalışıyor ama "neden?" bilmiyoruz

Modern LLM 100 milyar+ parametreye sahip. Eğitilir, çalışır, soru cevaplar — ama içinde ne döndüğünü kimse tam bilmez.

Bu durum:

Güvenlik açısından kötü: jailbreak'leri ön göremezsin.
Bilim açısından kötü: anlamadan ilerlersin.
Hata teşhisi açısından kötü: model neden yanlış yaptı?

Mechanistic interpretability (MI): modelin içindeki algoritmaları ortaya çıkarmaya çalışır. Modeli, bir tersine mühendislik nesnesi gibi görür.

Kara kutu vs. mekanistik

Klasik yorumlanabilirlik: model neden bu cevabı verdi? (saliency, SHAP, dikkat haritaları)

Mekanistik yorumlanabilirlik: nöron 3247 ne öğrendi? Hangi devre çoğaltma yapıyor? Modeli sıradan bir bilgisayar programı gibi parça parça anla.

Tek cümle: "weights yerine algoritma oku".

Temel keşifler

1. Features (Özellikler)

Bir nöron sadece tek bir kavramı temsil etmez (genelde). Yön (vektör) olarak kavramlar gizlenir.

"Köpük" özelliği
"Python kodu" özelliği
"Korkulu ton" özelliği

Anthropic'in 2023 "Towards Monosemanticity" çalışması: küçük modellerde binlerce yorumlanabilir özellik bulundu.

2. Circuits (Devreler)

Birden fazla katmanı geçerek bir görev nasıl çözülüyor?

Örnek: IOI devresi (Indirect Object Identification) — GPT-2 small'da "John gave a book to ___" → "Mary" tahmininin ardındaki 22 attention head'in iş bölümü ortaya çıkarıldı.

3. Superposition

Problem: nöron sayısı < kavram sayısı.

Çözüm (modelin): birden fazla kavramı aynı nöronlarda üst üste bindir (superposition). İlişkili olmayan kavramlar nadiren aynı anda aktif olduğu için bu işe yarar.

Sonuç: tek nöronu okumak yetmez; dağıtık temsili çözmek lazım.

Sparse Autoencoders (SAE)

Modern MI'nin en güçlü aracı.

Fikir: model aktivasyonlarını al, çok daha geniş ve seyrek bir bazda yeniden yaz.

$h \approx D \cdot z, \quad z \text{ seyrek}$

$D$ : özellik sözlüğü (dictionary), $z$ : aktif özellikler.

Anthropic 2024 — Claude 3 Sonnet üzerinde SAE: milyonlarca yorumlanabilir özellik bulundu. "Golden Gate Bridge", "Python hatası", "yanıltıcı kod", "ödül hilekarlığı niyetı" gibi özellikler.

Activation Patching

Bir nöronu/özelliği zorla kapat veya ekle, çıktıya etkisine bak. Nedensellik testi.

Anthropic'in "Golden Gate Claude" demosu: SAE'den bulunan "Golden Gate" özelliğini yükselt → Claude her şeyi köprüye bağlamaya başlar.

Uygulamalar

Jailbreak teşhisi: zararlı çıktıya yol açan devre nedir?
Hata kök analizi: model neden halüsinasyon yaptı? (bir kavramı yanlış çağırdı mı?)
Steering: belirli bir davranışı arttır/azalt (alignment için).
Bilgi düzenleme: belirli olguları modelden "sil" (LEACE, ROME teknikleri).
Güvenlik denetimi: model aldatıcı niyetlere sahip mi? (deception detection)

Önde gelen ekipler

Anthropic: Chris Olah ekibi, SAE öncüsü, Towards Monosemanticity → Scaling Monosemanticity (2024).
DeepMind: Neel Nanda öncülüğü, eğitici materyaller, "Mechanistic Interpretability for AI Safety" kursları.
MATS / Apollo Research / EleutherAI: bağımsız araştırma.

Sınırlamalar

Ölçekleme zor: bir modeli "tamamen anlamak" hâlâ uzak.
Sözlük öğrenmesi pahalı: SAE'ler büyük modellere çıkarmak GPU yoğun.
Yorum öznel: bir feature'a "ne ad vereceğin" sezgisel.
Inference-time: ne kadar yorumlanabilirlik gerçek davranışı yansıtır açık soru.

Neden önemli?

Eğer AGI gelecekse — Shane Legg gibi insanlar haklıysa — içinde ne olduğunu bilmemiz lazım. Mechanistic interpretability, AI güvenliğinin bilim koluna en yakın dalı.

"Modeli açıp bakmak" eski bir hayaldi; SAE'ler ve activation patching bu hayali pratik bilim haline getirdi.

Kapanış

Modern AI'nın "kara kutusu" yavaş yavaş şeffaflaşıyor. Mechanistic interpretability, modeli biyolog gibi inceleyen, içindeki organları haritalayan bir disiplin oldu. Belki AGI'ye giden yolda en hayati teknik bu.