Mechanistic Interpretability: Sinir Ağının "İçini Açmak"
LLM'ler kara kutu. Ama Anthropic ve diğer ekipler, içlerindeki "devreleri" tek tek çözüyor. Bu, modern AI biliminin yeni bir dalı.

Sorun: model çalışıyor ama "neden?" bilmiyoruz
Modern LLM 100 milyar+ parametreye sahip. Eğitilir, çalışır, soru cevaplar — ama içinde ne döndüğünü kimse tam bilmez.
Bu durum:
- Güvenlik açısından kötü: jailbreak'leri ön göremezsin.
- Bilim açısından kötü: anlamadan ilerlersin.
- Hata teşhisi açısından kötü: model neden yanlış yaptı?
Mechanistic interpretability (MI): modelin içindeki algoritmaları ortaya çıkarmaya çalışır. Modeli, bir tersine mühendislik nesnesi gibi görür.
Kara kutu vs. mekanistik
Klasik yorumlanabilirlik: model neden bu cevabı verdi? (saliency, SHAP, dikkat haritaları)
Mekanistik yorumlanabilirlik: nöron 3247 ne öğrendi? Hangi devre çoğaltma yapıyor? Modeli sıradan bir bilgisayar programı gibi parça parça anla.
Tek cümle: "weights yerine algoritma oku".
Temel keşifler
1. Features (Özellikler)
Bir nöron sadece tek bir kavramı temsil etmez (genelde). Yön (vektör) olarak kavramlar gizlenir.
- "Köpük" özelliği
- "Python kodu" özelliği
- "Korkulu ton" özelliği
Anthropic'in 2023 "Towards Monosemanticity" çalışması: küçük modellerde binlerce yorumlanabilir özellik bulundu.
2. Circuits (Devreler)
Birden fazla katmanı geçerek bir görev nasıl çözülüyor?
Örnek: IOI devresi (Indirect Object Identification) — GPT-2 small'da "John gave a book to ___" → "Mary" tahmininin ardındaki 22 attention head'in iş bölümü ortaya çıkarıldı.
3. Superposition
Problem: nöron sayısı < kavram sayısı.
Çözüm (modelin): birden fazla kavramı aynı nöronlarda üst üste bindir (superposition). İlişkili olmayan kavramlar nadiren aynı anda aktif olduğu için bu işe yarar.
Sonuç: tek nöronu okumak yetmez; dağıtık temsili çözmek lazım.
Sparse Autoencoders (SAE)
Modern MI'nin en güçlü aracı.
Fikir: model aktivasyonlarını al, çok daha geniş ve seyrek bir bazda yeniden yaz.
: özellik sözlüğü (dictionary), : aktif özellikler.
Anthropic 2024 — Claude 3 Sonnet üzerinde SAE: milyonlarca yorumlanabilir özellik bulundu. "Golden Gate Bridge", "Python hatası", "yanıltıcı kod", "ödül hilekarlığı niyetı" gibi özellikler.
Activation Patching
Bir nöronu/özelliği zorla kapat veya ekle, çıktıya etkisine bak. Nedensellik testi.
Anthropic'in "Golden Gate Claude" demosu: SAE'den bulunan "Golden Gate" özelliğini yükselt → Claude her şeyi köprüye bağlamaya başlar.
Uygulamalar
- Jailbreak teşhisi: zararlı çıktıya yol açan devre nedir?
- Hata kök analizi: model neden halüsinasyon yaptı? (bir kavramı yanlış çağırdı mı?)
- Steering: belirli bir davranışı arttır/azalt (alignment için).
- Bilgi düzenleme: belirli olguları modelden "sil" (LEACE, ROME teknikleri).
- Güvenlik denetimi: model aldatıcı niyetlere sahip mi? (deception detection)
Önde gelen ekipler
- Anthropic: Chris Olah ekibi, SAE öncüsü, Towards Monosemanticity → Scaling Monosemanticity (2024).
- DeepMind: Neel Nanda öncülüğü, eğitici materyaller, "Mechanistic Interpretability for AI Safety" kursları.
- MATS / Apollo Research / EleutherAI: bağımsız araştırma.
Sınırlamalar
- Ölçekleme zor: bir modeli "tamamen anlamak" hâlâ uzak.
- Sözlük öğrenmesi pahalı: SAE'ler büyük modellere çıkarmak GPU yoğun.
- Yorum öznel: bir feature'a "ne ad vereceğin" sezgisel.
- Inference-time: ne kadar yorumlanabilirlik gerçek davranışı yansıtır açık soru.
Neden önemli?
Eğer AGI gelecekse — Shane Legg gibi insanlar haklıysa — içinde ne olduğunu bilmemiz lazım. Mechanistic interpretability, AI güvenliğinin bilim koluna en yakın dalı.
"Modeli açıp bakmak" eski bir hayaldi; SAE'ler ve activation patching bu hayali pratik bilim haline getirdi.
Kapanış
Modern AI'nın "kara kutusu" yavaş yavaş şeffaflaşıyor. Mechanistic interpretability, modeli biyolog gibi inceleyen, içindeki organları haritalayan bir disiplin oldu. Belki AGI'ye giden yolda en hayati teknik bu.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Mechanistic interpretability ne yapar?
2. Superposition nedir?
3. Sparse Autoencoder ne yapar?
4. Activation patching ne işe yarar?
5. Anthropic 2024 SAE çalışması neyi gösterdi?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?