Tüm yazılar
Matematik10 Şubat 2025

Mechanistic Interpretability: Sinir Ağının "İçini Açmak"

LLM'ler kara kutu. Ama Anthropic ve diğer ekipler, içlerindeki "devreleri" tek tek çözüyor. Bu, modern AI biliminin yeni bir dalı.

Matematik Karavanı 7 dk okuma 5 soru
Mikroskop — sinir ağının içini inceleme metaforu

Sorun: model çalışıyor ama "neden?" bilmiyoruz

Modern LLM 100 milyar+ parametreye sahip. Eğitilir, çalışır, soru cevaplar — ama içinde ne döndüğünü kimse tam bilmez.

Bu durum:

  • Güvenlik açısından kötü: jailbreak'leri ön göremezsin.
  • Bilim açısından kötü: anlamadan ilerlersin.
  • Hata teşhisi açısından kötü: model neden yanlış yaptı?

Mechanistic interpretability (MI): modelin içindeki algoritmaları ortaya çıkarmaya çalışır. Modeli, bir tersine mühendislik nesnesi gibi görür.

Kara kutu vs. mekanistik

Klasik yorumlanabilirlik: model neden bu cevabı verdi? (saliency, SHAP, dikkat haritaları)

Mekanistik yorumlanabilirlik: nöron 3247 ne öğrendi? Hangi devre çoğaltma yapıyor? Modeli sıradan bir bilgisayar programı gibi parça parça anla.

Tek cümle: "weights yerine algoritma oku".

Temel keşifler

1. Features (Özellikler)

Bir nöron sadece tek bir kavramı temsil etmez (genelde). Yön (vektör) olarak kavramlar gizlenir.

  • "Köpük" özelliği
  • "Python kodu" özelliği
  • "Korkulu ton" özelliği

Anthropic'in 2023 "Towards Monosemanticity" çalışması: küçük modellerde binlerce yorumlanabilir özellik bulundu.

2. Circuits (Devreler)

Birden fazla katmanı geçerek bir görev nasıl çözülüyor?

Örnek: IOI devresi (Indirect Object Identification) — GPT-2 small'da "John gave a book to ___" → "Mary" tahmininin ardındaki 22 attention head'in iş bölümü ortaya çıkarıldı.

3. Superposition

Problem: nöron sayısı < kavram sayısı.

Çözüm (modelin): birden fazla kavramı aynı nöronlarda üst üste bindir (superposition). İlişkili olmayan kavramlar nadiren aynı anda aktif olduğu için bu işe yarar.

Sonuç: tek nöronu okumak yetmez; dağıtık temsili çözmek lazım.

Sparse Autoencoders (SAE)

Modern MI'nin en güçlü aracı.

Fikir: model aktivasyonlarını al, çok daha geniş ve seyrek bir bazda yeniden yaz.

hDz,z seyrekh \approx D \cdot z, \quad z \text{ seyrek}

DD: özellik sözlüğü (dictionary), zz: aktif özellikler.

Anthropic 2024 — Claude 3 Sonnet üzerinde SAE: milyonlarca yorumlanabilir özellik bulundu. "Golden Gate Bridge", "Python hatası", "yanıltıcı kod", "ödül hilekarlığı niyetı" gibi özellikler.

Activation Patching

Bir nöronu/özelliği zorla kapat veya ekle, çıktıya etkisine bak. Nedensellik testi.

Anthropic'in "Golden Gate Claude" demosu: SAE'den bulunan "Golden Gate" özelliğini yükselt → Claude her şeyi köprüye bağlamaya başlar.

Uygulamalar

  • Jailbreak teşhisi: zararlı çıktıya yol açan devre nedir?
  • Hata kök analizi: model neden halüsinasyon yaptı? (bir kavramı yanlış çağırdı mı?)
  • Steering: belirli bir davranışı arttır/azalt (alignment için).
  • Bilgi düzenleme: belirli olguları modelden "sil" (LEACE, ROME teknikleri).
  • Güvenlik denetimi: model aldatıcı niyetlere sahip mi? (deception detection)

Önde gelen ekipler

  • Anthropic: Chris Olah ekibi, SAE öncüsü, Towards Monosemanticity → Scaling Monosemanticity (2024).
  • DeepMind: Neel Nanda öncülüğü, eğitici materyaller, "Mechanistic Interpretability for AI Safety" kursları.
  • MATS / Apollo Research / EleutherAI: bağımsız araştırma.

Sınırlamalar

  • Ölçekleme zor: bir modeli "tamamen anlamak" hâlâ uzak.
  • Sözlük öğrenmesi pahalı: SAE'ler büyük modellere çıkarmak GPU yoğun.
  • Yorum öznel: bir feature'a "ne ad vereceğin" sezgisel.
  • Inference-time: ne kadar yorumlanabilirlik gerçek davranışı yansıtır açık soru.

Neden önemli?

Eğer AGI gelecekse — Shane Legg gibi insanlar haklıysa — içinde ne olduğunu bilmemiz lazım. Mechanistic interpretability, AI güvenliğinin bilim koluna en yakın dalı.

"Modeli açıp bakmak" eski bir hayaldi; SAE'ler ve activation patching bu hayali pratik bilim haline getirdi.

Kapanış

Modern AI'nın "kara kutusu" yavaş yavaş şeffaflaşıyor. Mechanistic interpretability, modeli biyolog gibi inceleyen, içindeki organları haritalayan bir disiplin oldu. Belki AGI'ye giden yolda en hayati teknik bu.

Etiketler

mechanistic interpretabilityAI güvenliğisparse autoencoderssuperpositionAnthropic

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Mechanistic interpretability ne yapar?

2. Superposition nedir?

3. Sparse Autoencoder ne yapar?

4. Activation patching ne işe yarar?

5. Anthropic 2024 SAE çalışması neyi gösterdi?