Tüm yazılar
Matematik12 Şubat 2025

MCMC: Markov Zinciri Monte Carlo — Bayes Çıkarımının Motoru

Karmaşık olasılık dağılımlarından örnek almak çoğu zaman imkansızdır. MCMC, "rastgele yürüyüş" yaparak bu sorunu çözer.

Matematik Karavanı 7 dk okuma 5 soru
Zarlar — rastgelelik ve olasılık metaforu

Problem: dağılımın şekli karmaşık

Diyelim ki Bayes teoremi gereği şu posterior dağılımı hesaplamak istiyoruz:

p(θD)=p(Dθ)p(θ)p(D)p(\theta \mid D) = \frac{p(D \mid \theta)\, p(\theta)}{p(D)}

Pay kolay; payda ise:

p(D)=p(Dθ)p(θ)dθp(D) = \int p(D \mid \theta)\, p(\theta)\, d\theta

Bu integral genelde kapalı formda çözülemez. Hatta sadece numerik değerini hesaplamak bile zor — θ\theta binlerce boyutlu olabilir.

Ama paradoks şu: payı her zaman hesaplayabiliriz (orana kadar). MCMC bunu kullanır.

Monte Carlo fikri

Bir integrali çözmek yerine, dağılımdan örnek al ve örneklerle ortalama hesapla:

E[f(θ)]1Ni=1Nf(θi)\mathbb{E}[f(\theta)] \approx \frac{1}{N} \sum_{i=1}^{N} f(\theta_i)

Ama nasıl örnek alacağız? Bilinmeyen, normalize edilmemiş bir dağılımdan...

Markov zinciri trüğü

Fikir (Metropolis, 1953): rastgele yürüyüş tasarla — öyle ki uzun vadeli denge dağılımı tam olarak istediğin p(θD)p(\theta \mid D) olsun.

Yürüyüş zaten dağılıma "yerleştiği" için, sonradan gelen adımlar örnek olur.

Metropolis-Hastings algoritması

  1. Başla: θ0\theta_0 (rastgele).
  2. Her adımda:
    • Öner: θ=θt+ϵ\theta' = \theta_t + \epsilon (komşu nokta).
    • Oran hesapla: r=p(θD)p(θtD)r = \frac{p(\theta' \mid D)}{p(\theta_t \mid D)}.
    • (Pay/payda sadeleşir — normalize sabit kaybolur!)
    • Kabul: θt+1=θ\theta_{t+1} = \theta' olasılıkla min(1,r)\min(1, r).
    • Reddet: aksi halde θt+1=θt\theta_{t+1} = \theta_t.

Birkaç bin adım sonra: örnekler tam olarak posterior'dan geliyor.

Neden çalışır?

Detailed balance (ayrıntılı denge):

p(θ)q(θθ)=p(θ)q(θθ)p(\theta)\, q(\theta \to \theta') = p(\theta')\, q(\theta' \to \theta)

Bu koşul sağlanırsa, zincirin durağan dağılımı p(θ)p(\theta) olur. Metropolis-Hastings kabul oranı tam olarak bu koşulu sağlayacak şekilde tasarlanmıştır.

Gibbs sampling

Özel hâli: koordinat-koordinat örnekle. θ=(θ1,θ2,...,θd)\theta = (\theta_1, \theta_2, ..., \theta_d) ise:

  • θ1t+1p(θ1θ2t,...,θdt,D)\theta_1^{t+1} \sim p(\theta_1 \mid \theta_2^t, ..., \theta_d^t, D)
  • θ2t+1p(θ2θ1t+1,θ3t,...,D)\theta_2^{t+1} \sim p(\theta_2 \mid \theta_1^{t+1}, \theta_3^t, ..., D)
  • ...

Şartlı dağılımlar kolaysa (örn. konjuge), Gibbs çok pratik.

Modern varyantlar

  • HMC (Hamiltonian MC): gradient kullanır, çok daha hızlı — Stan ve PyMC kullanır.
  • NUTS (No-U-Turn Sampler): HMC'nin otomatik versiyonu.
  • Langevin MC: gradient + gürültü, diffusion modellerle bağlantılı.
  • Parallel tempering: çoklu sıcaklıkta zincirler.

Pratik kullanım

  • Bayes regresyon: parametrelerin posterior'u.
  • Hierarşik modeller: çok seviyeli yapılar.
  • Bayes derin öğrenme: ağ ağırlıkları için belirsizlik.
  • Fizik: spin glass, kafes QCD.
  • Genetik: filogenetik ağaç çıkarımı.
  • Diffusion: Langevin dinamikleri MCMC'nin akrabası.

Sorunlar

  • Mixing: zincir hızlı dolaşmazsa yavaş.
  • Burn-in: ilk N örnek atılır (henüz dengeye gelmemiş).
  • Otokorelasyon: ardışık örnekler bağımsız değil — efektif örneklem sayısı az.
  • Yüksek boyut: dd \to \infty zorlaşır (HMC bunda iyi).
  • Multimodal: birden fazla mod varsa zincir takılabilir.

Tanı

  • Trace plot: zincirin zaman seyri.
  • R-hat (R^\hat{R}): çoklu zincirler aynı dağılıma mı gidiyor? (~1.0 olmalı)
  • ESS (Effective Sample Size): bağımsız örneğe denk gelen.

Kapanış

MCMC sade ama güçlü: rastgele yürüyüşle integralleri çöz. Bayes çıkarımının modern hesaplama motoru — 1953'ten bugün diffusion modellerine kadar yaşıyor.

Etiketler

MCMCBayesMonte CarloMetropolis-Hastingsolasılık

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. MCMC neyi çözer?

2. Metropolis-Hastings kabul oranı neden çalışır?

3. Normalize sabit (Z) neden sorun değil?

4. HMC ne yapar?

5. R-hat tanısı?