Karmaşık olasılık dağılımlarından örnek alma (Bayes posterior)

Metropolis-Hastings kabul oranı neden çalışır?

Detailed balance koşulunu sağlar → durağan dağılım = posterior

Normalize sabit (Z) neden sorun değil?

Oran $p(\theta') / p(\theta_t)$'de Z payda-payda birbirini götürür

Gradient kullanarak Hamilton dinamikleriyle hızlı örnek (Stan, PyMC)

Çoklu zincirin yakınsayıp yakınsamadığını ölçer (~1.0 olmalı)

MCMC: Markov Zinciri Monte Carlo — Bayes Çıkarımının Motoru

Problem: dağılımın şekli karmaşık

Diyelim ki Bayes teoremi gereği şu posterior dağılımı hesaplamak istiyoruz:

$p(\theta \mid D) = \frac{p(D \mid \theta)\, p(\theta)}{p(D)}$

Pay kolay; payda ise:

$p(D) = \int p(D \mid \theta)\, p(\theta)\, d\theta$

Bu integral genelde kapalı formda çözülemez. Hatta sadece numerik değerini hesaplamak bile zor — $\theta$ binlerce boyutlu olabilir.

Ama paradoks şu: payı her zaman hesaplayabiliriz (orana kadar). MCMC bunu kullanır.

Monte Carlo fikri

Bir integrali çözmek yerine, dağılımdan örnek al ve örneklerle ortalama hesapla:

$\mathbb{E}[f(\theta)] \approx \frac{1}{N} \sum_{i=1}^{N} f(\theta_i)$

Ama nasıl örnek alacağız? Bilinmeyen, normalize edilmemiş bir dağılımdan...

Markov zinciri trüğü

Fikir (Metropolis, 1953): rastgele yürüyüş tasarla — öyle ki uzun vadeli denge dağılımı tam olarak istediğin $p(\theta \mid D)$ olsun.

Yürüyüş zaten dağılıma "yerleştiği" için, sonradan gelen adımlar örnek olur.

Metropolis-Hastings algoritması

Başla: $\theta_0$ (rastgele).
Her adımda:
- Öner: $\theta' = \theta_t + \epsilon$ (komşu nokta).
- Oran hesapla: $r = \frac{p(\theta' \mid D)}{p(\theta_t \mid D)}$ .
- (Pay/payda sadeleşir — normalize sabit kaybolur!)
- Kabul: $\theta_{t+1} = \theta'$ olasılıkla $\min(1, r)$ .
- Reddet: aksi halde $\theta_{t+1} = \theta_t$ .

Birkaç bin adım sonra: örnekler tam olarak posterior'dan geliyor.

Neden çalışır?

Detailed balance (ayrıntılı denge):

$p(\theta)\, q(\theta \to \theta') = p(\theta')\, q(\theta' \to \theta)$

Bu koşul sağlanırsa, zincirin durağan dağılımı $p(\theta)$ olur. Metropolis-Hastings kabul oranı tam olarak bu koşulu sağlayacak şekilde tasarlanmıştır.

Gibbs sampling

Özel hâli: koordinat-koordinat örnekle. $\theta = (\theta_1, \theta_2, ..., \theta_d)$ ise:

$\theta_1^{t+1} \sim p(\theta_1 \mid \theta_2^t, ..., \theta_d^t, D)$
$\theta_2^{t+1} \sim p(\theta_2 \mid \theta_1^{t+1}, \theta_3^t, ..., D)$
...

Şartlı dağılımlar kolaysa (örn. konjuge), Gibbs çok pratik.

Modern varyantlar

HMC (Hamiltonian MC): gradient kullanır, çok daha hızlı — Stan ve PyMC kullanır.
NUTS (No-U-Turn Sampler): HMC'nin otomatik versiyonu.
Langevin MC: gradient + gürültü, diffusion modellerle bağlantılı.
Parallel tempering: çoklu sıcaklıkta zincirler.

Pratik kullanım

Bayes regresyon: parametrelerin posterior'u.
Hierarşik modeller: çok seviyeli yapılar.
Bayes derin öğrenme: ağ ağırlıkları için belirsizlik.
Fizik: spin glass, kafes QCD.
Genetik: filogenetik ağaç çıkarımı.
Diffusion: Langevin dinamikleri MCMC'nin akrabası.

Sorunlar

Mixing: zincir hızlı dolaşmazsa yavaş.
Burn-in: ilk N örnek atılır (henüz dengeye gelmemiş).
Otokorelasyon: ardışık örnekler bağımsız değil — efektif örneklem sayısı az.
Yüksek boyut: $d \to \infty$ zorlaşır (HMC bunda iyi).
Multimodal: birden fazla mod varsa zincir takılabilir.

Tanı

Trace plot: zincirin zaman seyri.
R-hat ( $\hat{R}$ ): çoklu zincirler aynı dağılıma mı gidiyor? (~1.0 olmalı)
ESS (Effective Sample Size): bağımsız örneğe denk gelen.

Kapanış

MCMC sade ama güçlü: rastgele yürüyüşle integralleri çöz. Bayes çıkarımının modern hesaplama motoru — 1953'ten bugün diffusion modellerine kadar yaşıyor.