Tüm yazılar
Matematik17 Ocak 2025

EM Algoritması: Gizli Değişkenli Modellerin "İki Adımlı Büyüsü"

Gaussian karışımı, gizli Markov, latent topic modelleri — hepsinin arkasında 1977'den beri kullanılan iki adımlı bir algoritma.

Matematik Karavanı 6 dk okuma 5 soru
Tuna nehri kıvrımları — iterasyon ve döngü metaforu

Tavuk-yumurta problemi

Bir veri kümeniz var ama bazı bilgiler eksik:

  • "Bu nokta hangi kümeden?" — etiketsiz veri.
  • "Bu kelime hangi konudan?" — LDA.
  • "Hangi hava durumunda sonraki ne gelir?" — HMM.

Problemi:

  • Etiketleri bilseydik → parametreler kolay.
  • Parametreleri bilseydik → etiketler kolay.
  • Hiçbirini bilmiyoruz.

Çözüm: EM Algoritması — Dempster, Laird, Rubin, 1977.

Sezgi

İki adımı dönüşümlü tekrarla:

  1. E adımı (Expectation): mevcut parametrelerle her gizli değişkene olasılık ata.
  2. M adımı (Maximization): bu yumuşak atamalara göre parametreleri güncelle.

Yakınsayana kadar tekrarla.

Her iterasyon likelihood'ı artırır (kanıtlanmış).

Matematiksel form

Gözlenen veri XX, gizli değişken ZZ, parametre θ\theta.

Log-likelihood:
logp(Xθ)=logZp(X,Zθ)\log p(X \mid \theta) = \log \sum_Z p(X, Z \mid \theta)

Direkt maksimize etmek zor. Jensen eşitsizliği:

logp(Xθ)Eq(Z)[logp(X,Zθ)]Eq(Z)[logq(Z)]\log p(X \mid \theta) \ge \mathbb{E}_{q(Z)}[\log p(X, Z \mid \theta)] - \mathbb{E}_{q(Z)}[\log q(Z)]

Sağ taraf ELBO (Evidence Lower Bound).

E: q(Z)=p(ZX,θold)q(Z) = p(Z \mid X, \theta^{old}).
M: θnew=argmaxθEq(Z)[logp(X,Zθ)]\theta^{new} = \arg\max_\theta \mathbb{E}_{q(Z)}[\log p(X, Z \mid \theta)].

Klasik örnek: Gaussian Mixture Model (GMM)

K Gaussian'ın karışımı. Her nokta gizli olarak bir Gaussian'a ait.

E adımı: her nokta için her Gaussian'ın sorumluluk (responsibility):

rik=πkN(xiμk,Σk)jπjN(xiμj,Σj)r_{ik} = \frac{\pi_k \mathcal{N}(x_i \mid \mu_k, \Sigma_k)}{\sum_j \pi_j \mathcal{N}(x_i \mid \mu_j, \Sigma_j)}

M adımı: ağırlıklı ortalama, kovaryans, karışım katsayısı.

μk=irikxiirik\mu_k = \frac{\sum_i r_{ik} x_i}{\sum_i r_{ik}}

Sonuç: K-means'in olasılıksal genelleştirmesi. Yumuşak atamalar, küre olmayan kümeler.

Garantiler

  • Her iterasyon log-likelihood artar (veya sabit kalır).
  • Yerel maksimuma yakınsar — global garantisi yok.
  • Başlangıca duyarlı: birden fazla rastgele başlatma yapılır.

Modern AI'da kullanım

1. GMM

  • Voice activity detection.
  • Renk kuantizasyonu.
  • Speech synthesis.

2. HMM

  • Konuşma tanıma (Baum-Welch = HMM için EM).
  • Biyoinformatik (gene finding).
  • Finans (regime switching).

3. LDA

  • Topic modeling.
  • Bilim makalelerinde konu tespiti.

4. VAE

  • Variational EM: variational autoencoder'ın eğitimi de EM çeşididir.
  • Encoder = E adımı (yaklaşık q).
  • Decoder = M adımı.

5. RLHF

  • Reward model eğitimi sırasında bazı varyasyonlar EM benzeri.

Variational EM

Tam E adımı (posterior bulma) çoğu zaman zor. Variational EM: qq'yu basitleştirilmiş aileden seç (örn. Gaussian).

Bu modern Bayes derin öğrenmenin temeli — VAE, BNN.

Hard EM vs. Soft EM

  • Soft EM (klasik): her nokta tüm sınıflara olasılıkla ait.
  • Hard EM: en yüksek olasılıklı sınıfa kesin ata. Hızlı ama bilgi kaybı.

K-means tam olarak Hard EM'dir (Gaussian'lar küresel ve eşit).

Sınırlamalar

  • Yerel optimumlar: başlangıca bağlı.
  • Yavaş yakınsama: özellikle iyi belirlenmemiş modellerde.
  • Karışım sayısı (K): önceden bilinmeli.
  • Singularity: bir Gaussian tek noktaya çökerse log-likelihood patlamaya gider — regülerizasyon.

Türkçe NLP'de

  • BERTurk'ten önce LDA Türk metin analizinin standardıydı.
  • HMM Türkçe POS tagging için 2000-2010 arası altın standart.
  • Bugün transformer'lar her yerde ama EM hâlâ küçük veri ve olasılık modelleri için kullanışlı.

Tarihsel önem

  • 1977: Dempster, Laird, Rubin makalesi.
  • 20.000+ alıntı.
  • İstatistiğin en çok kullanılan algoritmalarından.

Türk istatistik camiası: ODTÜ İSTAT, Hacettepe İSTAT derslerinde temel konu.

Kapanış

EM algoritması basit bir fikre dayanır — iki şeyi dönüşümlü öğren — ama olasılık modellerinin yarısının arkasında. K-means'in olasılıksal akrabası, modern Bayes derin öğrenmenin atası. 45 yaşında ve hâlâ aktif bir algoritma.

Etiketler

EM algorithmexpectation maximizationgizli değişkenlerolasılıkGMM

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. EM'in iki adımı?

2. EM'in garantisi?

3. GMM ile K-means ilişkisi?

4. VAE ile bağlantı?

5. Tarihi?