Expectation (gizli değişkene olasılık) ve Maximization (parametre güncelleme)

Her iterasyon log-likelihood artar veya sabit — yerel maksimuma yakınsar

GMM ile K-means ilişkisi?

K-means = Hard EM (küresel, eşit Gaussian'lar varsayımı). GMM = Soft EM

Variational EM — encoder yaklaşık E, decoder M; modern Bayes derin öğrenmenin temeli

Dempster, Laird, Rubin 1977 makalesi — istatistiğin en çok kullanılan algoritmalarından

EM Algoritması: Gizli Değişkenli Modellerin "İki Adımlı Büyüsü"

Tavuk-yumurta problemi

Bir veri kümeniz var ama bazı bilgiler eksik:

"Bu nokta hangi kümeden?" — etiketsiz veri.
"Bu kelime hangi konudan?" — LDA.
"Hangi hava durumunda sonraki ne gelir?" — HMM.

Problemi:

Etiketleri bilseydik → parametreler kolay.
Parametreleri bilseydik → etiketler kolay.
Hiçbirini bilmiyoruz.

Çözüm: EM Algoritması — Dempster, Laird, Rubin, 1977.

Sezgi

İki adımı dönüşümlü tekrarla:

E adımı (Expectation): mevcut parametrelerle her gizli değişkene olasılık ata.
M adımı (Maximization): bu yumuşak atamalara göre parametreleri güncelle.

Yakınsayana kadar tekrarla.

Her iterasyon likelihood'ı artırır (kanıtlanmış).

Matematiksel form

Gözlenen veri $X$ , gizli değişken $Z$ , parametre $\theta$ .

Log-likelihood:
$\log p(X \mid \theta) = \log \sum_Z p(X, Z \mid \theta)$

Direkt maksimize etmek zor. Jensen eşitsizliği:

$\log p(X \mid \theta) \ge \mathbb{E}_{q(Z)}[\log p(X, Z \mid \theta)] - \mathbb{E}_{q(Z)}[\log q(Z)]$

Sağ taraf ELBO (Evidence Lower Bound).

E: $q(Z) = p(Z \mid X, \theta^{old})$ .
M: $\theta^{new} = \arg\max_\theta \mathbb{E}_{q(Z)}[\log p(X, Z \mid \theta)]$ .

Klasik örnek: Gaussian Mixture Model (GMM)

K Gaussian'ın karışımı. Her nokta gizli olarak bir Gaussian'a ait.

E adımı: her nokta için her Gaussian'ın sorumluluk (responsibility):

$r_{ik} = \frac{\pi_k \mathcal{N}(x_i \mid \mu_k, \Sigma_k)}{\sum_j \pi_j \mathcal{N}(x_i \mid \mu_j, \Sigma_j)}$

M adımı: ağırlıklı ortalama, kovaryans, karışım katsayısı.

$\mu_k = \frac{\sum_i r_{ik} x_i}{\sum_i r_{ik}}$

Sonuç: K-means'in olasılıksal genelleştirmesi. Yumuşak atamalar, küre olmayan kümeler.

Garantiler

Her iterasyon log-likelihood artar (veya sabit kalır).
Yerel maksimuma yakınsar — global garantisi yok.
Başlangıca duyarlı: birden fazla rastgele başlatma yapılır.

Modern AI'da kullanım

1. GMM

Voice activity detection.
Renk kuantizasyonu.
Speech synthesis.

2. HMM

Konuşma tanıma (Baum-Welch = HMM için EM).
Biyoinformatik (gene finding).
Finans (regime switching).

3. LDA

Topic modeling.
Bilim makalelerinde konu tespiti.

4. VAE

Variational EM: variational autoencoder'ın eğitimi de EM çeşididir.
Encoder = E adımı (yaklaşık q).
Decoder = M adımı.

5. RLHF

Reward model eğitimi sırasında bazı varyasyonlar EM benzeri.

Variational EM

Tam E adımı (posterior bulma) çoğu zaman zor. Variational EM: $q$ 'yu basitleştirilmiş aileden seç (örn. Gaussian).

Bu modern Bayes derin öğrenmenin temeli — VAE, BNN.

Hard EM vs. Soft EM

Soft EM (klasik): her nokta tüm sınıflara olasılıkla ait.
Hard EM: en yüksek olasılıklı sınıfa kesin ata. Hızlı ama bilgi kaybı.

K-means tam olarak Hard EM'dir (Gaussian'lar küresel ve eşit).

Sınırlamalar

Yerel optimumlar: başlangıca bağlı.
Yavaş yakınsama: özellikle iyi belirlenmemiş modellerde.
Karışım sayısı (K): önceden bilinmeli.
Singularity: bir Gaussian tek noktaya çökerse log-likelihood patlamaya gider — regülerizasyon.

Türkçe NLP'de

BERTurk'ten önce LDA Türk metin analizinin standardıydı.
HMM Türkçe POS tagging için 2000-2010 arası altın standart.
Bugün transformer'lar her yerde ama EM hâlâ küçük veri ve olasılık modelleri için kullanışlı.

Tarihsel önem

1977: Dempster, Laird, Rubin makalesi.
20.000+ alıntı.
İstatistiğin en çok kullanılan algoritmalarından.

Türk istatistik camiası: ODTÜ İSTAT, Hacettepe İSTAT derslerinde temel konu.

Kapanış

EM algoritması basit bir fikre dayanır — iki şeyi dönüşümlü öğren — ama olasılık modellerinin yarısının arkasında. K-means'in olasılıksal akrabası, modern Bayes derin öğrenmenin atası. 45 yaşında ve hâlâ aktif bir algoritma.