VAE klasik autoencoder'dan ne ile ayrılır?

Latent temsil bir dağılımdır (deterministik nokta değil); olasılıksal

Reparameterization trick ne işe yarar?

Stokastik örneklemeden geri yayılımı mümkün kılar: $z = \mu + \sigma \epsilon$

ELBO'nun iki terimi nedir?

Reconstruction (decoder kalitesi) + KL divergence (latent düzenli olsun)

VAE'nin en bilinen zayıflığı nedir?

Bulanık çıktı — reconstruction kayıp Gaussian varsayar, ortalama çıktı

VAE modern AI'da hâlâ nerede kullanılır?

Stable Diffusion — latent uzayda diffusion yapar; alt katmanda VAE encoder/decoder

VAE: Variational Autoencoder, Olasılıksal Üretici Modelin Temeli

Autoencoder — sıkıştırma fikri

Klasik autoencoder: bir resmi al, sıkıştır, sonra yeniden inşa et.

x \xrightarrow{\text{encoder}} z \xrightarrow{\text{decoder}} \hat{x}

$z$ "latent" (gizli) temsil. Encoder $x$ 'i $z$ 'ye sıkıştırır, decoder $z$ 'den $x$ 'i yaklaşık geri alır. Eğitim hedefi: $|x - \hat{x}|^2$ küçük olsun.

Bu gözetimsiz: etiket gerek değil. Veri zaten kendisinin hem girdi hem hedef.

Autoencoder bilgilendirici ama bir sorunu var: latent uzayında üretim yapılamaz. Rastgele bir $z$ üret, decoder'a ver — anlamsız çıktı.

VAE — olasılık ekle

2013 Aralık. Diederik Kingma (Amsterdam Üniversitesi PhD öğrencisi) Auto-Encoding Variational Bayes makalesini yayımladı. Aynı zamanlarda Rezende ve Mohamed bağımsız benzer çalışma yaptı.

Fikir: latent temsil bir dağılım, deterministik nokta değil. Encoder $z$ 'nin dağılım parametrelerini üretir:

\text{encoder}: x \to (\mu, \sigma)

Latent örnek: $z \sim \mathcal{N}(\mu, \sigma^2)$ . Sonra decoder $z$ 'den $x$ 'i üretir.

Reparameterization trick

Bir sorun: $z$ 'nin örneklemesi stokastik. Gradient akamaz. Geri yayılım kırılır.

Kingma'nın püf noktası: örneklemeyi yeniden parametreleştir:

z = \mu + \sigma \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, 1)

Şimdi stokastiklik $\epsilon$ 'a kaydı, ağırlıkların gradient'i $\mu$ ve $\sigma$ 'a temiz akıyor. Bu trick, VAE'yi mümkün kılan matematiksel kilit.

Kayıp — ELBO

VAE kayıp fonksiyonu Evidence Lower BOund (ELBO):

L = \mathbb{E}_q[\log p(x|z)] - \text{KL}(q(z|x) \| p(z))

İki terim:

Reconstruction: Decoder $x$ 'i ne kadar iyi geri üretiyor. Klasik MSE benzeri.
KL divergence: $q(z|x)$ (encoder dağılımı) ile $p(z)$ (önsel — genelde standart normal) ne kadar uyumlu.

İkinci terim regularizer. Latent uzayın düzenli olmasını sağlar — rastgele $z$ örneklemesi anlamlı çıktı verir.

Üretim

Eğitildikten sonra üretim:

$p(z) = \mathcal{N}(0, I)$ 'den rastgele $z$ örnekle.
Decoder ile $\hat{x}$ üret.
Yeni bir veri örneği elde et!

İlk üretken modellerden biri. GAN'lardan önce.

Sınırlar

VAE'lerin meşhur sorunları:

Bulanık çıktı: Reconstruction kayıp Gaussian varsayar; ortalama çıktı sonucu bulanık resimler.
Posterior collapse: Bazı durumlarda encoder $z$ 'yi göz ardı eder.
Latent uzay ile gerçeklik arasında uyumsuzluk.

Bu sorunlar VAE'yi GAN'larla karşı karşı yarışta zayıflattı. 2015-2020 GAN'lar üretim AI'nın hâkim modeli oldu.

VAE'nin günümüze etkisi

VAE doğrudan ürün olmasa da matematiksel etkisi büyük:

Diffusion modelleri: VAE'nin "olasılıksal latent" fikrinin uzantısı.
Stable Diffusion: Latent uzayda diffusion yapar — VAE encoder/decoder kullanır!
VQ-VAE: Diskret VAE; DALL-E ve müzik modellerinde.
β-VAE: Disentanglement araştırması.

Yani Stable Diffusion altta hâlâ VAE kullanır. Modern AI'da görülmez ama bel kemiği.

Variational inference — geniş çerçeve

VAE, variational inference'in (Michael Jordan'ın 1990'larda kurduğu çerçeve) sinir ağı uyarlaması. Olasılıksal modellerde kesin posterior'u hesaplamak imkansızken, yaklaşık dağılım öğrenmek.

VAE bu yöntemi modern derin öğrenmeyle birleştirdi. Üretken AI'nın olasılıksal temellerini kurdu.

Kingma'nın sonraki çalışmaları

Kingma bu çığır açan makalenin ardından Adam optimizer (2014) makalesini de yazdı! Ba ile birlikte. Modern derin öğrenmenin standardı.

Sonra OpenAI'a katıldı (2015), Google Brain'e geçti (2018). Hâlâ Google'da. Normalizing flows ve diffusion çalışmaları.

İki büyük makale (VAE + Adam) doktora sırasında. Akademik üretkenliğin ender örneklerinden.

Sade ders

VAE hikâyesinden iki şey:

Olasılık fikrini ekleme dönüştürür. Klasik autoencoder bir sıkıştırma aracıydı. VAE = autoencoder + olasılık. Olasılık üretim, regularizasyon, çeşitlilik getirir.
Görünmez modeller bel kemiği olabilir. VAE doğrudan ürün değil ama Stable Diffusion ve flow matching'in altında çalışır. Akademik fikirlerin ekonomik etkisi yıllar sonra anlaşılır.

Bağlam

Diffusion modelleri için: [[diffusion-modelleri-gurultu-ile-resim-yapmanin-sasirtici-yolu]]. Flow matching için: [[flow-matching-diffusion-un-daha-temiz-kardesi]]. GAN için: [[gan-iki-aginin-savasi-uretici-modellerin-altin-cagi]]. Variational inference için: [[michael-i-jordan-makine-ogrenmesinin-istatistikci-baba-figuru]]. AdamW için: [[adamw-modern-llm-egitimlerinin-tek-optimizatoru]] (Kingma'nın Adam makalesi).