Diffusion modellerin temel fikri nedir?

İleri: görüntüye gürültü ekle; Geri: AI gürültüyü çıkarsın → yeni görüntü

Modern diffusion modellerini kim ne zaman geliştirdi?

Sohl-Dickstein (2015 orijinal), Ho et al. (2020 DDPM), Rombach et al. (2022 latent)

Latent diffusion ne sağlar?

Pikseli yerine küçük gizli uzayda difüzyon — Stable Diffusion'ı tek GPU'da çalıştırma

Diffusion modellerin GAN'a göre avantajı nedir?

Daha kararlı eğitim (mode collapse yok), daha iyi kalite, daha kontrol edilebilir

Modern diffusion uygulamalarından örnekler nelerdir?

Stable Diffusion, DALL-E, Midjourney, Sora, AlphaFold 3, ilaç keşfi

Diffusion Modelleri: Gürültü ile Resim Yapmanın Şaşırtıcı Yolu

"Gürültüden resim yapmak"

Bir görüntü düşünün. Yavaş yavaş Gauss gürültüsü ekleyin. 1000 adım sonra: tamamen rastgele piksel.

Bu ileri süreç trivial.

Şimdi tersi: rastgele gürültüden başlayıp kademeli olarak gürültüyü çıkarın. Eğer bunu doğru yaparsanız — yeni bir görüntü ortaya çıkar.

Bu, diffusion modelleridir. Modern üretken AI'nın matematik temeli.

İki süreç

İleri (forward) süreç

$x_0 \to x_1 \to x_2 \to \ldots \to x_T$

Her adımda Gauss gürültü ekle:

$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon$

$T = 1000$ adımdan sonra $x_T \sim \mathcal{N}(0, I)$ — saf gürültü.

Geri (reverse) süreç

$x_T \to x_{T-1} \to \ldots \to x_0$

Sinir ağı $\epsilon_\theta(x_t, t)$ gürültüyü tahmin eder. Sonra:

$x_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}} \epsilon_\theta\right) + \sigma_t z$

Eğitim

Eğitim çok zarif:

Bir görüntü $x_0$ ve rastgele $t$ seç.
$\epsilon$ örnekle.
$x_t$ hesapla.
Sinir ağı $\epsilon_\theta(x_t, t)$ tahmin etsin.
Loss = $\|\epsilon - \epsilon_\theta\|^2$ .

Çok sade!

Niçin işe yarıyor?

Diffusion modelleri olasılık dağılımını kademeli dönüştürür:

Veri dağılımı (karmaşık) → Gauss dağılımı (basit).
Geri yön: Gauss'tan veri dağılımına.

Stokastik diferansiyel denklem (SDE) perspektifinden: ters difüzyon süreci.

Tarihsel köken

Sohl-Dickstein, Weiss, Maheswaranathan, Ganguli (2015): orijinal kavram.
Ho, Jain, Abbeel (2020): DDPM (Denoising Diffusion Probabilistic Models) — modern formülasyon.
Dhariwal, Nichol (2021): diffusion modellerini GAN'lardan daha iyi gösterdi.
Latent diffusion (Rombach et al. 2022): Stable Diffusion.

Modern uygulamalar

Görüntü üretimi

DALL-E 2/3 (OpenAI).
Stable Diffusion (StabilityAI).
Midjourney.
Imagen (Google).

Video

Sora (OpenAI 2024).
Veo (Google).

3D

DreamFusion.
GS-Diffusion.

Ses

Stable Audio.

Bilimsel

AlphaFold 3 difüzyon kullanır.
Molecular generation.

Tıbbi görüntüleme

MRI/CT görüntü onarımı.

Latent diffusion

Klasik diffusion piksel uzayında yavaş. Latent diffusion önce VAE ile gizli uzaya dönüştürür, küçük uzayda difüzyon yapar.

Bu, Stable Diffusion'ı tek GPU'da çalışacak kadar hızlandırdı.

Yönlendirme (Conditioning)

Diffusion modellerin gücü: metin, görüntü, diğer girdilerle yönlendirme.

Classifier-free guidance: en yaygın yönteme göre, "bir kedi" prompt'una göre üretim.

Niçin GAN değil?

GAN (önceki nesil) bazı avantajlara sahip:

Daha hızlı.

Diffusion avantajları:

Daha kararlı eğitim (mode collapse yok).
Daha iyi kalite.
Daha kontrol edilebilir.

2022'den sonra diffusion baskın.

Hızlandırma

Diffusion yavaş: 1000 adım × büyük sinir ağı = yavaş.

Modern teknikler:

DDIM (Song et al. 2020): daha az adım.
Consistency models (Song et al. 2023): tek adımda üretim.
Distillation: büyük modeli küçük modele aktarma.
Flow matching: alternatif paradigma.

2024: gerçek zamanlı diffusion mümkün.

Sonuç

Diffusion modelleri:

"Gürültü ekleme + gürültü çıkarma" sade fikri.
Sohl-Dickstein (2015) orijinal, Ho et al. (2020) modern.
Stable Diffusion, DALL-E, Sora — modern üretken AI.
GAN'ın halefi olarak baskın.

Modern AI sanat çağının matematik temeli. Bir tek paradigma birleşik: tıbbi görüntüden video üretimine, ses üretiminden 3D modellemeye.

"Gürültüden düzen." Diffusion paradigması.