Score function nedir?

Olasılığın logaritmik gradient'i: $\nabla_x \log p(x)$

Yang Song'un 2019 katkısı nedir?

NCSN — derin ağ + çoklu gürültü seviyesi ile pratik score-based üretim

Score-based ve DDPM ilişkisi nedir?

Matematiksel olarak özdeş — Yang Song 2020 SDE çerçevesinde birleştirdi

SDE çerçevesi ne yapar?

Diffusion modellerini stokastik diferansiyel denklemler ile birleşik teoride ifade eder

Score-based modeller modern AI'da nerede?

Sora, Stable Diffusion, AlphaFold 3 — modern üretim ve bilim AI'ında her yerde

Score-Based Modeller: Diffusion'un Başka Bir Dili

"Veriden gradient öğrenmek"

Klasik üretici modeller olasılık dağılımı $p(x)$ 'yi öğrenir. Score-based modeller başka bir şey öğrenir: olasılığın gradient'i (logaritmik):

s(x) = \nabla_x \log p(x)

Buna score function denir. Bir nokta $x$ 'te "yüksek olasılığa giden yön"u verir.

Bu, üretici modeli uzayda yön gösteren bir vektör alanı olarak modellemek demektir.

Niye gradient?

İki sebep:

Normalizasyon kaybolur. $\nabla \log p(x)$ , $p(x)$ 'in normalizasyon sabitine bağlı değil. Olasılığı kesin hesaplamak gerek değil.
Üretim yapmak için yeter. Bir nokta $x$ 'ten "yüksek olasılığa" doğru gradient adımları at, eninde sonunda gerçek bir örneğe ulaşırsın.

Bu Langevin dinamiği fikri.

Score matching (Hyvärinen, 2005)

Score function'u öğrenmek için score matching kayıp fonksiyonu:

L = \mathbb{E}_x \left[ \| s_\theta(x) - \nabla_x \log p(x) \|^2 \right]

Sorun: gerçek $\log p(x)$ 'i bilmiyoruz. Hyvärinen 2005'te integral by parts ile kayıp fonksiyonunu gradient tahmini olmadan yazılabilir hale getirdi.

Akademik kavram, pratik kullanım zayıf — derin ağlarda hesap pahalıydı.

Yang Song (2019) — Diriliş

Stanford doktora öğrencisi Yang Song (Stefano Ermon'un öğrencisi) score matching'i derin öğrenmeye uyguladı:

Noise Conditional Score Networks (NCSN), 2019:

Veriye birden çok seviyede gürültü ekle: $\sigma_1 < \sigma_2 < \ldots < \sigma_L$ . Her seviye için ayrı score öğret. Sonra düşük gürültüden yüksek gürültüye doğru üretim yap (annealed Langevin).

NCSN ilk score-based üretici model. CIFAR-10'da rekor performans.

DDPM ile birleşme

Aynı yıllarda DDPM (Denoising Diffusion Probabilistic Models, Ho 2020) geldi. Farklı bir hikâye gibi görünüyordu:

DDPM: "gürültü ekleme + denoising"
Score-based: "gradient öğrenme"

Yang Song 2020'de "Score-Based Generative Modeling through Stochastic Differential Equations" makalesinde ikisinin matematiksel olarak özdeş olduğunu gösterdi.

Bu birleşme modern üretici AI'ın teorik temelini sağlamlaştırdı.

SDE çerçevesi

Tam çerçeve stochastic differential equation (SDE):

İleri süreç (gürültü ekleme):

dx = f(x, t) dt + g(t) dw

Ters süreç (gürültüden veri):

dx = [f(x, t) - g(t)^2 \nabla_x \log p_t(x)] dt + g(t) d\bar{w}

Bu denklem dolaylı yoldan diffusion modelini açıklıyor. Her diffusion adımı SDE simülasyonu.

DDPM ve NCSN bu SDE'nin farklı sayısal yaklaşımları. Aynı temel teori.

Etki — Stable Diffusion ve sonrası

Bu birleşme şu olayları mümkün kıldı:

Stable Diffusion (2022): SDE çerçevesi pratik üretim modeli olarak.
DALL-E 2 (2022): OpenAI'nin metin-resim modeli.
Sora (2024): Video için diffusion.
AlphaFold 3 (2024): Protein için diffusion.

Hepsi temelde score-based / diffusion. Yang Song'un teorik birleşmesi sayesinde mümkün.

Flow Matching ile karşılaştırma

2023'te flow matching (Lipman ve ark.) score-based modelle aynı problemi farklı bir matematiksel çerçevede çözdü:

Score-based: Stokastik SDE.
Flow matching: Deterministik ODE.

İkisi de aynı dağılımı öğrenir, ama yöntemler farklı. Flow matching pratik olarak daha hızlı; Stable Diffusion 3 ve Sora flow matching'e geçti.

Yine de score-based ana çerçevedir. Flow matching score function'in deterministik versiyonu olarak görülebilir.

Yang Song — sonraki çalışmalar

Yang Song 2022'de OpenAI'a katıldı. Sora'nın matematik temelinde rol oynadı. Sonradan Anthropic'e geçti (2024).

Sora'nın video üretimi, score-based / flow matching matematiğinin somut başarısı. Yang Song'un 5 yıl önce yazdığı tez gerçek dünya etkisi yarattı.

Sade ders

Score-based modeller hikâyesinden iki şey:

Aynı problem farklı dillerde konuşulabilir. DDPM ve score-based aynı şey. Farklı pencerelerden bakmak farklı sezgiler verir. Matematiksel birleşim akademik anlayışın anahtarıdır.
Akademik makale endüstri ürünüdür. Yang Song'un 2019-2020 makaleleri Sora'nın temelidir. 5 yıllık gecikme. AI'da akademiden ürüne çok hızlı yol.

Bağlam

Diffusion için: [[diffusion-modelleri-gurultu-ile-resim-yapmanin-sasirtici-yolu]]. Flow matching için: [[flow-matching-diffusion-un-daha-temiz-kardesi]]. Stable Diffusion için: [[u-net-tibbi-goruntulemenin-temel-mimari-stable-diffusion-da-anti]]. VAE için: [[vae-variational-autoencoder-olasiliksal-uretici-modelin-temeli]]. GAN için: [[gan-iki-aginin-savasi-uretici-modellerin-altin-cagi]].