Tüm yazılar
Matematik4 Kasım 2024

Diffusion Transformer (DiT): Modern Üretken Modellerin Yeni Mimarisi

Stable Diffusion 3, Sora, FLUX — hepsinin arkasında DiT var. U-Net'i bırakıp Transformer'a geçen yeni nesil diffusion modelleri.

Matematik Karavanı 5 dk okuma 5 soru
Soyut çizgiler — DiT mimari metaforu

"U-Net bitmiş mi?"

2022'ye kadar diffusion models = U-Net:

  • ResNet bloklar.
  • Skip connections.
  • Düşük çözünürlük × yüksek çözünürlük döngüsü.

Stable Diffusion 1-2, DALL-E 2, Imagen — hepsi U-Net.

Bill Peebles ve Saining Xie (2022) — "Scalable Diffusion Models with Transformers":

U-Net yerine pure Transformer kullan. Sonuç: daha iyi.

DiT mimari

Klasik U-Net yerine:

  • Görüntüyü patch'lere böl.
  • Her patch bir token.
  • Transformer blokları (self-attention).
  • Diffusion zamanı (timestep) ek embedding.

ViT (Vision Transformer) + diffusion = DiT.

Avantajlar

Ölçeklenir

Transformer'lar büyüdükçe iyileşir (scaling laws):

  • 33M → 675M → 7B → 70B+.

U-Net ölçekleme zayıf.

Bağlam yakalama

Attention ile uzun mesafe ilişkiler.

Mimari standartlaşma

Tek mimari tüm görevler:

  • Görüntü.
  • Video.
  • Ses.
  • 3D.

Eğitim verimliliği

  • Pre-training transfer.
  • LLM benzeri optimizer (AdamW).

Modern uygulamalar

Stable Diffusion 3 (2024)

  • DiT tabanlı.
  • MM-DiT (Multimodal).
  • Yüksek metin doğruluğu.

Sora (OpenAI, 2024)

  • Video DiT.
  • Spacetime patches.
  • 60 saniye sinematik.

FLUX (Black Forest Labs, 2024)

  • Stability AI'dan ayrılanlar.
  • En iyi metin-görüntü modeli.
  • Açık kaynak.

Hunyuan Video (Tencent, 2024)

  • DiT video.

CogVideoX (Tsinghua)

  • Açık video DiT.

Karşılaştırma U-Net vs DiT

U-NetDiT
MimariKonvolüsyon + skipTransformer
ÖlçeklenmeSınırlıMükemmel
BağlamYerelGlobal
HızHızlıOrta
EsneklikCNN boundModaliteler arası

DiT modern standart.

Sora'nın özelleri

OpenAI Sora DiT temelli, ek olarak:

  • Spacetime patches: video parçaları.
  • Variable resolution: değişken boyut.
  • VAE compression: latent uzayda.

Latent diffusion + DiT

Modern modellerde:

  1. VAE: görüntüyü düşük boyutlu latent'e indir.
  2. DiT: latent uzayda denoise.
  3. VAE decoder: latent → görüntü.

Bu latent diffusion + DiT modern standartı.

Conditioning

DiT'de koşulu nasıl veriyoruz?

  • Text → embedding: CLIP, T5.
  • Cross-attention: her DiT bloğunda.
  • AdaLN-Zero: normalization parametreleri text'ten.

Modern AI eğitim altyapısı

DiT eğitim:

  • 1000+ GPU.
  • 1-3 ay.
  • 10-100 milyon dolar.

Tek başına Sora training: tahmini 100+ milyon dolar.

Türkiye için

  • Türkçe text-to-image: DiT tabanlı modellerin Türkçe fine-tune'ü.
  • TÜBİTAK BİLGEM: üretken AI altyapı.
  • Sabancı Üniversitesi: video AI araştırma.

Sınırlamalar

Hesap

DiT çok pahalı eğitim.

Bellek

Transformer attention O(N2)O(N^2) bellek.

Çözünürlük

Yüksek çözünürlüklerde patch sayısı patlar.

Modern çözümler

Sparse attention

Sliding window.

Multimodal DiT

MM-DiT (Stable Diffusion 3): farklı modalite branches.

Linear attention

O(N)O(N) attention varyantları.

Mamba + DiT

SSM + DiT hibridler.

Açık kaynak

  • FLUX: Black Forest Labs.
  • Hunyuan Video: Tencent.
  • CogVideo: Tsinghua.
  • DiT (PyTorch): orijinal Peebles repo.

Trend

2025-2026:

  • Tüm üretken modeller DiT tabanlı olacak.
  • U-Net legacy.
  • Multi-modal DiT standart.

Felsefe

DiT temel mesajı: "Transformer tek mimari yeter".

LLM, vision, ses, 3D — hepsi aynı temel blok. Mimari konsolidasyon.

Genç ML mühendisi için ders

  • DiT mimarisini öğren.
  • Açık kaynak modelleri inceleten.
  • Latent diffusion pipeline anla.

Kapanış

DiT, modern üretken AI'in birleşik mimarisi. Sora'dan FLUX'a tüm en güçlü modellerin temeli.

Bir AI mühendisinin olgunluk işareti: DiT'in nasıl ve neden U-Net'i geçtiğini bilmek.

Transformer her şeyi domine ediyor — diffusion dahil.

Etiketler

DiTDiffusion TransformerSoraStable Diffusion 3FLUX

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. DiT ne demek?

2. DiT'in U-Net'e üstünlüğü?

3. Sora hangi mimariyi kullanır?

4. FLUX kim çıkardı?

5. Latent diffusion + DiT?