Diffusion Transformer — Peebles & Xie 2022

DiT'in U-Net'e üstünlüğü?

Daha iyi ölçeklenir, global bağlam, multimodal

Black Forest Labs (eski Stability AI ekibi)

Diffusion Transformer (DiT): Modern Üretken Modellerin Yeni Mimarisi

"U-Net bitmiş mi?"

2022'ye kadar diffusion models = U-Net:

ResNet bloklar.
Skip connections.
Düşük çözünürlük × yüksek çözünürlük döngüsü.

Stable Diffusion 1-2, DALL-E 2, Imagen — hepsi U-Net.

Bill Peebles ve Saining Xie (2022) — "Scalable Diffusion Models with Transformers":

U-Net yerine pure Transformer kullan. Sonuç: daha iyi.

DiT mimari

Klasik U-Net yerine:

Görüntüyü patch'lere böl.
Her patch bir token.
Transformer blokları (self-attention).
Diffusion zamanı (timestep) ek embedding.

ViT (Vision Transformer) + diffusion = DiT.

Avantajlar

Ölçeklenir

Transformer'lar büyüdükçe iyileşir (scaling laws):

33M → 675M → 7B → 70B+.

U-Net ölçekleme zayıf.

Bağlam yakalama

Attention ile uzun mesafe ilişkiler.

Mimari standartlaşma

Tek mimari tüm görevler:

Görüntü.
Video.
Ses.
3D.

Eğitim verimliliği

Pre-training transfer.
LLM benzeri optimizer (AdamW).

Modern uygulamalar

Stable Diffusion 3 (2024)

DiT tabanlı.
MM-DiT (Multimodal).
Yüksek metin doğruluğu.

Sora (OpenAI, 2024)

Video DiT.
Spacetime patches.
60 saniye sinematik.

FLUX (Black Forest Labs, 2024)

Stability AI'dan ayrılanlar.
En iyi metin-görüntü modeli.
Açık kaynak.

Hunyuan Video (Tencent, 2024)

DiT video.

CogVideoX (Tsinghua)

Açık video DiT.

Karşılaştırma U-Net vs DiT

	U-Net	DiT
Mimari	Konvolüsyon + skip	Transformer
Ölçeklenme	Sınırlı	Mükemmel
Bağlam	Yerel	Global
Hız	Hızlı	Orta
Esneklik	CNN bound	Modaliteler arası

DiT modern standart.

Sora'nın özelleri

OpenAI Sora DiT temelli, ek olarak:

Spacetime patches: video parçaları.
Variable resolution: değişken boyut.
VAE compression: latent uzayda.

Latent diffusion + DiT

Modern modellerde:

VAE: görüntüyü düşük boyutlu latent'e indir.
DiT: latent uzayda denoise.
VAE decoder: latent → görüntü.

Bu latent diffusion + DiT modern standartı.

Conditioning

DiT'de koşulu nasıl veriyoruz?

Text → embedding: CLIP, T5.
Cross-attention: her DiT bloğunda.
AdaLN-Zero: normalization parametreleri text'ten.

Modern AI eğitim altyapısı

DiT eğitim:

1000+ GPU.
1-3 ay.
10-100 milyon dolar.

Tek başına Sora training: tahmini 100+ milyon dolar.

Türkiye için

Türkçe text-to-image: DiT tabanlı modellerin Türkçe fine-tune'ü.
TÜBİTAK BİLGEM: üretken AI altyapı.
Sabancı Üniversitesi: video AI araştırma.

Sınırlamalar

Hesap

DiT çok pahalı eğitim.

Bellek

Transformer attention $O(N^2)$ bellek.

Çözünürlük

Yüksek çözünürlüklerde patch sayısı patlar.

Modern çözümler

Sparse attention

Sliding window.

Multimodal DiT

MM-DiT (Stable Diffusion 3): farklı modalite branches.

Linear attention

$O(N)$ attention varyantları.

Mamba + DiT

SSM + DiT hibridler.

Açık kaynak

FLUX: Black Forest Labs.
Hunyuan Video: Tencent.
CogVideo: Tsinghua.
DiT (PyTorch): orijinal Peebles repo.

Trend

2025-2026:

Tüm üretken modeller DiT tabanlı olacak.
U-Net legacy.
Multi-modal DiT standart.

Felsefe

DiT temel mesajı: "Transformer tek mimari yeter".

LLM, vision, ses, 3D — hepsi aynı temel blok. Mimari konsolidasyon.

Genç ML mühendisi için ders

DiT mimarisini öğren.
Açık kaynak modelleri inceleten.
Latent diffusion pipeline anla.

Kapanış

DiT, modern üretken AI'in birleşik mimarisi. Sora'dan FLUX'a tüm en güçlü modellerin temeli.

Bir AI mühendisinin olgunluk işareti: DiT'in nasıl ve neden U-Net'i geçtiğini bilmek.

Transformer her şeyi domine ediyor — diffusion dahil.