Diffusion Transformer (DiT): Modern Üretken Modellerin Yeni Mimarisi
Stable Diffusion 3, Sora, FLUX — hepsinin arkasında DiT var. U-Net'i bırakıp Transformer'a geçen yeni nesil diffusion modelleri.

"U-Net bitmiş mi?"
2022'ye kadar diffusion models = U-Net:
- ResNet bloklar.
- Skip connections.
- Düşük çözünürlük × yüksek çözünürlük döngüsü.
Stable Diffusion 1-2, DALL-E 2, Imagen — hepsi U-Net.
Bill Peebles ve Saining Xie (2022) — "Scalable Diffusion Models with Transformers":
U-Net yerine pure Transformer kullan. Sonuç: daha iyi.
DiT mimari
Klasik U-Net yerine:
- Görüntüyü patch'lere böl.
- Her patch bir token.
- Transformer blokları (self-attention).
- Diffusion zamanı (timestep) ek embedding.
ViT (Vision Transformer) + diffusion = DiT.
Avantajlar
Ölçeklenir
Transformer'lar büyüdükçe iyileşir (scaling laws):
- 33M → 675M → 7B → 70B+.
U-Net ölçekleme zayıf.
Bağlam yakalama
Attention ile uzun mesafe ilişkiler.
Mimari standartlaşma
Tek mimari tüm görevler:
- Görüntü.
- Video.
- Ses.
- 3D.
Eğitim verimliliği
- Pre-training transfer.
- LLM benzeri optimizer (AdamW).
Modern uygulamalar
Stable Diffusion 3 (2024)
- DiT tabanlı.
- MM-DiT (Multimodal).
- Yüksek metin doğruluğu.
Sora (OpenAI, 2024)
- Video DiT.
- Spacetime patches.
- 60 saniye sinematik.
FLUX (Black Forest Labs, 2024)
- Stability AI'dan ayrılanlar.
- En iyi metin-görüntü modeli.
- Açık kaynak.
Hunyuan Video (Tencent, 2024)
- DiT video.
CogVideoX (Tsinghua)
- Açık video DiT.
Karşılaştırma U-Net vs DiT
| U-Net | DiT | |
|---|---|---|
| Mimari | Konvolüsyon + skip | Transformer |
| Ölçeklenme | Sınırlı | Mükemmel |
| Bağlam | Yerel | Global |
| Hız | Hızlı | Orta |
| Esneklik | CNN bound | Modaliteler arası |
DiT modern standart.
Sora'nın özelleri
OpenAI Sora DiT temelli, ek olarak:
- Spacetime patches: video parçaları.
- Variable resolution: değişken boyut.
- VAE compression: latent uzayda.
Latent diffusion + DiT
Modern modellerde:
- VAE: görüntüyü düşük boyutlu latent'e indir.
- DiT: latent uzayda denoise.
- VAE decoder: latent → görüntü.
Bu latent diffusion + DiT modern standartı.
Conditioning
DiT'de koşulu nasıl veriyoruz?
- Text → embedding: CLIP, T5.
- Cross-attention: her DiT bloğunda.
- AdaLN-Zero: normalization parametreleri text'ten.
Modern AI eğitim altyapısı
DiT eğitim:
- 1000+ GPU.
- 1-3 ay.
- 10-100 milyon dolar.
Tek başına Sora training: tahmini 100+ milyon dolar.
Türkiye için
- Türkçe text-to-image: DiT tabanlı modellerin Türkçe fine-tune'ü.
- TÜBİTAK BİLGEM: üretken AI altyapı.
- Sabancı Üniversitesi: video AI araştırma.
Sınırlamalar
Hesap
DiT çok pahalı eğitim.
Bellek
Transformer attention bellek.
Çözünürlük
Yüksek çözünürlüklerde patch sayısı patlar.
Modern çözümler
Sparse attention
Sliding window.
Multimodal DiT
MM-DiT (Stable Diffusion 3): farklı modalite branches.
Linear attention
attention varyantları.
Mamba + DiT
SSM + DiT hibridler.
Açık kaynak
- FLUX: Black Forest Labs.
- Hunyuan Video: Tencent.
- CogVideo: Tsinghua.
- DiT (PyTorch): orijinal Peebles repo.
Trend
2025-2026:
- Tüm üretken modeller DiT tabanlı olacak.
- U-Net legacy.
- Multi-modal DiT standart.
Felsefe
DiT temel mesajı: "Transformer tek mimari yeter".
LLM, vision, ses, 3D — hepsi aynı temel blok. Mimari konsolidasyon.
Genç ML mühendisi için ders
- DiT mimarisini öğren.
- Açık kaynak modelleri inceleten.
- Latent diffusion pipeline anla.
Kapanış
DiT, modern üretken AI'in birleşik mimarisi. Sora'dan FLUX'a tüm en güçlü modellerin temeli.
Bir AI mühendisinin olgunluk işareti: DiT'in nasıl ve neden U-Net'i geçtiğini bilmek.
Transformer her şeyi domine ediyor — diffusion dahil.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. DiT ne demek?
2. DiT'in U-Net'e üstünlüğü?
3. Sora hangi mimariyi kullanır?
4. FLUX kim çıkardı?
5. Latent diffusion + DiT?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?