Tüm yazılar
Matematik13 Mayıs 2025

Vision Transformer (ViT): Resmi Token Olarak Okumak

2020'de Google'dan çıkan radikal teklif: CNN olmadan, transformer ile bilgisayar görüşü. Şüpheciler yanıldı.

Matematik Karavanı 6 dk okuma 5 soru
Geometrik desen — ViT'in resmi patch'lere bölme metaforu

CNN'ler bilgisayar görüşünün hâkimiydi

2012-2020 arası bilgisayar görüşünün cevabı tek bir şeydi: convolutional neural network. ResNet, EfficientNet, DenseNet — hepsi CNN. Konvolüsyon işlemi resimler için "doğal"dı.

NLP'de transformer 2017'de patladı. Ama CV'ye uygulamak akademik bir şaka gibiydi. "Transformer ile resim mi? CNN olmadan?"

Ekim 2020. Google'dan Alexey Dosovitskiy ve ark. "An Image is Worth 16x16 Words" makalesini yayımladı. Adı bile alaycıydı.

Sonuç: ViT (Vision Transformer) ResNet'i geçti. CV'nin standart mimarisi değişti.

Fikir — resmi parçala

Tek bir gözleme dayanır:

"Transformer'a token dizisi ver, o ilgili bağlamı bulup işler. Resmi de token dizisi olarak ver."

ViT akışı:

  1. Resim al (örn. 224×224).
  2. 16×16 patch'lere böl. 14×14 = 196 patch.
  3. Her patch'i bir vektöre lineer çevir (16×16×3 = 768 boyut).
  4. Bunları "kelime tokenları" gibi düşün.
  5. Pozisyon embedding ekle (kelime sırası gibi patch sırası).
  6. Transformer encoder ile işle.
  7. Çıkıştan sınıflandırma yap.

Bu kadar. Konvolüsyon yok. Pooling yok.

Niye işe yarar

Eski varsayım: konvolüsyonun yerel filtreleri bilgisayar görüşü için "doğru" indüktif bias'tır. Yakındaki pikseller ilgili, uzaktakiler değil.

ViT bunu reddeder: yeterince veri ve hesapla, model bu bias'ı kendiliğinden öğrenir. Belki daha iyisini.

ImageNet-21K (14M görüntü) ve JFT-300M (300M Google iç veri seti) ile eğitildi. Hesap TPU yıllarında ölçülür.

Performans

Original ViT (2020) sonuçları:

  • ImageNet-1K: %88.55 (ResNet en iyi %88).
  • CIFAR-100: %94.55.
  • ImageNet-Real: %90.72.

Bunlar modern CNN'leri eşitler veya geçer. Üstüne:

  • 4x daha az hesap.
  • Daha kolay paralelleştirilebilir.
  • NLP ile aynı framework (kütüphane, optimizasyon).

"Daha çok veri" kuralı

ViT'in göze batan zayıflığı: küçük veri setlerinde CNN'lerden daha kötü. ImageNet-1K (sadece 1.2M görüntü) ile eğitildiğinde ViT yetmez. Konvolüsyonun yerel bias'ı az veride avantajdır.

Çözüm: önce devasa veri (JFT-300M) ile pre-train, sonra ImageNet için fine-tune. Modern foundation model paradigması.

Etki — alanı değiştirdi

ViT'den sonra:

  • DeiT (Facebook, 2021): Daha az veriyle eğitilebilir ViT.
  • Swin Transformer (Microsoft, 2021): Hiyerarşik pencere attention — ViT + CNN melezi.
  • DINO (Facebook, 2021): Self-supervised ViT.
  • MAE (He Kaiming, 2021): BERT-benzeri masked image modeling.
  • CLIP (OpenAI, 2021): Resim-metin kontrastif eğitimi; ViT görüntü encoder'ı.

2022 sonrası bilgisayar görüş literatürü ViT türevleri ile doldu. CNN'ler hâlâ kullanılır ama akademik ilgi azaldı.

Multimodal ile birleşme

ViT'in en önemli rolü: multimodal modellere köprü kurdu. Resmi ve metni aynı transformer'a vermek mümkün oldu:

  • Flamingo (DeepMind): Görüntü + dil.
  • GPT-4V (OpenAI): Resim anlayan GPT-4.
  • Claude 3 (Anthropic): Görüntü + metin.
  • Gemini (Google): Multimodal temel.

Bu modeller ViT (ya da türevi) görsel encoder kullanır. Modern AI'da resim ile metin aynı dil. ViT bu birleşmeyi mümkün kıldı.

ConvNeXt — CNN savaşıyor

2022'de Facebook ConvNeXt yayımladı: CNN ama transformer'dan ilham alan modern tasarım kararları. Bazı görevlerde ViT ile rekabet etti.

Bu "CNN ölmedi" argümanı. ViT bir mimarinin sonu değil, iki paradigma arasında diyalog.

Modern eğilim: hibrit (Swin gibi) ya da farklı görevlerde farklı seçim. Genel sınıflandırma → ViT. Yoğun tahmin (segmentasyon) → ConvNeXt hâlâ rekabetçi.

Sade ders

ViT hikâyesinden iki şey:

  1. Doğru indüktif bias yoktur. "Konvolüsyon görüntüler için doğru" 30 yıllık akademik kanaattir. Yeterince veri olduğunda yanlış olabilir. Modeller insan tasarımlı bias'ları aşar.
  2. Birleşik mimari kazanır. Resim, metin, ses — hepsi aynı transformer ile işlenmek modern AI'nın yönü. Uzmanlık değil, birleşim.

Bağlam

Transformer için: [[transformer-attention-is-all-you-need]]. ResNet için: [[resnet-derin-aglari-egitebilen-residual-fikri]]. He Kaiming MAE için: [[he-kaiming-resnet-in-mucidi-ve-modern-cv-nin-mimari]]. CLIP ve multimodal için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]]. ImageNet için: [[imagenet-modern-bilgisayar-gorusunu-baslatan-veri-seti]].

Etiketler

ViTVision TransformerCNNderin öğrenmegörüntü

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. ViT'in temel fikri nedir?

2. ViT'in en büyük zayıflığı nedir?

3. ViT'in multimodal AI için önemi nedir?

4. ConvNeXt nedir?

5. ViT'in ana yazarı kim?