ViT'in temel fikri nedir?

Resmi 16x16 patch'lere böl, her birini token olarak ver, transformer ile işle

ViT'in en büyük zayıflığı nedir?

Küçük veri setlerinde CNN'lerden kötü — konvolüsyonun yerel bias'ı eksik

ViT'in multimodal AI için önemi nedir?

Resim ve metin aynı transformer'a verilebilir — GPT-4V, Claude 3, Gemini'nin görsel encoder'ı

CNN ama transformer ilhamlı modern tasarım — "CNN ölmedi" argümanı

ViT'in ana yazarı kim?

Alexey Dosovitskiy ve ark. (Google, 2020) — "An Image is Worth 16x16 Words"

Vision Transformer (ViT): Resmi Token Olarak Okumak

CNN'ler bilgisayar görüşünün hâkimiydi

2012-2020 arası bilgisayar görüşünün cevabı tek bir şeydi: convolutional neural network. ResNet, EfficientNet, DenseNet — hepsi CNN. Konvolüsyon işlemi resimler için "doğal"dı.

NLP'de transformer 2017'de patladı. Ama CV'ye uygulamak akademik bir şaka gibiydi. "Transformer ile resim mi? CNN olmadan?"

Ekim 2020. Google'dan Alexey Dosovitskiy ve ark. "An Image is Worth 16x16 Words" makalesini yayımladı. Adı bile alaycıydı.

Sonuç: ViT (Vision Transformer) ResNet'i geçti. CV'nin standart mimarisi değişti.

Fikir — resmi parçala

Tek bir gözleme dayanır:

"Transformer'a token dizisi ver, o ilgili bağlamı bulup işler. Resmi de token dizisi olarak ver."

ViT akışı:

Resim al (örn. 224×224).
16×16 patch'lere böl. 14×14 = 196 patch.
Her patch'i bir vektöre lineer çevir (16×16×3 = 768 boyut).
Bunları "kelime tokenları" gibi düşün.
Pozisyon embedding ekle (kelime sırası gibi patch sırası).
Transformer encoder ile işle.
Çıkıştan sınıflandırma yap.

Bu kadar. Konvolüsyon yok. Pooling yok.

Niye işe yarar

Eski varsayım: konvolüsyonun yerel filtreleri bilgisayar görüşü için "doğru" indüktif bias'tır. Yakındaki pikseller ilgili, uzaktakiler değil.

ViT bunu reddeder: yeterince veri ve hesapla, model bu bias'ı kendiliğinden öğrenir. Belki daha iyisini.

ImageNet-21K (14M görüntü) ve JFT-300M (300M Google iç veri seti) ile eğitildi. Hesap TPU yıllarında ölçülür.

Performans

Original ViT (2020) sonuçları:

ImageNet-1K: %88.55 (ResNet en iyi %88).
CIFAR-100: %94.55.
ImageNet-Real: %90.72.

Bunlar modern CNN'leri eşitler veya geçer. Üstüne:

4x daha az hesap.
Daha kolay paralelleştirilebilir.
NLP ile aynı framework (kütüphane, optimizasyon).

"Daha çok veri" kuralı

ViT'in göze batan zayıflığı: küçük veri setlerinde CNN'lerden daha kötü. ImageNet-1K (sadece 1.2M görüntü) ile eğitildiğinde ViT yetmez. Konvolüsyonun yerel bias'ı az veride avantajdır.

Çözüm: önce devasa veri (JFT-300M) ile pre-train, sonra ImageNet için fine-tune. Modern foundation model paradigması.

Etki — alanı değiştirdi

ViT'den sonra:

DeiT (Facebook, 2021): Daha az veriyle eğitilebilir ViT.
Swin Transformer (Microsoft, 2021): Hiyerarşik pencere attention — ViT + CNN melezi.
DINO (Facebook, 2021): Self-supervised ViT.
MAE (He Kaiming, 2021): BERT-benzeri masked image modeling.
CLIP (OpenAI, 2021): Resim-metin kontrastif eğitimi; ViT görüntü encoder'ı.

2022 sonrası bilgisayar görüş literatürü ViT türevleri ile doldu. CNN'ler hâlâ kullanılır ama akademik ilgi azaldı.

Multimodal ile birleşme

ViT'in en önemli rolü: multimodal modellere köprü kurdu. Resmi ve metni aynı transformer'a vermek mümkün oldu:

Flamingo (DeepMind): Görüntü + dil.
GPT-4V (OpenAI): Resim anlayan GPT-4.
Claude 3 (Anthropic): Görüntü + metin.
Gemini (Google): Multimodal temel.

Bu modeller ViT (ya da türevi) görsel encoder kullanır. Modern AI'da resim ile metin aynı dil. ViT bu birleşmeyi mümkün kıldı.

ConvNeXt — CNN savaşıyor

2022'de Facebook ConvNeXt yayımladı: CNN ama transformer'dan ilham alan modern tasarım kararları. Bazı görevlerde ViT ile rekabet etti.

Bu "CNN ölmedi" argümanı. ViT bir mimarinin sonu değil, iki paradigma arasında diyalog.

Modern eğilim: hibrit (Swin gibi) ya da farklı görevlerde farklı seçim. Genel sınıflandırma → ViT. Yoğun tahmin (segmentasyon) → ConvNeXt hâlâ rekabetçi.

Sade ders

ViT hikâyesinden iki şey:

Doğru indüktif bias yoktur. "Konvolüsyon görüntüler için doğru" 30 yıllık akademik kanaattir. Yeterince veri olduğunda yanlış olabilir. Modeller insan tasarımlı bias'ları aşar.
Birleşik mimari kazanır. Resim, metin, ses — hepsi aynı transformer ile işlenmek modern AI'nın yönü. Uzmanlık değil, birleşim.

Bağlam

Transformer için: [[transformer-attention-is-all-you-need]]. ResNet için: [[resnet-derin-aglari-egitebilen-residual-fikri]]. He Kaiming MAE için: [[he-kaiming-resnet-in-mucidi-ve-modern-cv-nin-mimari]]. CLIP ve multimodal için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]]. ImageNet için: [[imagenet-modern-bilgisayar-gorusunu-baslatan-veri-seti]].

Vision Transformer (ViT): Resmi Token Olarak Okumak

CNN'ler bilgisayar görüşünün hâkimiydi

Fikir — resmi parçala

Niye işe yarar

Performans

"Daha çok veri" kuralı

Etki — alanı değiştirdi

Multimodal ile birleşme

ConvNeXt — CNN savaşıyor

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü