Receptive Field: Bir Nöronun "Gördüğü" Alan
CNN'in derinindeki bir nöron tüm görüntüyü mü görüyor, sadece küçük bir köşesini mi? Receptive field bunu ölçer.

"Bir nöron neyi görür?"
Bir CNN düşünün:
- Katman 1: 3x3 conv → her nöron 3x3 piksel alanı.
- Katman 2: 3x3 conv → her nöron 5x5 piksel alanı (genişledi).
- Katman 10: çok daha geniş.
Receptive field: bir nöronun girdi (resim) üzerinde etki edebileceği bölge.
Biyoloji benzetmesi: gözün retinal hücresinin ışığa duyarlı olduğu alan.
Matematik
Receptive field her katmanda büyür:
- : kernel boyutu.
- : stride.
Üst üste 3x3 conv'lar:
- 1 katman: 3x3.
- 2 katman: 5x5.
- 3 katman: 7x7.
- 10 katman: 21x21.
Theoretical vs Effective
Teorik RF: matematik olarak hesaplanan.
Effective RF (Luo et al. 2016): pratikte etkili olan alan.
- Merkezi pikseller çok etkili.
- Kenar pikseller az etkili.
- Gaussian dağılım.
Sonuç: Effective RF, teorik RF'in çok azı (tipik olarak %50-60).
Genişletme yolları
Stride
Conv'da stride > 1 → RF büyür.
Pooling
Max/Avg pooling → RF büyür.
Dilated convolution
3x3 kernel'ı aralıklı uygula:
- Dilation=2: 5x5 alan, sadece 9 ağırlık.
WaveNet (ses), DeepLab (segmentasyon) bunu kullandı.
Daha derin ağ
Çok katman → çok geniş RF.
Self-attention
Transformer'da her token tüm token'leri görür → RF tüm girdi.
Vision Transformer (ViT) ile fark
CNN: yerel başlar, derin katmanlarda geniş.
ViT: ilk katmandan tüm imaja bakar (attention).
Bu temel fark modern mimarilerin neden farklı şeyleri iyi yaptığını açıklar.
Modern mimariler
Swin Transformer
Yerel pencerelerle başlar, kademeli birleştirir → CNN benzeri.
ConvNeXt
CNN'i transformer fikirleriyle modernize eder.
Mamba (SSM)
Doğrusal zamanda tüm dizi görür.
Pratik etki
Eğer modeliniz küçük detaya odaklanmalı (yüz tanıma):
- Sığ ağ + büyük kernel.
Büyük bağlam gerekirse (sahne anlama):
- Derin ağ + pooling + dilated conv.
- Veya transformer.
Türk araştırması
- Tıbbi görüntü: tümör tespiti için RF tasarımı.
- Türkçe OCR: karakter boyutu vs RF.
- Sahne anlama: trafik analizi.
Felsefe
Receptive field temel mesajı: "Mimari, modelin neyi öğrenebileceğini belirler".
CNN'in mimari kararları (kernel, stride, dilation) modelin gerçek yetisini sınırlar.
Kapanış
Receptive field, görsel derin öğrenmenin temel mimari kavramı. ViT çağında bile anlam sürüyor: ne kadar bağlamı bir nöron işleyebilir?
Modern AI tasarımının olgunluk işareti: receptive field'ı gerçek görev ile uyumlu yapmak.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Receptive field?
2. Effective vs theoretical RF?
3. Dilated convolution avantajı?
4. ViT'in CNN'den farkı?
5. Tasarım dersi?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?