Bir nöronun girdi üzerinde etki edebileceği bölge

Effective vs theoretical RF?

Effective genelde theoretical'in %50-60'ı — merkez daha etkili

Dilated convolution avantajı?

Aynı kernel boyutuyla daha büyük RF — az parametre

ViT'in CNN'den farkı?

ViT ilk katmandan tüm imaja bakar (attention), CNN katman katman genişler

Mimari RF görevin gerektirdiği bağlamla uyumlu olmalı

Receptive Field: Bir Nöronun "Gördüğü" Alan

"Bir nöron neyi görür?"

Bir CNN düşünün:

Katman 1: 3x3 conv → her nöron 3x3 piksel alanı.
Katman 2: 3x3 conv → her nöron 5x5 piksel alanı (genişledi).
Katman 10: çok daha geniş.

Receptive field: bir nöronun girdi (resim) üzerinde etki edebileceği bölge.

Biyoloji benzetmesi: gözün retinal hücresinin ışığa duyarlı olduğu alan.

Matematik

Receptive field her katmanda büyür:
$RF_l = RF_{l-1} + (K_l - 1) \cdot \prod_{i=1}^{l-1} S_i$

$K_l$ : kernel boyutu.
$S_i$ : stride.

Üst üste 3x3 conv'lar:

1 katman: 3x3.
2 katman: 5x5.
3 katman: 7x7.
10 katman: 21x21.

Theoretical vs Effective

Teorik RF: matematik olarak hesaplanan.

Effective RF (Luo et al. 2016): pratikte etkili olan alan.

Merkezi pikseller çok etkili.
Kenar pikseller az etkili.
Gaussian dağılım.

Sonuç: Effective RF, teorik RF'in çok azı (tipik olarak %50-60).

Genişletme yolları

Stride

Conv'da stride > 1 → RF büyür.

Pooling

Max/Avg pooling → RF büyür.

Dilated convolution

3x3 kernel'ı aralıklı uygula:

Dilation=2: 5x5 alan, sadece 9 ağırlık.

WaveNet (ses), DeepLab (segmentasyon) bunu kullandı.

Daha derin ağ

Çok katman → çok geniş RF.

Self-attention

Transformer'da her token tüm token'leri görür → RF tüm girdi.

Vision Transformer (ViT) ile fark

CNN: yerel başlar, derin katmanlarda geniş.

ViT: ilk katmandan tüm imaja bakar (attention).

Bu temel fark modern mimarilerin neden farklı şeyleri iyi yaptığını açıklar.

Modern mimariler

Swin Transformer

Yerel pencerelerle başlar, kademeli birleştirir → CNN benzeri.

ConvNeXt

CNN'i transformer fikirleriyle modernize eder.

Mamba (SSM)

Doğrusal zamanda tüm dizi görür.

Pratik etki

Eğer modeliniz küçük detaya odaklanmalı (yüz tanıma):

Sığ ağ + büyük kernel.

Büyük bağlam gerekirse (sahne anlama):

Derin ağ + pooling + dilated conv.
Veya transformer.

Türk araştırması

Tıbbi görüntü: tümör tespiti için RF tasarımı.
Türkçe OCR: karakter boyutu vs RF.
Sahne anlama: trafik analizi.

Felsefe

Receptive field temel mesajı: "Mimari, modelin neyi öğrenebileceğini belirler".

CNN'in mimari kararları (kernel, stride, dilation) modelin gerçek yetisini sınırlar.

Kapanış

Receptive field, görsel derin öğrenmenin temel mimari kavramı. ViT çağında bile anlam sürüyor: ne kadar bağlamı bir nöron işleyebilir?

Modern AI tasarımının olgunluk işareti: receptive field'ı gerçek görev ile uyumlu yapmak.