Tüm yazılar
Matematik2 Aralık 2024

Receptive Field: Bir Nöronun "Gördüğü" Alan

CNN'in derinindeki bir nöron tüm görüntüyü mü görüyor, sadece küçük bir köşesini mi? Receptive field bunu ölçer.

Matematik Karavanı 5 dk okuma 5 soru
Göz — receptive field metaforu

"Bir nöron neyi görür?"

Bir CNN düşünün:

  • Katman 1: 3x3 conv → her nöron 3x3 piksel alanı.
  • Katman 2: 3x3 conv → her nöron 5x5 piksel alanı (genişledi).
  • Katman 10: çok daha geniş.

Receptive field: bir nöronun girdi (resim) üzerinde etki edebileceği bölge.

Biyoloji benzetmesi: gözün retinal hücresinin ışığa duyarlı olduğu alan.

Matematik

Receptive field her katmanda büyür:
RFl=RFl1+(Kl1)i=1l1SiRF_l = RF_{l-1} + (K_l - 1) \cdot \prod_{i=1}^{l-1} S_i

  • KlK_l: kernel boyutu.
  • SiS_i: stride.

Üst üste 3x3 conv'lar:

  • 1 katman: 3x3.
  • 2 katman: 5x5.
  • 3 katman: 7x7.
  • 10 katman: 21x21.

Theoretical vs Effective

Teorik RF: matematik olarak hesaplanan.

Effective RF (Luo et al. 2016): pratikte etkili olan alan.

  • Merkezi pikseller çok etkili.
  • Kenar pikseller az etkili.
  • Gaussian dağılım.

Sonuç: Effective RF, teorik RF'in çok azı (tipik olarak %50-60).

Genişletme yolları

Stride

Conv'da stride > 1 → RF büyür.

Pooling

Max/Avg pooling → RF büyür.

Dilated convolution

3x3 kernel'ı aralıklı uygula:

  • Dilation=2: 5x5 alan, sadece 9 ağırlık.

WaveNet (ses), DeepLab (segmentasyon) bunu kullandı.

Daha derin ağ

Çok katman → çok geniş RF.

Self-attention

Transformer'da her token tüm token'leri görür → RF tüm girdi.

Vision Transformer (ViT) ile fark

CNN: yerel başlar, derin katmanlarda geniş.

ViT: ilk katmandan tüm imaja bakar (attention).

Bu temel fark modern mimarilerin neden farklı şeyleri iyi yaptığını açıklar.

Modern mimariler

Swin Transformer

Yerel pencerelerle başlar, kademeli birleştirir → CNN benzeri.

ConvNeXt

CNN'i transformer fikirleriyle modernize eder.

Mamba (SSM)

Doğrusal zamanda tüm dizi görür.

Pratik etki

Eğer modeliniz küçük detaya odaklanmalı (yüz tanıma):

  • Sığ ağ + büyük kernel.

Büyük bağlam gerekirse (sahne anlama):

  • Derin ağ + pooling + dilated conv.
  • Veya transformer.

Türk araştırması

  • Tıbbi görüntü: tümör tespiti için RF tasarımı.
  • Türkçe OCR: karakter boyutu vs RF.
  • Sahne anlama: trafik analizi.

Felsefe

Receptive field temel mesajı: "Mimari, modelin neyi öğrenebileceğini belirler".

CNN'in mimari kararları (kernel, stride, dilation) modelin gerçek yetisini sınırlar.

Kapanış

Receptive field, görsel derin öğrenmenin temel mimari kavramı. ViT çağında bile anlam sürüyor: ne kadar bağlamı bir nöron işleyebilir?

Modern AI tasarımının olgunluk işareti: receptive field'ı gerçek görev ile uyumlu yapmak.

Etiketler

receptive fieldCNNgörsel öğrenmederin öğrenmetransformer

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Receptive field?

2. Effective vs theoretical RF?

3. Dilated convolution avantajı?

4. ViT'in CNN'den farkı?

5. Tasarım dersi?