Sliding window attention ne yapar?

Her token sadece yakın komşulara bakar (pencere $w$); $O(n)$ hesap

Dil çoğunlukla lokal bağımlı — yakın bağlam önemli, uzak az

Etkili pencere nedir?

$L$ katman × $w$ pencere — çok katmanla bilgi yayılır

Mistral 7B'de SWA'nın rolü nedir?

4096 pencere + KV-cache rolling — sabit bellek 32K bağlam

SWA ile Mamba farkı nedir?

SWA approximation; Mamba doğal $O(n)$ — modern modeller hibrit kullanır

Sliding Window Attention: Uzun Bağlam için Pencere Çevirme

Tam attention sorunu

Klasik transformer attention: her token tüm diğer tokenlara bakar. $n$ token için $n^2$ ikili karşılaştırma.

$n=2048$ : 4M çift. $n=100K$ : 10 milyar çift. Bellek ve hesap patlar.

Modern LLM'lerin uzun bağlam (32K, 128K, 1M token) sınırı bu yüzden.

Sliding window — basit fikir

Sliding window attention (SWA): her token sadece yakın komşulara baksın. Tipik pencere $w=4096$ .

Token $i$ , $[i-w/2, i+w/2]$ aralığına bakar.
Diğer tokenlar görünmez.
Her token için sabit boyut → $O(n \cdot w) = O(n)$ hesap.

Bu lineer karmaşıklık.

Niye işe yarar

Dil çoğunlukla lokal bağımlıdır. Bir cümlenin anlamı bir önceki paragrafa bağlıdır, ama 50 sayfa öncesine çok az. Yakın bağlam önemli.

Sliding window bu sezgiyi matematiksel olarak kullanır: uzak tokenları görmeme küçük kayıp, büyük hız kazancı.

Longformer (2020) — ilk büyük uygulama

Allen AI'dan Longformer modeli SWA + global attention. Lokal pencere için SWA, özel "global" tokenlar (örn. [CLS]) tüm token'lara bakar.

Bu kombinasyon: uzun belge için iyi performans. 16K bağlamla makale özetleme, soru-cevap.

Mistral 7B (2023) — modern standart

Mistral SWA'yı modern LLM'e taşıyan model oldu. Pencere boyutu 4096.

Trick: SWA + KV-cache rolling: cache büyümez. 32K bağlam, sabit bellek.

Mistral 7B aynı performansta Llama 2'den uzun bağlama sahip ve hızlı.

Etkili pencere

Sliding window'in ilginç özelliği: birden çok katmanla bilgi yayılabilir.

Pencere $w$ , $L$ katman ile etkili pencere: $L \cdot w$ . 32 katman × 4096 = 131K. Yani teorik olarak son token ilk tokeni "dolaylı yoldan" görür.

Pratikte bu yayılma sınırlıdır ama yine de etkili.

Modern varyantlar

SWA'dan sonra varyantlar:

BigBird (2020): SWA + random + global.
Sparse Transformer (OpenAI): Strided attention.
Reformer: Locality-sensitive hashing.
Linear Attention: $O(n)$ formel ama farklı yaklaşım.

Modern uzun bağlam ekosisteminin temel teknikleri.

SWA vs Mamba

Mamba state-space modeli doğal olarak $O(n)$ . SWA approximation; Mamba direkt.

Modern eğilim: hibrit modeller. Bazı katmanlar SWA, bazıları Mamba, bazıları tam attention. Her birinin avantajı farklı.

Klasik benzetme

Bir öğretmen sınıfta sınava bakıyor. Tam attention: her öğrencinin her diğerini gördüğünü hayal et. 30 kişilik sınıfta 900 göz teması.

Sliding window: her öğrenci sadece sıra arkadaşlarını görüyor. Yakındakine bakıyor. Çok daha hızlı, ama uzak öğrencilerle konuşma yok.

Akademik öğretim için bu sınırlama anlamlı. Dil işleme için de.

Sade ders

SWA hikâyesinden iki şey:

Lokallik istismar edilebilir. Dil çoğunlukla lokal; tüm token'a tam attention israf. Bu sezgiyi formel kullanmak büyük verimlilik kazanır.
Yaklaşım algoritmaları gerçek dünya için kritik. Tam attention idealdir ama $O(n^2)$ patlar. SWA "%99 doğruluk" olabilir ama "%100 ölçek" sağlar.

Bağlam

Mistral için: [[mistral-ai-avrupa-nin-open-source-cevabı]]. KV-cache için: [[kv-cache-llm-belleginin-sessiz-darbogazi]]. FlashAttention için: [[flashattention-gpu-yu-akilli-kullanan-attention]]. Mamba için: [[mamba-transformer-a-meydan-okuyan-uzun-bagimli-model]]. Transformer için: [[transformer-attention-is-all-you-need]].