Attention mekanizması formülü nedir?

$\text{softmax}(QK^T/\sqrt{d_k}) V$

Self-attention nedir?

Q, K, V aynı sekanstan; her token diğer tokenlerle doğrudan ilişki kurar

Transformer makalesinin başlığı ve yılı?

"Attention Is All You Need" (2017, Vaswani et al., Google)

Multi-head attention'ın amacı nedir?

Paralel olarak farklı türde ilişkileri yakalamak — her head farklı bakış açısı

Attention'ın temel sınırlaması nedir?

Karmaşıklık $O(n^2)$ sekans uzunluğunda — uzun belgeler için pahalı; modern araştırma "linear attention, Mamba" gibi çözümler arıyor

Attention (Dikkat) Mekanizması: GPT'nin Kelimeleri Birbirine Bağlayan Sihirli Formülü

Bir cümleyi anlamak

İnsan bir cümleyi okurken her kelimeyi diğer tüm kelimelerle ilişkilendirir. Örnek:

"Köpek topu kovaladı çünkü o yorgundu."

"O" kim? Köpek mi, top mu? Anlam tüm cümle üzerinden çıkar.

Klasik RNN/LSTM (1990'lar) bu tür uzun bağımlılıkları zayıf yakaladı — bilgi adımlardan geçerken kayboldu.

Çözüm: attention mekanizması. Her kelimenin doğrudan her diğer kelimeye "bakabildiği" bir yapı.

Bu, modern büyük dil modellerinin matematik kalbidir.

Attention'ın matematik formülü

Klasik scaled dot-product attention:

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V$

Burada:

Q (Query): "ne arıyorum?" — her token için bir vektör.
K (Key): "ben neyim?" — her token için bir vektör.
V (Value): "veri ne?" — her token için bir vektör.
$QK^T$ : query ile key'lerin eşleşme skorları.
Softmax: skorları olasılık dağılımına çevirir.
$V$ ile çarp: ağırlıklı toplam.

Sonuç: her token, diğer tokenlerin ağırlıklı kombinasyonunu alır. Ağırlıklar dinamik — context'e göre değişir.

Sade örnek

Cümle: "Köpek topu kovaladı çünkü o yorgundu."

Token "o"'nun query'si: "Ben kimi tanımlıyorum?".

Key'lerle eşleşme: "köpek" yüksek skor, "top" düşük skor (yorgunluk köpek özelliği).

Softmax sonrası: 0.7 köpek + 0.2 top + 0.1 diğerleri.

V'lerin ağırlıklı toplamı = "o"'nun bağlamsal anlamı.

İnsan dilbilgisi sezgisinin matematik karşılığı.

Self-Attention

Attention'ın özel hali: $Q, K, V$ aynı sekansın kendi temsilinden geliyor.

Bir cümle içindeki her token diğer tokenlere bakıyor — uzun mesafelerin doğrudan ilişkisi.

Multi-Head Attention

Tek bir attention yetersiz — çok yönlü ilişkiler var. Çözüm: paralel olarak birden fazla attention:

$\text{MultiHead}(Q,K,V) = \text{Concat}(head_1, \ldots, head_h) W^O$

Her "head" farklı bir bakış açısı (kim eylemi yaptı? Hangi obje?).

GPT-4: 96 head, her birinde 128 boyutlu vektörler.

Positional Encoding

Attention sıra duyarsız — her tokeni diğerleriyle aynı şekilde işler. Ama dil sıralı.

Çözüm: positional encoding — her tokene "ben pozisyonda" bilgisini ekle. Sinüs/cosinüs dalgaları veya öğrenilen embedding'ler.

Transformer mimarisi

Tüm bu unsurları birleştir:

Embedding: token → vektör.
Positional encoding ekle.
Self-attention (multi-head).
Feed-forward (lineer + nonlin).
Layer normalization, residual.
Çıkış: bir sonraki token tahmini.

GPT-4: bu yapıdan 120 katlı.

Tarihsel köken

Bahdanau, Cho, Bengio (2014): çeviri için ilk attention.
Luong et al. (2015): daha basit attention.
Vaswani et al. (2017): "Attention Is All You Need" — sadece attention, hiç RNN. Transformer.
GPT-1 (2018, OpenAI), BERT (2018, Google), GPT-3 (2020), ChatGPT (2022), GPT-4 (2023).

Niçin işe yarıyor?

Paralelizasyon: RNN seri çalışır; attention paralel — GPU'lar hızlı.
Uzun bağımlılık: doğrudan bağlantı, bilgi kaybolmaz.
Ölçeklenebilir: daha çok parametre + veri = daha iyi performans (scaling laws).
Kendi-denetimli öğrenme: sonraki token tahmini ile büyük veri kullanım.

Uygulamalar

Dil modelleri: GPT, Claude, Gemini, LLaMA.
Görüntü: Vision Transformer (ViT).
Çoklu modal: GPT-4V, DALL-E 3.
Müzik: AudioLM, MusicGen.
Protein katlanması: AlphaFold 2-3.
Robotik: RT-2.

Sınırlamalar

Karmaşıklık: $O(n^2)$ ( $n$ = sekans uzunluğu). Çok uzun belgeler için pahalı.
Bağlam penceresi: GPT-4 128K token; Gemini 1M token; ama hâlâ sınır.
Yorumlanabilirlik: 96 head × 120 katman = çok karmaşık.

Modern araştırma bunları aşmaya çalışıyor: sparse attention, linear attention, state-space modeller (Mamba).

Sonuç

Attention mekanizması:

"Her şey her şeyle ilişkili" prensibinin matematik formülasyonu.
Q-K-V softmax — bir tek formül, sonsuz etki.
Transformer (2017) — modern AI patlamasının başlangıcı.
GPT, Claude, Gemini, ChatGPT — hepsi attention.

8 Google araştırmacısının 2017 makalesi ("Attention Is All You Need"), insanlık tarihinin belki en etkili 12 sayfa'sıdır. Modern AI çağı tam olarak o makaleden başladı.

"Dikkat her şeydir." Bu sade cümle, modern AI mucizesinin paradigma cümlesidir.