Tüm yazılar
Matematik4 Ağustos 2025

Attention (Dikkat) Mekanizması: GPT'nin Kelimeleri Birbirine Bağlayan Sihirli Formülü

"Attention Is All You Need" — 2017'de Google'dan 8 araştırmacı bu cesur başlıkla makaleyi yayımladı. Transformer mimarisi: tüm modern AI patlamasının (GPT, Claude, Gemini, Stable Diffusion) **matematik kalbi**.

Matematik Karavanı Editörü 5 dk okuma 5 soru
Gökyüzü ve ışık ışınları — attention'ın "odak yöneltme" metaforu

Bir cümleyi anlamak

İnsan bir cümleyi okurken her kelimeyi diğer tüm kelimelerle ilişkilendirir. Örnek:

"Köpek topu kovaladı çünkü o yorgundu."

"O" kim? Köpek mi, top mu? Anlam tüm cümle üzerinden çıkar.

Klasik RNN/LSTM (1990'lar) bu tür uzun bağımlılıkları zayıf yakaladı — bilgi adımlardan geçerken kayboldu.

Çözüm: attention mekanizması. Her kelimenin doğrudan her diğer kelimeye "bakabildiği" bir yapı.

Bu, modern büyük dil modellerinin matematik kalbidir.

Attention'ın matematik formülü

Klasik scaled dot-product attention:

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V

Burada:

  • Q (Query): "ne arıyorum?" — her token için bir vektör.
  • K (Key): "ben neyim?" — her token için bir vektör.
  • V (Value): "veri ne?" — her token için bir vektör.
  • QKTQK^T: query ile key'lerin eşleşme skorları.
  • Softmax: skorları olasılık dağılımına çevirir.
  • VV ile çarp: ağırlıklı toplam.

Sonuç: her token, diğer tokenlerin ağırlıklı kombinasyonunu alır. Ağırlıklar dinamik — context'e göre değişir.

Sade örnek

Cümle: "Köpek topu kovaladı çünkü o yorgundu."

Token "o"'nun query'si: "Ben kimi tanımlıyorum?".

Key'lerle eşleşme: "köpek" yüksek skor, "top" düşük skor (yorgunluk köpek özelliği).

Softmax sonrası: 0.7 köpek + 0.2 top + 0.1 diğerleri.

V'lerin ağırlıklı toplamı = "o"'nun bağlamsal anlamı.

İnsan dilbilgisi sezgisinin matematik karşılığı.

Self-Attention

Attention'ın özel hali: Q,K,VQ, K, V aynı sekansın kendi temsilinden geliyor.

Bir cümle içindeki her token diğer tokenlere bakıyor — uzun mesafelerin doğrudan ilişkisi.

Multi-Head Attention

Tek bir attention yetersiz — çok yönlü ilişkiler var. Çözüm: paralel olarak birden fazla attention:

MultiHead(Q,K,V)=Concat(head1,,headh)WO\text{MultiHead}(Q,K,V) = \text{Concat}(head_1, \ldots, head_h) W^O

Her "head" farklı bir bakış açısı (kim eylemi yaptı? Hangi obje?).

GPT-4: 96 head, her birinde 128 boyutlu vektörler.

Positional Encoding

Attention sıra duyarsız — her tokeni diğerleriyle aynı şekilde işler. Ama dil sıralı.

Çözüm: positional encoding — her tokene "ben pozisyonda" bilgisini ekle. Sinüs/cosinüs dalgaları veya öğrenilen embedding'ler.

Transformer mimarisi

Tüm bu unsurları birleştir:

  1. Embedding: token → vektör.
  2. Positional encoding ekle.
  3. Self-attention (multi-head).
  4. Feed-forward (lineer + nonlin).
  5. Layer normalization, residual.
  6. Çıkış: bir sonraki token tahmini.

GPT-4: bu yapıdan 120 katlı.

Tarihsel köken

  • Bahdanau, Cho, Bengio (2014): çeviri için ilk attention.
  • Luong et al. (2015): daha basit attention.
  • Vaswani et al. (2017): "Attention Is All You Need" — sadece attention, hiç RNN. Transformer.
  • GPT-1 (2018, OpenAI), BERT (2018, Google), GPT-3 (2020), ChatGPT (2022), GPT-4 (2023).

Niçin işe yarıyor?

  • Paralelizasyon: RNN seri çalışır; attention paralel — GPU'lar hızlı.
  • Uzun bağımlılık: doğrudan bağlantı, bilgi kaybolmaz.
  • Ölçeklenebilir: daha çok parametre + veri = daha iyi performans (scaling laws).
  • Kendi-denetimli öğrenme: sonraki token tahmini ile büyük veri kullanım.

Uygulamalar

  • Dil modelleri: GPT, Claude, Gemini, LLaMA.
  • Görüntü: Vision Transformer (ViT).
  • Çoklu modal: GPT-4V, DALL-E 3.
  • Müzik: AudioLM, MusicGen.
  • Protein katlanması: AlphaFold 2-3.
  • Robotik: RT-2.

Sınırlamalar

  • Karmaşıklık: O(n2)O(n^2) (nn = sekans uzunluğu). Çok uzun belgeler için pahalı.
  • Bağlam penceresi: GPT-4 128K token; Gemini 1M token; ama hâlâ sınır.
  • Yorumlanabilirlik: 96 head × 120 katman = çok karmaşık.

Modern araştırma bunları aşmaya çalışıyor: sparse attention, linear attention, state-space modeller (Mamba).

Sonuç

Attention mekanizması:

  • "Her şey her şeyle ilişkili" prensibinin matematik formülasyonu.
  • Q-K-V softmax — bir tek formül, sonsuz etki.
  • Transformer (2017) — modern AI patlamasının başlangıcı.
  • GPT, Claude, Gemini, ChatGPT — hepsi attention.

8 Google araştırmacısının 2017 makalesi ("Attention Is All You Need"), insanlık tarihinin belki en etkili 12 sayfa'sıdır. Modern AI çağı tam olarak o makaleden başladı.

"Dikkat her şeydir." Bu sade cümle, modern AI mucizesinin paradigma cümlesidir.

Etiketler

attentiontransformerderin öğrenmeself-attentionbüyük dil modelleri

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Attention mekanizması formülü nedir?

2. Self-attention nedir?

3. Transformer makalesinin başlığı ve yılı?

4. Multi-head attention'ın amacı nedir?

5. Attention'ın temel sınırlaması nedir?