Attention (Dikkat) Mekanizması: GPT'nin Kelimeleri Birbirine Bağlayan Sihirli Formülü
"Attention Is All You Need" — 2017'de Google'dan 8 araştırmacı bu cesur başlıkla makaleyi yayımladı. Transformer mimarisi: tüm modern AI patlamasının (GPT, Claude, Gemini, Stable Diffusion) **matematik kalbi**.

Bir cümleyi anlamak
İnsan bir cümleyi okurken her kelimeyi diğer tüm kelimelerle ilişkilendirir. Örnek:
"Köpek topu kovaladı çünkü o yorgundu."
"O" kim? Köpek mi, top mu? Anlam tüm cümle üzerinden çıkar.
Klasik RNN/LSTM (1990'lar) bu tür uzun bağımlılıkları zayıf yakaladı — bilgi adımlardan geçerken kayboldu.
Çözüm: attention mekanizması. Her kelimenin doğrudan her diğer kelimeye "bakabildiği" bir yapı.
Bu, modern büyük dil modellerinin matematik kalbidir.
Attention'ın matematik formülü
Klasik scaled dot-product attention:
Burada:
- Q (Query): "ne arıyorum?" — her token için bir vektör.
- K (Key): "ben neyim?" — her token için bir vektör.
- V (Value): "veri ne?" — her token için bir vektör.
- : query ile key'lerin eşleşme skorları.
- Softmax: skorları olasılık dağılımına çevirir.
- ile çarp: ağırlıklı toplam.
Sonuç: her token, diğer tokenlerin ağırlıklı kombinasyonunu alır. Ağırlıklar dinamik — context'e göre değişir.
Sade örnek
Cümle: "Köpek topu kovaladı çünkü o yorgundu."
Token "o"'nun query'si: "Ben kimi tanımlıyorum?".
Key'lerle eşleşme: "köpek" yüksek skor, "top" düşük skor (yorgunluk köpek özelliği).
Softmax sonrası: 0.7 köpek + 0.2 top + 0.1 diğerleri.
V'lerin ağırlıklı toplamı = "o"'nun bağlamsal anlamı.
İnsan dilbilgisi sezgisinin matematik karşılığı.
Self-Attention
Attention'ın özel hali: aynı sekansın kendi temsilinden geliyor.
Bir cümle içindeki her token diğer tokenlere bakıyor — uzun mesafelerin doğrudan ilişkisi.
Multi-Head Attention
Tek bir attention yetersiz — çok yönlü ilişkiler var. Çözüm: paralel olarak birden fazla attention:
Her "head" farklı bir bakış açısı (kim eylemi yaptı? Hangi obje?).
GPT-4: 96 head, her birinde 128 boyutlu vektörler.
Positional Encoding
Attention sıra duyarsız — her tokeni diğerleriyle aynı şekilde işler. Ama dil sıralı.
Çözüm: positional encoding — her tokene "ben pozisyonda" bilgisini ekle. Sinüs/cosinüs dalgaları veya öğrenilen embedding'ler.
Transformer mimarisi
Tüm bu unsurları birleştir:
- Embedding: token → vektör.
- Positional encoding ekle.
- Self-attention (multi-head).
- Feed-forward (lineer + nonlin).
- Layer normalization, residual.
- Çıkış: bir sonraki token tahmini.
GPT-4: bu yapıdan 120 katlı.
Tarihsel köken
- Bahdanau, Cho, Bengio (2014): çeviri için ilk attention.
- Luong et al. (2015): daha basit attention.
- Vaswani et al. (2017): "Attention Is All You Need" — sadece attention, hiç RNN. Transformer.
- GPT-1 (2018, OpenAI), BERT (2018, Google), GPT-3 (2020), ChatGPT (2022), GPT-4 (2023).
Niçin işe yarıyor?
- Paralelizasyon: RNN seri çalışır; attention paralel — GPU'lar hızlı.
- Uzun bağımlılık: doğrudan bağlantı, bilgi kaybolmaz.
- Ölçeklenebilir: daha çok parametre + veri = daha iyi performans (scaling laws).
- Kendi-denetimli öğrenme: sonraki token tahmini ile büyük veri kullanım.
Uygulamalar
- Dil modelleri: GPT, Claude, Gemini, LLaMA.
- Görüntü: Vision Transformer (ViT).
- Çoklu modal: GPT-4V, DALL-E 3.
- Müzik: AudioLM, MusicGen.
- Protein katlanması: AlphaFold 2-3.
- Robotik: RT-2.
Sınırlamalar
- Karmaşıklık: ( = sekans uzunluğu). Çok uzun belgeler için pahalı.
- Bağlam penceresi: GPT-4 128K token; Gemini 1M token; ama hâlâ sınır.
- Yorumlanabilirlik: 96 head × 120 katman = çok karmaşık.
Modern araştırma bunları aşmaya çalışıyor: sparse attention, linear attention, state-space modeller (Mamba).
Sonuç
Attention mekanizması:
- "Her şey her şeyle ilişkili" prensibinin matematik formülasyonu.
- Q-K-V softmax — bir tek formül, sonsuz etki.
- Transformer (2017) — modern AI patlamasının başlangıcı.
- GPT, Claude, Gemini, ChatGPT — hepsi attention.
8 Google araştırmacısının 2017 makalesi ("Attention Is All You Need"), insanlık tarihinin belki en etkili 12 sayfa'sıdır. Modern AI çağı tam olarak o makaleden başladı.
"Dikkat her şeydir." Bu sade cümle, modern AI mucizesinin paradigma cümlesidir.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Attention mekanizması formülü nedir?
2. Self-attention nedir?
3. Transformer makalesinin başlığı ve yılı?
4. Multi-head attention'ın amacı nedir?
5. Attention'ın temel sınırlaması nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?