Tüm yazılar
Matematik4 Temmuz 2025

Mamba: Transformer'a Meydan Okuyan Uzun-Bağımlı Model

2023 sonunda yayımlanan, durum-uzayı modelleri ile bir milyon token bağlamı vaat eden mimari. Dil modellerinde yeni bir cephe.

Matematik Karavanı 7 dk okuma 5 soru
Cep saati ve zaman — durum-uzayı modellerinin zamansal hafızası

Transformer'ın iki sorunu

Transformer'lar 2017'den beri dilin standart mimarisidir. Ama iki temel sorunu var:

  1. Karmaşıklık O(n2)O(n^2): nn token'ın çiftleri arasındaki attention hesabı. 100K token = 10 milyar çift. Bellek ve hesap patlar.
  2. KV-cache şişer: Üretim sırasında her token için tüm geçmiş key-value'lar bellekte tutulmalı. Uzun bağlamda GPU çöker.

Bu yüzden GPT-4 32K, Claude 200K, Gemini 1M token sınırlarıyla yaşar. Daha uzunu için mimari değişimi gerek.

Eski fikrin geri dönüşü: durum uzayı

Klasik kontrol teorisinde durum-uzayı modeli (SSM) vardır. Sürekli sistem:

h˙(t)=Ah(t)+Bx(t),y(t)=Ch(t)\dot{h}(t) = A h(t) + B x(t), \quad y(t) = C h(t)

Burada hh "durum" (gizli bellek), xx giriş, yy çıkış, A,B,CA,B,C öğrenilen matrisler. Bu denklemi ayrıklaştırırsanız (zaman adımı Δ\Delta ile) modern bir RNN'e dönüşür: ht=Aˉht1+Bˉxth_t = \bar{A} h_{t-1} + \bar{B} x_t.

RNN'lerin sorunu vardı: paralel eğitilemezdi, gradyanlar kayboluyordu. SSM'ler bu iki sorunu çözer ama klasik formla sınırlıydı.

S4 (2021) — başlangıç

Albert Gu ve ark. Stanford'da S4 modelini yayımladı (Structured State Space Sequences, 2021):

  • AA matrisini HiPPO ilkesiyle başlat (uzun bağımlılıkları iyi öğrenen yapı).
  • Konvolüsyon olarak yeniden formüle et: eğitim sırasında paralel, üretim sırasında özyinelemeli.
  • Bellek O(n)O(n), hesap O(nlogn)O(n \log n).

S4 "Long Range Arena" benchmark'ında transformer'ı yendi. Ama dil modellemede transformer'ın gerisindeydi. Sebep: durum sabitti — giriş değişse de aynı A,B,CA,B,C matrisleri.

Mamba (2023) — selektif SSM

Aralık 2023'te Albert Gu ve Tri Dao Mamba'yı yayımladı. Ana fikir basit: A,B,CA,B,C matrisleri girişe bağlı olsun.

Bt=fB(xt),Ct=fC(xt),Δt=fΔ(xt)B_t = f_B(x_t), \quad C_t = f_C(x_t), \quad \Delta_t = f_\Delta(x_t)

Yani model hangi bilginin durumda kalacağına her adımda karar verir. "Bu kelime önemli, hatırla" ya da "bu boşluk, unutsam olur."

Bu selektif (input-dependent) SSM, dilin "neyi hatırla / neyi unut" örüntüsünü yakalar. Transformer'ın attention'unun yaptığı işi farklı bir mekanizmayla yapar.

Donanım yandaşı algoritma

Mamba'nın parlaklığı sadece matematikte değil. Tri Dao (FlashAttention'ın yazarı) donanım dostu bir hesap algoritması yazdı:

  • Durumu HBM'e yazmadan, SRAM'da tut. Paralel tarama (parallel scan) ile O(n) hesap.
  • A100 GPU üzerinde transformer'dan 5x daha hızlı çıkarım.
  • 1M token bağlamda bellek transformer'ın 1/100'ü.

Performans

7B parametrelik Mamba-2 (2024) Pythia-7B'yi çoğu dil benchmark'ında geçer. Ama tek başına yetmez — çünkü Mamba "geriye dönüp tam aramayı" beceremiyor. Bu yüzden modern modeller hibrit:

  • Jamba (AI21, 2024): Mamba bloklarıyla transformer bloklarını karıştırır. 256K bağlam, hızlı.
  • Zamba (2024): Benzer hibrit yaklaşım.
  • NVIDIA Mamba/Transformer hibritleri 2024'te 8B'da rekabetçi sonuçlar.

Klasik benzetme

Transformer ile Mamba arasındaki fark:

  • Transformer: Bir kütüphanede çalışıyorsun, her kelime için kütüphanenin tamamına bakabilirsin. Çok güçlü ama kütüphane büyüdükçe yavaşlarsın.
  • Mamba: Yanında bir defter var. Her kelimede "bunu defter'e yaz / şuradakini sil" diyorsun. Defter sabit boyutta ama akıllı tutuluyor. Kütüphane büyüse bile hızın değişmiyor.

Eksiği nedir

Mamba mükemmel değil:

  • Tam hatırlama: "10K token önce X dedim, tam söz et" gibi görevlerde transformer hâlâ daha iyi.
  • In-context learning: Az örnekle öğrenmede zayıf — durum sıkıştırması bilgiyi kaybediyor.
  • Çok modlu görevler: Görüntü/video için optimize edilmemiş (henüz).

Bu yüzden çoğu modern yaklaşım hibrit: çok az Mamba katmanı + çok transformer.

Anlamı

Mamba'nın asıl önemi tek bir model değil, transformer hegemonyasının kırılması. 7 yıl boyunca tek mimari hâkimken, şimdi:

  • Mamba (SSM)
  • RWKV (RNN diriltmesi)
  • Hyena (uzun konvolüsyon)
  • Liquid (sürekli zaman)

birbirine rakip. Bu, alanın hâlâ olgunlaşmadığını gösterir.

Bağlam

Transformer için: [[transformer-attention-is-all-you-need]]. Bağlam uzunluğu için: [[bagsiz-bilgi-uzun-baglam-modelleri-nasil-yapilir]]. Hesap karmaşıklığı tartışması için: [[zaman-karmasikligi-buyuk-o-notasyonu]]. Tri Dao'nun diğer büyük katkısı için: [[flashattention-yi-bekleyenler]] (eğer mevcutsa).

Etiketler

Mambastate space modeltransformerSSMuzun bağlam

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Mamba'nın temel matematiksel zemini nedir?

2. S4 ile Mamba arasındaki fark nedir?

3. Transformer'a karşı Mamba'nın avantajı nedir?

4. Mamba'nın zayıf yönü nedir?

5. Hangi modeller Mamba'yı kullanır?