Mamba'nın temel matematiksel zemini nedir?

Durum-uzayı modeli (state space model) — kontrol teorisinden gelir

S4 ile Mamba arasındaki fark nedir?

Mamba'da $A,B,C$ matrisleri girişe bağlı (selektif); S4'te sabit

Transformer'a karşı Mamba'nın avantajı nedir?

$O(n)$ hesap (vs. $O(n^2)$), sabit durum (KV-cache yok), 1M+ token bağlam mümkün

Mamba'nın zayıf yönü nedir?

Tam hatırlama ve in-context learning zayıf — durum sıkıştırması bilgi kaybeder

Hangi modeller Mamba'yı kullanır?

Jamba (AI21), Zamba, NVIDIA hibritleri — genellikle transformer ile karışım

Mamba: Transformer'a Meydan Okuyan Uzun-Bağımlı Model

Transformer'ın iki sorunu

Transformer'lar 2017'den beri dilin standart mimarisidir. Ama iki temel sorunu var:

Karmaşıklık $O(n^2)$ : $n$ token'ın çiftleri arasındaki attention hesabı. 100K token = 10 milyar çift. Bellek ve hesap patlar.
KV-cache şişer: Üretim sırasında her token için tüm geçmiş key-value'lar bellekte tutulmalı. Uzun bağlamda GPU çöker.

Bu yüzden GPT-4 32K, Claude 200K, Gemini 1M token sınırlarıyla yaşar. Daha uzunu için mimari değişimi gerek.

Eski fikrin geri dönüşü: durum uzayı

Klasik kontrol teorisinde durum-uzayı modeli (SSM) vardır. Sürekli sistem:

\dot{h}(t) = A h(t) + B x(t), \quad y(t) = C h(t)

Burada $h$ "durum" (gizli bellek), $x$ giriş, $y$ çıkış, $A,B,C$ öğrenilen matrisler. Bu denklemi ayrıklaştırırsanız (zaman adımı $\Delta$ ile) modern bir RNN'e dönüşür: $h_t = \bar{A} h_{t-1} + \bar{B} x_t$ .

RNN'lerin sorunu vardı: paralel eğitilemezdi, gradyanlar kayboluyordu. SSM'ler bu iki sorunu çözer ama klasik formla sınırlıydı.

S4 (2021) — başlangıç

Albert Gu ve ark. Stanford'da S4 modelini yayımladı (Structured State Space Sequences, 2021):

$A$ matrisini HiPPO ilkesiyle başlat (uzun bağımlılıkları iyi öğrenen yapı).
Konvolüsyon olarak yeniden formüle et: eğitim sırasında paralel, üretim sırasında özyinelemeli.
Bellek $O(n)$ , hesap $O(n \log n)$ .

S4 "Long Range Arena" benchmark'ında transformer'ı yendi. Ama dil modellemede transformer'ın gerisindeydi. Sebep: durum sabitti — giriş değişse de aynı $A,B,C$ matrisleri.

Mamba (2023) — selektif SSM

Aralık 2023'te Albert Gu ve Tri Dao Mamba'yı yayımladı. Ana fikir basit: $A,B,C$ matrisleri girişe bağlı olsun.

B_t = f_B(x_t), \quad C_t = f_C(x_t), \quad \Delta_t = f_\Delta(x_t)

Yani model hangi bilginin durumda kalacağına her adımda karar verir. "Bu kelime önemli, hatırla" ya da "bu boşluk, unutsam olur."

Bu selektif (input-dependent) SSM, dilin "neyi hatırla / neyi unut" örüntüsünü yakalar. Transformer'ın attention'unun yaptığı işi farklı bir mekanizmayla yapar.

Donanım yandaşı algoritma

Mamba'nın parlaklığı sadece matematikte değil. Tri Dao (FlashAttention'ın yazarı) donanım dostu bir hesap algoritması yazdı:

Durumu HBM'e yazmadan, SRAM'da tut. Paralel tarama (parallel scan) ile O(n) hesap.
A100 GPU üzerinde transformer'dan 5x daha hızlı çıkarım.
1M token bağlamda bellek transformer'ın 1/100'ü.

Performans

7B parametrelik Mamba-2 (2024) Pythia-7B'yi çoğu dil benchmark'ında geçer. Ama tek başına yetmez — çünkü Mamba "geriye dönüp tam aramayı" beceremiyor. Bu yüzden modern modeller hibrit:

Jamba (AI21, 2024): Mamba bloklarıyla transformer bloklarını karıştırır. 256K bağlam, hızlı.
Zamba (2024): Benzer hibrit yaklaşım.
NVIDIA Mamba/Transformer hibritleri 2024'te 8B'da rekabetçi sonuçlar.

Klasik benzetme

Transformer ile Mamba arasındaki fark:

Transformer: Bir kütüphanede çalışıyorsun, her kelime için kütüphanenin tamamına bakabilirsin. Çok güçlü ama kütüphane büyüdükçe yavaşlarsın.
Mamba: Yanında bir defter var. Her kelimede "bunu defter'e yaz / şuradakini sil" diyorsun. Defter sabit boyutta ama akıllı tutuluyor. Kütüphane büyüse bile hızın değişmiyor.

Eksiği nedir

Mamba mükemmel değil:

Tam hatırlama: "10K token önce X dedim, tam söz et" gibi görevlerde transformer hâlâ daha iyi.
In-context learning: Az örnekle öğrenmede zayıf — durum sıkıştırması bilgiyi kaybediyor.
Çok modlu görevler: Görüntü/video için optimize edilmemiş (henüz).

Bu yüzden çoğu modern yaklaşım hibrit: çok az Mamba katmanı + çok transformer.

Anlamı

Mamba'nın asıl önemi tek bir model değil, transformer hegemonyasının kırılması. 7 yıl boyunca tek mimari hâkimken, şimdi:

Mamba (SSM)
RWKV (RNN diriltmesi)
Hyena (uzun konvolüsyon)
Liquid (sürekli zaman)

birbirine rakip. Bu, alanın hâlâ olgunlaşmadığını gösterir.

Bağlam

Transformer için: [[transformer-attention-is-all-you-need]]. Bağlam uzunluğu için: [[bagsiz-bilgi-uzun-baglam-modelleri-nasil-yapilir]]. Hesap karmaşıklığı tartışması için: [[zaman-karmasikligi-buyuk-o-notasyonu]]. Tri Dao'nun diğer büyük katkısı için: [[flashattention-yi-bekleyenler]] (eğer mevcutsa).

Mamba: Transformer'a Meydan Okuyan Uzun-Bağımlı Model

Transformer'ın iki sorunu

Eski fikrin geri dönüşü: durum uzayı

S4 (2021) — başlangıç

Mamba (2023) — selektif SSM

Donanım yandaşı algoritma

Performans

Klasik benzetme

Eksiği nedir

Anlamı

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü