Mamba: Transformer'a Meydan Okuyan Uzun-Bağımlı Model
2023 sonunda yayımlanan, durum-uzayı modelleri ile bir milyon token bağlamı vaat eden mimari. Dil modellerinde yeni bir cephe.

Transformer'ın iki sorunu
Transformer'lar 2017'den beri dilin standart mimarisidir. Ama iki temel sorunu var:
- Karmaşıklık : token'ın çiftleri arasındaki attention hesabı. 100K token = 10 milyar çift. Bellek ve hesap patlar.
- KV-cache şişer: Üretim sırasında her token için tüm geçmiş key-value'lar bellekte tutulmalı. Uzun bağlamda GPU çöker.
Bu yüzden GPT-4 32K, Claude 200K, Gemini 1M token sınırlarıyla yaşar. Daha uzunu için mimari değişimi gerek.
Eski fikrin geri dönüşü: durum uzayı
Klasik kontrol teorisinde durum-uzayı modeli (SSM) vardır. Sürekli sistem:
Burada "durum" (gizli bellek), giriş, çıkış, öğrenilen matrisler. Bu denklemi ayrıklaştırırsanız (zaman adımı ile) modern bir RNN'e dönüşür: .
RNN'lerin sorunu vardı: paralel eğitilemezdi, gradyanlar kayboluyordu. SSM'ler bu iki sorunu çözer ama klasik formla sınırlıydı.
S4 (2021) — başlangıç
Albert Gu ve ark. Stanford'da S4 modelini yayımladı (Structured State Space Sequences, 2021):
- matrisini HiPPO ilkesiyle başlat (uzun bağımlılıkları iyi öğrenen yapı).
- Konvolüsyon olarak yeniden formüle et: eğitim sırasında paralel, üretim sırasında özyinelemeli.
- Bellek , hesap .
S4 "Long Range Arena" benchmark'ında transformer'ı yendi. Ama dil modellemede transformer'ın gerisindeydi. Sebep: durum sabitti — giriş değişse de aynı matrisleri.
Mamba (2023) — selektif SSM
Aralık 2023'te Albert Gu ve Tri Dao Mamba'yı yayımladı. Ana fikir basit: matrisleri girişe bağlı olsun.
Yani model hangi bilginin durumda kalacağına her adımda karar verir. "Bu kelime önemli, hatırla" ya da "bu boşluk, unutsam olur."
Bu selektif (input-dependent) SSM, dilin "neyi hatırla / neyi unut" örüntüsünü yakalar. Transformer'ın attention'unun yaptığı işi farklı bir mekanizmayla yapar.
Donanım yandaşı algoritma
Mamba'nın parlaklığı sadece matematikte değil. Tri Dao (FlashAttention'ın yazarı) donanım dostu bir hesap algoritması yazdı:
- Durumu HBM'e yazmadan, SRAM'da tut. Paralel tarama (parallel scan) ile O(n) hesap.
- A100 GPU üzerinde transformer'dan 5x daha hızlı çıkarım.
- 1M token bağlamda bellek transformer'ın 1/100'ü.
Performans
7B parametrelik Mamba-2 (2024) Pythia-7B'yi çoğu dil benchmark'ında geçer. Ama tek başına yetmez — çünkü Mamba "geriye dönüp tam aramayı" beceremiyor. Bu yüzden modern modeller hibrit:
- Jamba (AI21, 2024): Mamba bloklarıyla transformer bloklarını karıştırır. 256K bağlam, hızlı.
- Zamba (2024): Benzer hibrit yaklaşım.
- NVIDIA Mamba/Transformer hibritleri 2024'te 8B'da rekabetçi sonuçlar.
Klasik benzetme
Transformer ile Mamba arasındaki fark:
- Transformer: Bir kütüphanede çalışıyorsun, her kelime için kütüphanenin tamamına bakabilirsin. Çok güçlü ama kütüphane büyüdükçe yavaşlarsın.
- Mamba: Yanında bir defter var. Her kelimede "bunu defter'e yaz / şuradakini sil" diyorsun. Defter sabit boyutta ama akıllı tutuluyor. Kütüphane büyüse bile hızın değişmiyor.
Eksiği nedir
Mamba mükemmel değil:
- Tam hatırlama: "10K token önce X dedim, tam söz et" gibi görevlerde transformer hâlâ daha iyi.
- In-context learning: Az örnekle öğrenmede zayıf — durum sıkıştırması bilgiyi kaybediyor.
- Çok modlu görevler: Görüntü/video için optimize edilmemiş (henüz).
Bu yüzden çoğu modern yaklaşım hibrit: çok az Mamba katmanı + çok transformer.
Anlamı
Mamba'nın asıl önemi tek bir model değil, transformer hegemonyasının kırılması. 7 yıl boyunca tek mimari hâkimken, şimdi:
- Mamba (SSM)
- RWKV (RNN diriltmesi)
- Hyena (uzun konvolüsyon)
- Liquid (sürekli zaman)
birbirine rakip. Bu, alanın hâlâ olgunlaşmadığını gösterir.
Bağlam
Transformer için: [[transformer-attention-is-all-you-need]]. Bağlam uzunluğu için: [[bagsiz-bilgi-uzun-baglam-modelleri-nasil-yapilir]]. Hesap karmaşıklığı tartışması için: [[zaman-karmasikligi-buyuk-o-notasyonu]]. Tri Dao'nun diğer büyük katkısı için: [[flashattention-yi-bekleyenler]] (eğer mevcutsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Mamba'nın temel matematiksel zemini nedir?
2. S4 ile Mamba arasındaki fark nedir?
3. Transformer'a karşı Mamba'nın avantajı nedir?
4. Mamba'nın zayıf yönü nedir?
5. Hangi modeller Mamba'yı kullanır?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?