Llama Mimarisi: Modern Açık LLM'in Standart Yapısı
Meta'nın 2023'te tanıttığı, sonradan tüm açık LLM'lerin kopyaladığı dekoder mimarisinin anatomisi.

Bir mimari, bir çağ
Şubat 2023. Meta Llama 1'i yayımladı. 7B-65B parametre. Araştırma için ücretsiz lisans.
Llama'nın özelliği teknik değildi — mimarisi sıradandı. Önemli olan: açık, ölçeği iyi, performansı GPT-3 seviyesinde.
Llama sonraki açık LLM ekosisteminin temeli oldu. Alpaca, Vicuna, Mistral, Qwen, DeepSeek — hepsi Llama mimarisinin türevi.
Llama mimari bileşenleri
Klasik decoder-only transformer + modern bileşenler:
1. RMSNorm (LayerNorm değil)
Daha basit, daha hızlı. 2019'da bulundu, Llama ile yaygınlaştı.
2. RoPE (Rotary Position Embedding)
Sinüs-kosinüs pozisyon embedding'in modern alternatifi. 2021'de Çin'den geldi, Llama ile standartlaştı.
3. SwiGLU activation
ReLU'dan modern. Shazeer'in 2020 önerisi.
4. GQA (Grouped Query Attention)
Llama 2'den itibaren. Attention başlarını paylaşır — KV-cache küçülür.
5. Pre-norm
Normalizasyon residual'dan önce. Eğitim stabilitesi.
6. Decoder-only
Encoder yok. GPT tarzı.
"Standart" oluşumu
Llama 1 yayımlanmasıyla bu altı bileşen modern açık LLM standardı oldu:
- Mistral 7B: RMSNorm + RoPE + SwiGLU + GQA.
- Qwen: Aynı.
- Gemma: Aynı.
- DeepSeek: Aynı.
Hepsi Llama mimarisini kopyaladı. Yıllar boyu süren araştırma, tek bir referans implementasyona düştü.
Llama versiyonları
- Llama 1 (Şubat 2023): 7B-65B. Araştırma lisansı.
- Llama 2 (Temmuz 2023): 7B-70B. Ticari kullanım izni. GQA ekledi.
- Llama 3 (Nisan 2024): 8B-70B. Vocabulary 128K'ya yükseltildi. Performans GPT-4 seviyesine yakın.
- Llama 3.1 (Temmuz 2024): 8B-405B. 405B GPT-4'ün ilk açık rakibi.
- Llama 3.2 (Eylül 2024): Multimodal varyantlar.
- Llama 4 (planlanıyor): Yeni mimari.
Her sürüm bir önceki kez daha iyi. Açık modelin akademik birikim hızı muazzam.
Llama vs ChatGPT — pazar
Llama "açık", ChatGPT "kapalı". Şu farkı yaratır:
- Maliyet: Llama kendi sunucunda; ChatGPT API başına ödeme.
- Veri: Llama yerel; ChatGPT veriniz OpenAI'da.
- Özelleştirme: Llama fine-tune; ChatGPT minimum.
- Performans: GPT-4 hâlâ önde ama Llama 3.1 405B yakın.
Modern enterprise eğilimi: hassas veri için Llama, genel için ChatGPT.
Lisans tartışmaları
Llama "açık" derler ama tam değil:
- Llama 1: Sadece araştırma.
- Llama 2: Ticari ama "700M+ kullanıcı şirketleri" için ayrı izin.
- Llama 3: Aynı.
Bu Meta'nın rakipleri (Google, Microsoft) için izinli değil. Yani gerçek açık değil.
Mistral Apache 2.0 gerçek açık; Llama "yarı açık".
Sade ders
Llama hikâyesinden iki şey:
- Açıklık değer kazandırır. Llama mimari olarak özgün değildi; ama açık olduğu için ekosistem yarattı. Mistral ve diğer modeller bu temele dayanıyor.
- Standart oluşturmak mimari kazanmaktan değerlidir. Llama mimarisi modern LLM standardı oldu. Bu standardı belirlemek tek bir rekorlu model yapmaktan büyük etki.
Bağlam
RMSNorm için: [[rmsnorm-layernorm-un-daha-hizli-kardeshi]]. RoPE için: [[rope-rotary-position-embedding-transformer-in-pozisyon-dilini]]. SwiGLU için: [[aktivasyon-fonksiyonlari-relu-gelu-swiglu-evrimi]]. GQA ve KV-cache için: [[kv-cache-llm-belleginin-sessiz-darbogazi]]. Mistral için: [[mistral-ai-avrupa-nin-open-source-cevabı]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Llama mimarisinin teknik özgünlüğü nedir?
2. Llama'nın 6 ana bileşeni nedir?
3. Llama lisansı tam açık mı?
4. Llama 3.1 405B niye önemli?
5. Llama'nın ekosistem etkisi nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?