Tüm yazılar
Matematik1 Nisan 2025

Llama Mimarisi: Modern Açık LLM'in Standart Yapısı

Meta'nın 2023'te tanıttığı, sonradan tüm açık LLM'lerin kopyaladığı dekoder mimarisinin anatomisi.

Matematik Karavanı 6 dk okuma 5 soru
Llama hayvanı — Meta modelinin sembolü

Bir mimari, bir çağ

Şubat 2023. Meta Llama 1'i yayımladı. 7B-65B parametre. Araştırma için ücretsiz lisans.

Llama'nın özelliği teknik değildi — mimarisi sıradandı. Önemli olan: açık, ölçeği iyi, performansı GPT-3 seviyesinde.

Llama sonraki açık LLM ekosisteminin temeli oldu. Alpaca, Vicuna, Mistral, Qwen, DeepSeek — hepsi Llama mimarisinin türevi.

Llama mimari bileşenleri

Klasik decoder-only transformer + modern bileşenler:

1. RMSNorm (LayerNorm değil)

Daha basit, daha hızlı. 2019'da bulundu, Llama ile yaygınlaştı.

2. RoPE (Rotary Position Embedding)

Sinüs-kosinüs pozisyon embedding'in modern alternatifi. 2021'de Çin'den geldi, Llama ile standartlaştı.

3. SwiGLU activation

ReLU'dan modern. Shazeer'in 2020 önerisi.

4. GQA (Grouped Query Attention)

Llama 2'den itibaren. Attention başlarını paylaşır — KV-cache küçülür.

5. Pre-norm

Normalizasyon residual'dan önce. Eğitim stabilitesi.

6. Decoder-only

Encoder yok. GPT tarzı.

"Standart" oluşumu

Llama 1 yayımlanmasıyla bu altı bileşen modern açık LLM standardı oldu:

  • Mistral 7B: RMSNorm + RoPE + SwiGLU + GQA.
  • Qwen: Aynı.
  • Gemma: Aynı.
  • DeepSeek: Aynı.

Hepsi Llama mimarisini kopyaladı. Yıllar boyu süren araştırma, tek bir referans implementasyona düştü.

Llama versiyonları

  • Llama 1 (Şubat 2023): 7B-65B. Araştırma lisansı.
  • Llama 2 (Temmuz 2023): 7B-70B. Ticari kullanım izni. GQA ekledi.
  • Llama 3 (Nisan 2024): 8B-70B. Vocabulary 128K'ya yükseltildi. Performans GPT-4 seviyesine yakın.
  • Llama 3.1 (Temmuz 2024): 8B-405B. 405B GPT-4'ün ilk açık rakibi.
  • Llama 3.2 (Eylül 2024): Multimodal varyantlar.
  • Llama 4 (planlanıyor): Yeni mimari.

Her sürüm bir önceki kez daha iyi. Açık modelin akademik birikim hızı muazzam.

Llama vs ChatGPT — pazar

Llama "açık", ChatGPT "kapalı". Şu farkı yaratır:

  • Maliyet: Llama kendi sunucunda; ChatGPT API başına ödeme.
  • Veri: Llama yerel; ChatGPT veriniz OpenAI'da.
  • Özelleştirme: Llama fine-tune; ChatGPT minimum.
  • Performans: GPT-4 hâlâ önde ama Llama 3.1 405B yakın.

Modern enterprise eğilimi: hassas veri için Llama, genel için ChatGPT.

Lisans tartışmaları

Llama "açık" derler ama tam değil:

  • Llama 1: Sadece araştırma.
  • Llama 2: Ticari ama "700M+ kullanıcı şirketleri" için ayrı izin.
  • Llama 3: Aynı.

Bu Meta'nın rakipleri (Google, Microsoft) için izinli değil. Yani gerçek açık değil.

Mistral Apache 2.0 gerçek açık; Llama "yarı açık".

Sade ders

Llama hikâyesinden iki şey:

  1. Açıklık değer kazandırır. Llama mimari olarak özgün değildi; ama açık olduğu için ekosistem yarattı. Mistral ve diğer modeller bu temele dayanıyor.
  2. Standart oluşturmak mimari kazanmaktan değerlidir. Llama mimarisi modern LLM standardı oldu. Bu standardı belirlemek tek bir rekorlu model yapmaktan büyük etki.

Bağlam

RMSNorm için: [[rmsnorm-layernorm-un-daha-hizli-kardeshi]]. RoPE için: [[rope-rotary-position-embedding-transformer-in-pozisyon-dilini]]. SwiGLU için: [[aktivasyon-fonksiyonlari-relu-gelu-swiglu-evrimi]]. GQA ve KV-cache için: [[kv-cache-llm-belleginin-sessiz-darbogazi]]. Mistral için: [[mistral-ai-avrupa-nin-open-source-cevabı]].

Etiketler

Llamamimariaçık LLMMetatransformer

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Llama mimarisinin teknik özgünlüğü nedir?

2. Llama'nın 6 ana bileşeni nedir?

3. Llama lisansı tam açık mı?

4. Llama 3.1 405B niye önemli?

5. Llama'nın ekosistem etkisi nedir?