Tüm yazılar
Matematik30 Mart 2025

Chinchilla Yasaları: Veri mi, Parametre mi?

DeepMind'in 2022'de yayımladığı, "GPT-3 aşırı büyük + az veriyle eğitilmiş" iddiası modern LLM ekonomisini değiştirdi.

Matematik Karavanı 6 dk okuma 5 soru
Terazi - veri ve parametre dengesi metaforu

"Daha büyük model her zaman daha iyi" mı?

OpenAI 2020'de Kaplan scaling laws yayımladı. Tez: model boyutu, veri, hesap büyütüldükçe performans öngörülebilir olarak artar.

Sonuç: GPT-3 175B parametre, 300B token. Çok büyük model, "yeterli" veri.

Mart 2022. DeepMind'dan Jordan Hoffmann ve ark. '"Training Compute-Optimal Large Language Models" makalesi yayımladı. Chinchilla modeli.

İddia: Kaplan yanılmış. GPT-3 modeli aşırı büyük, çok az veriyle eğitilmiş. Aynı hesap bütçesi farklı dağılırsa çok daha iyi model çıkar.

Chinchilla'nın bulgusu

DeepMind 400+ farklı boyutta model eğitti (70M-16B parametre). Sonra optimal hesap-veri-parametre ilişkisini buldu:

"NN parametre ve DD token için optimal: D20ND \approx 20 N."

Yani: 1B parametre için 20B token. GPT-3 (175B parametre) için optimal 3.5T token — gerçek 300B (10x az).

Chinchilla modeli

DeepMind'in Chinchilla modeli: 70B parametre, 1.4T token eğitim. Hesap bütçesi Gopher (280B parametre) ile aynı.

Performans: Chinchilla, Gopher'i her benchmark'ta geçti. Az parametre + çok veri = daha iyi.

Bu bulgu modern LLM ekonomisinin temel yasası oldu.

Etki — endüstri dönüşümü

Chinchilla yayımlandıktan sonra:

  • Llama 1 (2023): Chinchilla yasasını izledi. 7B-65B parametre, 1.4T token.
  • Llama 2 (2023): Daha da fazla veri.
  • Llama 3 (2024): 8B parametre, 15T token. Chinchilla optimum oranını aştı.
  • DeepSeek: Aynı felsefe.
  • Mistral: Aynı.

GPT-3 gibi büyük + az veri modelleri kaybetti. Küçük + çok veri kazandı.

"Veriden tükenmek" sorunu

Chinchilla bulgusu modern AI'da veri kıtlığı endişesini doğurdu. İnternette ne kadar text var?

Tahminler:

  • Common Crawl: ~10T token (temiz).
  • Bütün yüksek kaliteli internet: ~30-50T token.
  • Kitaplar, akademik makaleler: ~5T.

Modern modeller (Llama 3 8B 15T token) bu sınırına yakın. 2025-2027'de tükenebilir.

"Senthetic data" çözümü

Sınırı aşmak için modern strateji: modelin kendi ürettiği veri. Self-Instruct, Constitutional AI, dağıtık RL — hep sentetik.

GPT-4, Claude, Llama 3 — hepsi insan + sentetik veri karması ile eğitildi.

Sınırlamalar — Chinchilla'nın güncel durumu

Modern AI'da Chinchilla "öldü mü?" tartışılıyor:

  1. Llama 3 8B 15T token: Chinchilla optimumu (160B) çok aştı. Yine de iyi performans.
  2. DeepSeek V3 671B: Chinchilla yasasından sapıyor.
  3. Test-time compute (o1): Bütçeyi başka yere koy — düşünme zamanına.

Modern eğilim: Chinchilla temel yasa ama tek değil. Test-time compute, sentetik veri, başka boyutlar var.

Kaplan vs Hoffmann tartışması

İki taraftan akademik dürüstlük tartışması:

  • Kaplan (OpenAI 2020): "Büyük model her şeydir."
  • Hoffmann (DeepMind 2022): "Veri eşit derecede önemli."

İki taraf da kendi deneylerinde haklıydı. Fark: Kaplan eğitim çizelgesinde sabit. Hoffmann optimize edilmiş.

Modern anlayış: ikisi de eksik. Test-time compute üçüncü boyut.

Sade ders

Chinchilla hikâyesinden iki şey:

  1. Yanlış scaling kanunu pahalıdır. OpenAI GPT-3'ü Kaplan'la eğitti. Eğer Chinchilla'yı bilseydi, aynı bütçe ile çok daha iyi model çıkarırdı. Akademik düzeltmeler endüstri milyonlarına denk gelir.
  2. Veri kıtlığı yaklaşan problemdir. Modern modeller internetin temiz veri sınırlarına yaklaşıyor. Sentetik veri ve test-time compute bu sınırı aşmak için.

Bağlam

Scaling laws için: [[scaling-laws-yapay-zekayi-buyuk-yapmak-icin-matematik-formul]]. Llama için: [[llama-mimarisi-modern-acik-llm-in-standart-yapisi]]. Mensch ve Chinchilla için: [[arthur-mensch-mistral-ai-nin-fransiz-kurucusu]]. Self-Instruct için: [[self-instruct-modelin-kendi-egitim-verisini-uretmesi]]. Test-time compute için: [[test-time-compute-aiya-dusunmek-icin-zaman-vermek]].

Etiketler

Chinchillascaling lawsDeepMindLLM ekonomisiveri

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Chinchilla'nın ana bulgusu nedir?

2. GPT-3 Chinchilla'ya göre neydi?

3. Llama 3 Chinchilla'yı izliyor mu?

4. Veri kıtlığı problemi nedir?

5. Modern AI'da Chinchilla'nın yeri nedir?