Chinchilla'nın ana bulgusu nedir?

$N$ parametre için optimal: $D \approx 20 N$ token — veri ve parametre dengelenmeli

GPT-3 Chinchilla'ya göre neydi?

Aşırı büyük + az veri — 10x daha az token eğitilmiş

Llama 3 Chinchilla'yı izliyor mu?

Hayır — Chinchilla optimumu (160B) çok aştı, 15T token; yine de iyi

Veri kıtlığı problemi nedir?

İnternette yüksek kaliteli ~30-50T token; modern modeller bu sınıra yakın

Modern AI'da Chinchilla'nın yeri nedir?

Temel ama tek değil — test-time compute, sentetik veri üçüncü boyutlar

Chinchilla Yasaları: Veri mi, Parametre mi?

"Daha büyük model her zaman daha iyi" mı?

OpenAI 2020'de Kaplan scaling laws yayımladı. Tez: model boyutu, veri, hesap büyütüldükçe performans öngörülebilir olarak artar.

Sonuç: GPT-3 175B parametre, 300B token. Çok büyük model, "yeterli" veri.

Mart 2022. DeepMind'dan Jordan Hoffmann ve ark. '"Training Compute-Optimal Large Language Models" makalesi yayımladı. Chinchilla modeli.

İddia: Kaplan yanılmış. GPT-3 modeli aşırı büyük, çok az veriyle eğitilmiş. Aynı hesap bütçesi farklı dağılırsa çok daha iyi model çıkar.

Chinchilla'nın bulgusu

DeepMind 400+ farklı boyutta model eğitti (70M-16B parametre). Sonra optimal hesap-veri-parametre ilişkisini buldu:

" $N$ parametre ve $D$ token için optimal: $D \approx 20 N$ ."

Yani: 1B parametre için 20B token. GPT-3 (175B parametre) için optimal 3.5T token — gerçek 300B (10x az).

Chinchilla modeli

DeepMind'in Chinchilla modeli: 70B parametre, 1.4T token eğitim. Hesap bütçesi Gopher (280B parametre) ile aynı.

Performans: Chinchilla, Gopher'i her benchmark'ta geçti. Az parametre + çok veri = daha iyi.

Bu bulgu modern LLM ekonomisinin temel yasası oldu.

Etki — endüstri dönüşümü

Chinchilla yayımlandıktan sonra:

Llama 1 (2023): Chinchilla yasasını izledi. 7B-65B parametre, 1.4T token.
Llama 2 (2023): Daha da fazla veri.
Llama 3 (2024): 8B parametre, 15T token. Chinchilla optimum oranını aştı.
DeepSeek: Aynı felsefe.
Mistral: Aynı.

GPT-3 gibi büyük + az veri modelleri kaybetti. Küçük + çok veri kazandı.

"Veriden tükenmek" sorunu

Chinchilla bulgusu modern AI'da veri kıtlığı endişesini doğurdu. İnternette ne kadar text var?

Tahminler:

Common Crawl: ~10T token (temiz).
Bütün yüksek kaliteli internet: ~30-50T token.
Kitaplar, akademik makaleler: ~5T.

Modern modeller (Llama 3 8B 15T token) bu sınırına yakın. 2025-2027'de tükenebilir.

"Senthetic data" çözümü

Sınırı aşmak için modern strateji: modelin kendi ürettiği veri. Self-Instruct, Constitutional AI, dağıtık RL — hep sentetik.

GPT-4, Claude, Llama 3 — hepsi insan + sentetik veri karması ile eğitildi.

Sınırlamalar — Chinchilla'nın güncel durumu

Modern AI'da Chinchilla "öldü mü?" tartışılıyor:

Llama 3 8B 15T token: Chinchilla optimumu (160B) çok aştı. Yine de iyi performans.
DeepSeek V3 671B: Chinchilla yasasından sapıyor.
Test-time compute (o1): Bütçeyi başka yere koy — düşünme zamanına.

Modern eğilim: Chinchilla temel yasa ama tek değil. Test-time compute, sentetik veri, başka boyutlar var.

Kaplan vs Hoffmann tartışması

İki taraftan akademik dürüstlük tartışması:

Kaplan (OpenAI 2020): "Büyük model her şeydir."
Hoffmann (DeepMind 2022): "Veri eşit derecede önemli."

İki taraf da kendi deneylerinde haklıydı. Fark: Kaplan eğitim çizelgesinde sabit. Hoffmann optimize edilmiş.

Modern anlayış: ikisi de eksik. Test-time compute üçüncü boyut.

Sade ders

Chinchilla hikâyesinden iki şey:

Yanlış scaling kanunu pahalıdır. OpenAI GPT-3'ü Kaplan'la eğitti. Eğer Chinchilla'yı bilseydi, aynı bütçe ile çok daha iyi model çıkarırdı. Akademik düzeltmeler endüstri milyonlarına denk gelir.
Veri kıtlığı yaklaşan problemdir. Modern modeller internetin temiz veri sınırlarına yaklaşıyor. Sentetik veri ve test-time compute bu sınırı aşmak için.

Bağlam

Scaling laws için: [[scaling-laws-yapay-zekayi-buyuk-yapmak-icin-matematik-formul]]. Llama için: [[llama-mimarisi-modern-acik-llm-in-standart-yapisi]]. Mensch ve Chinchilla için: [[arthur-mensch-mistral-ai-nin-fransiz-kurucusu]]. Self-Instruct için: [[self-instruct-modelin-kendi-egitim-verisini-uretmesi]]. Test-time compute için: [[test-time-compute-aiya-dusunmek-icin-zaman-vermek]].

Chinchilla Yasaları: Veri mi, Parametre mi?

"Daha büyük model her zaman daha iyi" mı?

Chinchilla'nın bulgusu

Chinchilla modeli

Etki — endüstri dönüşümü

"Veriden tükenmek" sorunu

"Senthetic data" çözümü

Sınırlamalar — Chinchilla'nın güncel durumu

Kaplan vs Hoffmann tartışması

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü