Chinchilla Yasaları: Veri mi, Parametre mi?
DeepMind'in 2022'de yayımladığı, "GPT-3 aşırı büyük + az veriyle eğitilmiş" iddiası modern LLM ekonomisini değiştirdi.

"Daha büyük model her zaman daha iyi" mı?
OpenAI 2020'de Kaplan scaling laws yayımladı. Tez: model boyutu, veri, hesap büyütüldükçe performans öngörülebilir olarak artar.
Sonuç: GPT-3 175B parametre, 300B token. Çok büyük model, "yeterli" veri.
Mart 2022. DeepMind'dan Jordan Hoffmann ve ark. '"Training Compute-Optimal Large Language Models" makalesi yayımladı. Chinchilla modeli.
İddia: Kaplan yanılmış. GPT-3 modeli aşırı büyük, çok az veriyle eğitilmiş. Aynı hesap bütçesi farklı dağılırsa çok daha iyi model çıkar.
Chinchilla'nın bulgusu
DeepMind 400+ farklı boyutta model eğitti (70M-16B parametre). Sonra optimal hesap-veri-parametre ilişkisini buldu:
" parametre ve token için optimal: ."
Yani: 1B parametre için 20B token. GPT-3 (175B parametre) için optimal 3.5T token — gerçek 300B (10x az).
Chinchilla modeli
DeepMind'in Chinchilla modeli: 70B parametre, 1.4T token eğitim. Hesap bütçesi Gopher (280B parametre) ile aynı.
Performans: Chinchilla, Gopher'i her benchmark'ta geçti. Az parametre + çok veri = daha iyi.
Bu bulgu modern LLM ekonomisinin temel yasası oldu.
Etki — endüstri dönüşümü
Chinchilla yayımlandıktan sonra:
- Llama 1 (2023): Chinchilla yasasını izledi. 7B-65B parametre, 1.4T token.
- Llama 2 (2023): Daha da fazla veri.
- Llama 3 (2024): 8B parametre, 15T token. Chinchilla optimum oranını aştı.
- DeepSeek: Aynı felsefe.
- Mistral: Aynı.
GPT-3 gibi büyük + az veri modelleri kaybetti. Küçük + çok veri kazandı.
"Veriden tükenmek" sorunu
Chinchilla bulgusu modern AI'da veri kıtlığı endişesini doğurdu. İnternette ne kadar text var?
Tahminler:
- Common Crawl: ~10T token (temiz).
- Bütün yüksek kaliteli internet: ~30-50T token.
- Kitaplar, akademik makaleler: ~5T.
Modern modeller (Llama 3 8B 15T token) bu sınırına yakın. 2025-2027'de tükenebilir.
"Senthetic data" çözümü
Sınırı aşmak için modern strateji: modelin kendi ürettiği veri. Self-Instruct, Constitutional AI, dağıtık RL — hep sentetik.
GPT-4, Claude, Llama 3 — hepsi insan + sentetik veri karması ile eğitildi.
Sınırlamalar — Chinchilla'nın güncel durumu
Modern AI'da Chinchilla "öldü mü?" tartışılıyor:
- Llama 3 8B 15T token: Chinchilla optimumu (160B) çok aştı. Yine de iyi performans.
- DeepSeek V3 671B: Chinchilla yasasından sapıyor.
- Test-time compute (o1): Bütçeyi başka yere koy — düşünme zamanına.
Modern eğilim: Chinchilla temel yasa ama tek değil. Test-time compute, sentetik veri, başka boyutlar var.
Kaplan vs Hoffmann tartışması
İki taraftan akademik dürüstlük tartışması:
- Kaplan (OpenAI 2020): "Büyük model her şeydir."
- Hoffmann (DeepMind 2022): "Veri eşit derecede önemli."
İki taraf da kendi deneylerinde haklıydı. Fark: Kaplan eğitim çizelgesinde sabit. Hoffmann optimize edilmiş.
Modern anlayış: ikisi de eksik. Test-time compute üçüncü boyut.
Sade ders
Chinchilla hikâyesinden iki şey:
- Yanlış scaling kanunu pahalıdır. OpenAI GPT-3'ü Kaplan'la eğitti. Eğer Chinchilla'yı bilseydi, aynı bütçe ile çok daha iyi model çıkarırdı. Akademik düzeltmeler endüstri milyonlarına denk gelir.
- Veri kıtlığı yaklaşan problemdir. Modern modeller internetin temiz veri sınırlarına yaklaşıyor. Sentetik veri ve test-time compute bu sınırı aşmak için.
Bağlam
Scaling laws için: [[scaling-laws-yapay-zekayi-buyuk-yapmak-icin-matematik-formul]]. Llama için: [[llama-mimarisi-modern-acik-llm-in-standart-yapisi]]. Mensch ve Chinchilla için: [[arthur-mensch-mistral-ai-nin-fransiz-kurucusu]]. Self-Instruct için: [[self-instruct-modelin-kendi-egitim-verisini-uretmesi]]. Test-time compute için: [[test-time-compute-aiya-dusunmek-icin-zaman-vermek]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Chinchilla'nın ana bulgusu nedir?
2. GPT-3 Chinchilla'ya göre neydi?
3. Llama 3 Chinchilla'yı izliyor mu?
4. Veri kıtlığı problemi nedir?
5. Modern AI'da Chinchilla'nın yeri nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?