Scaling laws neyi söyler?

Model loss'u parametre, veri ve hesap ile güç yasası ilişkide

Chinchilla'nın (2022) bulgusu nedir?

Veri ve parametre eşit oranda ölçeklenmeli; mevcut LLM'ler yetersiz eğitilmiş

Modern Llama 3 (2024) ne gösterdi?

Chinchilla'dan bile daha fazla veri kullanılabilir: 15T token + 8B parametre

Scaling laws tartışması ne?

"Ölçek her şey" (Karpathy, Sutskever) vs "Yeni mimari gerekli" (LeCun, Bengio)

Scaling laws'in felsefi sonucu?

"AI mimari ilerlemesi değil, ölçek" — mühendislik sorunu, bilim sorunu değil

Scaling Laws: Yapay Zekayı Daha Büyük Yapmak İçin Matematiksel Formül

"Daha büyük = daha iyi — ölçülebilir miktarda"

2020'den önce: "Daha büyük model daha iyi mi?" — belirsiz.

Kaplan et al. (OpenAI, 2020): ölçülebilir cevap.

Scaling laws: model kaybı (loss) ile model parametre sayısı (N), veri (D), hesap (C) arasında güç yasası ilişki.

$L(N) = (N_c / N)^{\alpha_N}$

Yani: $N$ 'yi 10× artırırsanız, kayıp belirli bir miktarda azalır.

Kaplan et al. (2020)

İlk büyük scaling laws makalesi. OpenAI GPT-3 öncesi araştırma.

Bulgular:

Parametre + veri + hesap: hepsi önemli.
Veri görece az: parametre + hesap baskın.

Hoffmann et al. (Chinchilla, 2022)

Google DeepMind'in devrim niteliğindeki makalesi:

Mevcut LLM'ler "yetersiz eğitilmiş"!

Chinchilla iddiası: veri ve parametre eşit oranda ölçeklenmeli.

GPT-3 (175B parametre, 300B token): çok az veri.
Chinchilla (70B parametre, 1.4T token): doğru oran.

Sonuç: Chinchilla GPT-3'ten daha iyi.

Modern güncellemeler

Llama 3 (2024, Meta): Chinchilla'nın bile daha fazla veri kullanılabileceğini gösterdi.

15T token + 8B parametre = "yetersiz eğitilmiş" değil — modern paradigma.

Felsefi anlamı

Scaling laws:

"AI mimari ilerlemesi değil, ölçek".
"Mühendislik sorunu, bilim sorunu değil".

Modern AI yatırımının matematik gerekçesi: scaling laws.

Tartışmalı yön

Scaling agnostisizm:

"Ölçek her şey" (Karpathy, Sutskever).
"Yeni mimari gerekiyor" (LeCun, Bengio).

Modern AI felsefesinin temel ayrımı.

Modern alanlar

Data scaling

Internet verisi tükeniyor mu? Synthetic data önemli.

Compute scaling

GPU üretimi sınırlı. Nvidia tekel.

Algorithm scaling

Daha verimli mimari (MoE, sparse).

Test-time compute scaling

Yeni boyut: düşünme zamanı (önceki yazımız).

Sınırlamalar

Asymptote: nereye kadar?
Veri kalitesi: niceli? niteli?
Görev-bağımlı: bazı yetenekler scaling ile gelmez.
Cost-benefit: 10× hesap için ne kadar iyileşme?

Sonuç

Scaling laws:

Model boyutu, veri, hesap güç yasası ilişki.
Kaplan et al. (2020) modern başlangıç.
Chinchilla (2022) veri-parametre dengesi.
Modern AI yatırımının matematik temeli.

Modern AI tarihinin temel matematik yasalarından. Trilyon dolar yatırımının matematik gerekçesi.

"Büyük = daha iyi, matematiksel olarak." Scaling laws'un paradigması.