Tüm yazılar
Matematik4 Eylül 2025

Knowledge Distillation: Büyük Modelin Bilgisini Küçük Modele Aktarmak

GPT-4 trilyon parametre — telefonunuza sığmaz. Küçük model yetersiz. **Çözüm**: büyük modeli **öğretmen**, küçüğü **öğrenci** yap. Öğrenci öğretmenden öğrenir. Modern Llama, Phi, Gemma serilerinin matematik temeli.

Matematik Karavanı Editörü 4 dk okuma 5 soru
Sınıf tahtası — öğretmen-öğrenci metaforu

"Trilyon parametre cebime sığmaz"

GPT-4 ~1.8 trilyon parametre. Cep telefonunuza kesinlikle sığmaz.

Küçük modeller (7B, 3B, 1B) yetersiz klasik eğitimle.

Knowledge distillation çözüm: küçük model, büyük öğretmenden öğrensin.

Resmi tanım

İki model:

  • Teacher (öğretmen): büyük, iyi.
  • Student (öğrenci): küçük.

Eğitim:

  • Öğretmenin çıktısı soft labels olarak.
  • Öğrenci bu olasılık dağılımını öğrenir.
  • Hard label (kategori) yerine olasılık vektörü.

Niçin işe yarar?

Hard label: "Bu kedidir." — kategorik.

Soft label: "Kedi 0.92, kaplan 0.05, köpek 0.02..." — olasılık dağılımı.

Bu dağılım çok daha bilgili. Sınıflar arasında ilişkiler yakalanır.

Öğrenci öğretmenden dağılımı kopyalayarak öğrenir.

Temperature

Klasik softmax çıktısı çok keskin. Temperature ile yumuşatılır:

pi=exp(zi/T)jexp(zj/T)p_i = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}

T>1T > 1: yumuşak dağılım. Daha fazla bilgi.

Hinton et al. (2015) orijinal makale.

Tarihsel köken

  • Bucila et al. (2006): model sıkıştırma fikrinin başlangıcı.
  • Hinton, Vinyals, Dean (2015): "Distilling the Knowledge in a Neural Network". Modern KD'nin başlangıcı.
  • DistilBERT (2019): BERT'in küçük versiyonu.

Modern uygulamalar

1. Küçük LLM'ler

  • DistilBERT: BERT'in %40 küçük versiyonu.
  • TinyBERT, MobileBERT.

2. Llama distilled

Modern open-source modellerin çoğu büyük modellerden distilled.

3. Phi serisi (Microsoft)

3B Phi modeli, GPT-4 seviyesinde dar performans.

4. Gemma (Google)

7B Gemma, Gemini'den distilled.

5. DeepSeek-R1 distilled

R1 reasoning yetenekleri 1.5B-70B modellerine distilled.

Teknikler

Soft target matching

Klasik Hinton tekniği.

Feature matching

Ara katman çıktılarını da eşle.

Attention transfer

Attention matrislerini eşle.

Self-distillation

Aynı model kendi büyük versiyonundan öğrenir.

Online distillation

Öğretmen ve öğrenci birlikte eğitilir.

Trade-off

  • Büyük öğretmen → küçük öğrenci: bilgi sıkıştırılır.
  • Performans düşer: ama az.
  • Hız artar: çok.
  • Maliyet düşer: çok.

Tipik: 10× küçük model, %95 performans.

Sınırlamalar

  • Sınır: öğrenci öğretmenden daha iyi olamaz (genelde).
  • Veri: öğretmenin etrafında veri gerek.
  • Görev-bağımlı: bazı görevler için iyi, diğerleri için değil.

Modern alanlar

Quantization-aware distillation

Quantize edilmiş öğrencinin kalitesini koru.

Multi-teacher distillation

Birden fazla öğretmen.

Reasoning distillation

Chain of thought'tan distilled.

Felsefi anlamı

KD: "Bilgi parametrelerde değil, dağılımda".

Öğretmenin "yumuşak" bilgisi öğrencinin küçük parametre alanına sığar.

Modern AI demokratikleşmesinin matematik temeli.

Sonuç

Knowledge distillation:

  • Büyük → küçük model bilgi aktarımı.
  • Hinton et al. (2015) modern başlangıç.
  • Soft labels + temperature klasik teknik.
  • DistilBERT, Phi, Gemma modern uygulamalar.
  • Edge AI'nın matematik temeli.

Modern open-source AI ekosisteminin görünmez tekniği. Her küçük açık kaynak modeli büyük bir öğretmenin damıtılmış bilgisi.

"Büyük öğretmen, küçük öğrenci, aynı bilgi." KD'nin paradigması.

Etiketler

distillationknowledge distillationküçük modellerHintonmodern AI

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Knowledge distillation ne yapar?

2. Soft labels ne demek?

3. Modern KD'yi kim sistemleştirdi?

4. KD modern hangi modellerde kullanılır?

5. Temperature parametresi ne sağlar?