Knowledge distillation ne yapar?

Büyük öğretmen modelinden küçük öğrenci modeline bilgi aktarımı

Soft labels ne demek?

Olasılık dağılımı (sınıflar arası ilişkiler yakalanır); öğretmen çıktısı

Modern KD'yi kim sistemleştirdi?

Hinton, Vinyals, Dean (2015): "Distilling the Knowledge in a Neural Network"

KD modern hangi modellerde kullanılır?

DistilBERT, Phi (Microsoft), Gemma (Google), DeepSeek-R1 distilled — modern küçük modeller

Temperature parametresi ne sağlar?

$T > 1$: yumuşak olasılık dağılımı — daha fazla bilgi öğrenciye aktarımı

Knowledge Distillation: Büyük Modelin Bilgisini Küçük Modele Aktarmak

"Trilyon parametre cebime sığmaz"

GPT-4 ~1.8 trilyon parametre. Cep telefonunuza kesinlikle sığmaz.

Küçük modeller (7B, 3B, 1B) yetersiz klasik eğitimle.

Knowledge distillation çözüm: küçük model, büyük öğretmenden öğrensin.

Resmi tanım

İki model:

Teacher (öğretmen): büyük, iyi.
Student (öğrenci): küçük.

Eğitim:

Öğretmenin çıktısı soft labels olarak.
Öğrenci bu olasılık dağılımını öğrenir.
Hard label (kategori) yerine olasılık vektörü.

Niçin işe yarar?

Hard label: "Bu kedidir." — kategorik.

Soft label: "Kedi 0.92, kaplan 0.05, köpek 0.02..." — olasılık dağılımı.

Bu dağılım çok daha bilgili. Sınıflar arasında ilişkiler yakalanır.

Öğrenci öğretmenden dağılımı kopyalayarak öğrenir.

Temperature

Klasik softmax çıktısı çok keskin. Temperature ile yumuşatılır:

$p_i = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}$

$T > 1$ : yumuşak dağılım. Daha fazla bilgi.

Hinton et al. (2015) orijinal makale.

Tarihsel köken

Bucila et al. (2006): model sıkıştırma fikrinin başlangıcı.
Hinton, Vinyals, Dean (2015): "Distilling the Knowledge in a Neural Network". Modern KD'nin başlangıcı.
DistilBERT (2019): BERT'in küçük versiyonu.

Modern uygulamalar

1. Küçük LLM'ler

DistilBERT: BERT'in %40 küçük versiyonu.
TinyBERT, MobileBERT.

2. Llama distilled

Modern open-source modellerin çoğu büyük modellerden distilled.

3. Phi serisi (Microsoft)

3B Phi modeli, GPT-4 seviyesinde dar performans.

4. Gemma (Google)

7B Gemma, Gemini'den distilled.

5. DeepSeek-R1 distilled

R1 reasoning yetenekleri 1.5B-70B modellerine distilled.

Teknikler

Soft target matching

Klasik Hinton tekniği.

Feature matching

Ara katman çıktılarını da eşle.

Attention transfer

Attention matrislerini eşle.

Self-distillation

Aynı model kendi büyük versiyonundan öğrenir.

Online distillation

Öğretmen ve öğrenci birlikte eğitilir.

Trade-off

Büyük öğretmen → küçük öğrenci: bilgi sıkıştırılır.
Performans düşer: ama az.
Hız artar: çok.
Maliyet düşer: çok.

Tipik: 10× küçük model, %95 performans.

Sınırlamalar

Sınır: öğrenci öğretmenden daha iyi olamaz (genelde).
Veri: öğretmenin etrafında veri gerek.
Görev-bağımlı: bazı görevler için iyi, diğerleri için değil.

Modern alanlar

Quantization-aware distillation

Quantize edilmiş öğrencinin kalitesini koru.

Multi-teacher distillation

Birden fazla öğretmen.

Reasoning distillation

Chain of thought'tan distilled.

Felsefi anlamı

KD: "Bilgi parametrelerde değil, dağılımda".

Öğretmenin "yumuşak" bilgisi öğrencinin küçük parametre alanına sığar.

Modern AI demokratikleşmesinin matematik temeli.

Sonuç

Knowledge distillation:

Büyük → küçük model bilgi aktarımı.
Hinton et al. (2015) modern başlangıç.
Soft labels + temperature klasik teknik.
DistilBERT, Phi, Gemma modern uygulamalar.
Edge AI'nın matematik temeli.

Modern open-source AI ekosisteminin görünmez tekniği. Her küçük açık kaynak modeli büyük bir öğretmenin damıtılmış bilgisi.

"Büyük öğretmen, küçük öğrenci, aynı bilgi." KD'nin paradigması.