Knowledge Distillation: Büyük Modelin Bilgisini Küçük Modele Aktarmak
GPT-4 trilyon parametre — telefonunuza sığmaz. Küçük model yetersiz. **Çözüm**: büyük modeli **öğretmen**, küçüğü **öğrenci** yap. Öğrenci öğretmenden öğrenir. Modern Llama, Phi, Gemma serilerinin matematik temeli.

"Trilyon parametre cebime sığmaz"
GPT-4 ~1.8 trilyon parametre. Cep telefonunuza kesinlikle sığmaz.
Küçük modeller (7B, 3B, 1B) yetersiz klasik eğitimle.
Knowledge distillation çözüm: küçük model, büyük öğretmenden öğrensin.
Resmi tanım
İki model:
- Teacher (öğretmen): büyük, iyi.
- Student (öğrenci): küçük.
Eğitim:
- Öğretmenin çıktısı soft labels olarak.
- Öğrenci bu olasılık dağılımını öğrenir.
- Hard label (kategori) yerine olasılık vektörü.
Niçin işe yarar?
Hard label: "Bu kedidir." — kategorik.
Soft label: "Kedi 0.92, kaplan 0.05, köpek 0.02..." — olasılık dağılımı.
Bu dağılım çok daha bilgili. Sınıflar arasında ilişkiler yakalanır.
Öğrenci öğretmenden dağılımı kopyalayarak öğrenir.
Temperature
Klasik softmax çıktısı çok keskin. Temperature ile yumuşatılır:
: yumuşak dağılım. Daha fazla bilgi.
Hinton et al. (2015) orijinal makale.
Tarihsel köken
- Bucila et al. (2006): model sıkıştırma fikrinin başlangıcı.
- Hinton, Vinyals, Dean (2015): "Distilling the Knowledge in a Neural Network". Modern KD'nin başlangıcı.
- DistilBERT (2019): BERT'in küçük versiyonu.
Modern uygulamalar
1. Küçük LLM'ler
- DistilBERT: BERT'in %40 küçük versiyonu.
- TinyBERT, MobileBERT.
2. Llama distilled
Modern open-source modellerin çoğu büyük modellerden distilled.
3. Phi serisi (Microsoft)
3B Phi modeli, GPT-4 seviyesinde dar performans.
4. Gemma (Google)
7B Gemma, Gemini'den distilled.
5. DeepSeek-R1 distilled
R1 reasoning yetenekleri 1.5B-70B modellerine distilled.
Teknikler
Soft target matching
Klasik Hinton tekniği.
Feature matching
Ara katman çıktılarını da eşle.
Attention transfer
Attention matrislerini eşle.
Self-distillation
Aynı model kendi büyük versiyonundan öğrenir.
Online distillation
Öğretmen ve öğrenci birlikte eğitilir.
Trade-off
- Büyük öğretmen → küçük öğrenci: bilgi sıkıştırılır.
- Performans düşer: ama az.
- Hız artar: çok.
- Maliyet düşer: çok.
Tipik: 10× küçük model, %95 performans.
Sınırlamalar
- Sınır: öğrenci öğretmenden daha iyi olamaz (genelde).
- Veri: öğretmenin etrafında veri gerek.
- Görev-bağımlı: bazı görevler için iyi, diğerleri için değil.
Modern alanlar
Quantization-aware distillation
Quantize edilmiş öğrencinin kalitesini koru.
Multi-teacher distillation
Birden fazla öğretmen.
Reasoning distillation
Chain of thought'tan distilled.
Felsefi anlamı
KD: "Bilgi parametrelerde değil, dağılımda".
Öğretmenin "yumuşak" bilgisi öğrencinin küçük parametre alanına sığar.
Modern AI demokratikleşmesinin matematik temeli.
Sonuç
Knowledge distillation:
- Büyük → küçük model bilgi aktarımı.
- Hinton et al. (2015) modern başlangıç.
- Soft labels + temperature klasik teknik.
- DistilBERT, Phi, Gemma modern uygulamalar.
- Edge AI'nın matematik temeli.
Modern open-source AI ekosisteminin görünmez tekniği. Her küçük açık kaynak modeli büyük bir öğretmenin damıtılmış bilgisi.
"Büyük öğretmen, küçük öğrenci, aynı bilgi." KD'nin paradigması.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Knowledge distillation ne yapar?
2. Soft labels ne demek?
3. Modern KD'yi kim sistemleştirdi?
4. KD modern hangi modellerde kullanılır?
5. Temperature parametresi ne sağlar?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?