Model Pruning: Fazlalığı Kesip Küçültmek
Bir sinir ağının %90 ağırlığı gereksiz olabilir. Doğru pruning ile model 10x küçülürken performans aynı kalabilir.

"Sinir ağında çok ağırlık var"
GPT-3 175B parametre. Llama 3 70B. Hepsi muazzam.
Tahminler:
- Bir sinir ağının ağırlıklarının %50-90'ı gereksiz olabilir.
- Sadece %10-50 kritik.
Bu gözlem pruning (budama) tekniğine yol açar.
Pruning türleri
1. Unstructured (yapısız)
Tek tek ağırlıkları sıfırla. Mesela en küçük %50 ağırlığı atla.
Avantaj: Yüksek sıkıştırma.
Dezavantaj: Donanım hızlanması yok (seyrek matris yavaş).
2. Structured (yapılı)
Tüm bir filtreyi veya kanalı kaldır.
Avantaj: Donanım hızlanır.
Dezavantaj: Daha az esnek.
3. Magnitude pruning
En basit: küçük büyüklüklü ağırlıkları sıfırla. Klasik yöntem.
4. SNIP, GraSP
Daha sofistike: ağırlığın gradient bilgisini kullan.
5. Lottery Ticket Hypothesis (2018)
Frankle ve Carbin: bir ağın içinde "şanslı bilet" alt-ağ var. Eğitim sonunda küçük alt-ağ bütün ağ kadar iyi.
Bu, modern pruning literatürünün temel teorik fikri.
Pratik etki
İyi pruning:
- Model boyutu: 5-10x küçültme.
- Çıkarım hızı: 2-5x.
- Bellek: Yarıya iniş.
- Kalite: %1-3 kayıp.
Modern mobile AI için kritik. Telefon, IoT, edge devices.
Modern LLM pruning
LLM'ler için pruning özel zor:
- Çok büyük (70B+).
- Eğitim sonrası pruning.
- Kalite kaybı kabul edilemez.
Modern yöntemler:
- Wanda (2023): Aktivasyon bilgisi kullanır.
- SparseGPT: Tek seferli pruning.
- LLM Pruner: Llama için özel.
Bu yöntemler %50 seyreklik kabul edilebilir.
Quantization ile birleşim
Pruning + quantization en güçlü kombinasyon:
- Önce pruning (%50 seyreklik).
- Sonra INT8 veya INT4 (4x sıkıştırma).
- Toplam: 20x küçültme.
Modern mobil AI uygulamalarında standart.
Hardware destek
Modern donanım sparse modelleri doğal destekler:
- NVIDIA Ampere ve sonrası: 2:4 sparse (her 4 ağırlıkta 2 sıfır).
- AMD: Benzer.
- Apple Neural Engine: Sparse uyumlu.
Yapılı pruning bu donanımdan hızlanır.
Sınırlamalar
Pruning sorunları:
- Yeniden eğitim gerek: Pruned model bazen yeniden eğitilmeli.
- Domain-spesifik: Bir görev için iyi pruning, başka göreve uymayabilir.
- Yapısız vs yapılı dengesi: İkisi de mükemmel değil.
Sade ders
Pruning hikâyesinden iki şey:
- Modeller fazlalık dolu. %50-90 ağırlık gereksiz. Bu, modern AI'da verimlilik biliminin temel bulgu.
- Sıkıştırma cephesi bir ekosistem. Pruning + quantization + distillation birlikte. Modern mobile AI bu birleşimi kullanır.
Bağlam
Quantization için: [[quantization-buyuk-modelleri-cebinize-sigdirma-matematigi]]. Distillation için: [[knowledge-distillation-buyuk-modelin-bilgisini-kuck-modele-aktarma]]. Dettmers ve QLoRA için: [[tim-dettmers-modern-llmleri-tuketici-gpuda-calistiran-alman-arastirici]]. MoE için: [[mixture-of-experts-moe-genis-modeli-secici-olarak-calistirmak]]. AI enerji için: [[ai-enerji-ayak-izi-trilyon-tokenin-cevre-etkisi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Pruning ne yapar?
2. Structured vs unstructured pruning?
3. Lottery Ticket Hypothesis nedir?
4. Modern LLM pruning yöntemleri?
5. Pruning + quantization birleşimi etkisi?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?