Modelin gereksiz ağırlıklarını sıfırlar — %50-90 azalır

Structured vs unstructured pruning?

Structured: filtre/kanal at — donanım hızlanır; unstructured: tek ağırlık — sıkıştırma daha yüksek

Lottery Ticket Hypothesis nedir?

Bir ağ içinde "şanslı bilet" alt-ağ — tek başına bütün ağ kadar iyi

Modern LLM pruning yöntemleri?

Wanda, SparseGPT, LLM Pruner — %50 seyreklik kabul edilebilir

Pruning + quantization birleşimi etkisi?

~20x küçültme — modern mobile AI standardı

Model Pruning: Fazlalığı Kesip Küçültmek

"Sinir ağında çok ağırlık var"

GPT-3 175B parametre. Llama 3 70B. Hepsi muazzam.

Tahminler:

Bir sinir ağının ağırlıklarının %50-90'ı gereksiz olabilir.
Sadece %10-50 kritik.

Bu gözlem pruning (budama) tekniğine yol açar.

Pruning türleri

1. Unstructured (yapısız)

Tek tek ağırlıkları sıfırla. Mesela en küçük %50 ağırlığı atla.

Avantaj: Yüksek sıkıştırma.
Dezavantaj: Donanım hızlanması yok (seyrek matris yavaş).

2. Structured (yapılı)

Tüm bir filtreyi veya kanalı kaldır.

Avantaj: Donanım hızlanır.
Dezavantaj: Daha az esnek.

3. Magnitude pruning

En basit: küçük büyüklüklü ağırlıkları sıfırla. Klasik yöntem.

4. SNIP, GraSP

Daha sofistike: ağırlığın gradient bilgisini kullan.

5. Lottery Ticket Hypothesis (2018)

Frankle ve Carbin: bir ağın içinde "şanslı bilet" alt-ağ var. Eğitim sonunda küçük alt-ağ bütün ağ kadar iyi.

Bu, modern pruning literatürünün temel teorik fikri.

Pratik etki

İyi pruning:

Model boyutu: 5-10x küçültme.
Çıkarım hızı: 2-5x.
Bellek: Yarıya iniş.
Kalite: %1-3 kayıp.

Modern mobile AI için kritik. Telefon, IoT, edge devices.

Modern LLM pruning

LLM'ler için pruning özel zor:

Çok büyük (70B+).
Eğitim sonrası pruning.
Kalite kaybı kabul edilemez.

Modern yöntemler:

Wanda (2023): Aktivasyon bilgisi kullanır.
SparseGPT: Tek seferli pruning.
LLM Pruner: Llama için özel.

Bu yöntemler %50 seyreklik kabul edilebilir.

Quantization ile birleşim

Pruning + quantization en güçlü kombinasyon:

Önce pruning (%50 seyreklik).
Sonra INT8 veya INT4 (4x sıkıştırma).
Toplam: 20x küçültme.

Modern mobil AI uygulamalarında standart.

Hardware destek

Modern donanım sparse modelleri doğal destekler:

NVIDIA Ampere ve sonrası: 2:4 sparse (her 4 ağırlıkta 2 sıfır).
AMD: Benzer.
Apple Neural Engine: Sparse uyumlu.

Yapılı pruning bu donanımdan hızlanır.

Sınırlamalar

Pruning sorunları:

Yeniden eğitim gerek: Pruned model bazen yeniden eğitilmeli.
Domain-spesifik: Bir görev için iyi pruning, başka göreve uymayabilir.
Yapısız vs yapılı dengesi: İkisi de mükemmel değil.

Sade ders

Pruning hikâyesinden iki şey:

Modeller fazlalık dolu. %50-90 ağırlık gereksiz. Bu, modern AI'da verimlilik biliminin temel bulgu.
Sıkıştırma cephesi bir ekosistem. Pruning + quantization + distillation birlikte. Modern mobile AI bu birleşimi kullanır.

Bağlam

Quantization için: [[quantization-buyuk-modelleri-cebinize-sigdirma-matematigi]]. Distillation için: [[knowledge-distillation-buyuk-modelin-bilgisini-kuck-modele-aktarma]]. Dettmers ve QLoRA için: [[tim-dettmers-modern-llmleri-tuketici-gpuda-calistiran-alman-arastirici]]. MoE için: [[mixture-of-experts-moe-genis-modeli-secici-olarak-calistirmak]]. AI enerji için: [[ai-enerji-ayak-izi-trilyon-tokenin-cevre-etkisi]].