Tüm yazılar
Matematik22 Şubat 2025

Model Pruning: Fazlalığı Kesip Küçültmek

Bir sinir ağının %90 ağırlığı gereksiz olabilir. Doğru pruning ile model 10x küçülürken performans aynı kalabilir.

Matematik Karavanı 5 dk okuma 5 soru
Bahçıvan makası — model pruning metaforu

"Sinir ağında çok ağırlık var"

GPT-3 175B parametre. Llama 3 70B. Hepsi muazzam.

Tahminler:

  • Bir sinir ağının ağırlıklarının %50-90'ı gereksiz olabilir.
  • Sadece %10-50 kritik.

Bu gözlem pruning (budama) tekniğine yol açar.

Pruning türleri

1. Unstructured (yapısız)

Tek tek ağırlıkları sıfırla. Mesela en küçük %50 ağırlığı atla.

Avantaj: Yüksek sıkıştırma.
Dezavantaj: Donanım hızlanması yok (seyrek matris yavaş).

2. Structured (yapılı)

Tüm bir filtreyi veya kanalı kaldır.

Avantaj: Donanım hızlanır.
Dezavantaj: Daha az esnek.

3. Magnitude pruning

En basit: küçük büyüklüklü ağırlıkları sıfırla. Klasik yöntem.

4. SNIP, GraSP

Daha sofistike: ağırlığın gradient bilgisini kullan.

5. Lottery Ticket Hypothesis (2018)

Frankle ve Carbin: bir ağın içinde "şanslı bilet" alt-ağ var. Eğitim sonunda küçük alt-ağ bütün ağ kadar iyi.

Bu, modern pruning literatürünün temel teorik fikri.

Pratik etki

İyi pruning:

  • Model boyutu: 5-10x küçültme.
  • Çıkarım hızı: 2-5x.
  • Bellek: Yarıya iniş.
  • Kalite: %1-3 kayıp.

Modern mobile AI için kritik. Telefon, IoT, edge devices.

Modern LLM pruning

LLM'ler için pruning özel zor:

  • Çok büyük (70B+).
  • Eğitim sonrası pruning.
  • Kalite kaybı kabul edilemez.

Modern yöntemler:

  • Wanda (2023): Aktivasyon bilgisi kullanır.
  • SparseGPT: Tek seferli pruning.
  • LLM Pruner: Llama için özel.

Bu yöntemler %50 seyreklik kabul edilebilir.

Quantization ile birleşim

Pruning + quantization en güçlü kombinasyon:

  • Önce pruning (%50 seyreklik).
  • Sonra INT8 veya INT4 (4x sıkıştırma).
  • Toplam: 20x küçültme.

Modern mobil AI uygulamalarında standart.

Hardware destek

Modern donanım sparse modelleri doğal destekler:

  • NVIDIA Ampere ve sonrası: 2:4 sparse (her 4 ağırlıkta 2 sıfır).
  • AMD: Benzer.
  • Apple Neural Engine: Sparse uyumlu.

Yapılı pruning bu donanımdan hızlanır.

Sınırlamalar

Pruning sorunları:

  1. Yeniden eğitim gerek: Pruned model bazen yeniden eğitilmeli.
  2. Domain-spesifik: Bir görev için iyi pruning, başka göreve uymayabilir.
  3. Yapısız vs yapılı dengesi: İkisi de mükemmel değil.

Sade ders

Pruning hikâyesinden iki şey:

  1. Modeller fazlalık dolu. %50-90 ağırlık gereksiz. Bu, modern AI'da verimlilik biliminin temel bulgu.
  2. Sıkıştırma cephesi bir ekosistem. Pruning + quantization + distillation birlikte. Modern mobile AI bu birleşimi kullanır.

Bağlam

Quantization için: [[quantization-buyuk-modelleri-cebinize-sigdirma-matematigi]]. Distillation için: [[knowledge-distillation-buyuk-modelin-bilgisini-kuck-modele-aktarma]]. Dettmers ve QLoRA için: [[tim-dettmers-modern-llmleri-tuketici-gpuda-calistiran-alman-arastirici]]. MoE için: [[mixture-of-experts-moe-genis-modeli-secici-olarak-calistirmak]]. AI enerji için: [[ai-enerji-ayak-izi-trilyon-tokenin-cevre-etkisi]].

Etiketler

pruningmodel sıkıştırmasparse modelverimli AIinference

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Pruning ne yapar?

2. Structured vs unstructured pruning?

3. Lottery Ticket Hypothesis nedir?

4. Modern LLM pruning yöntemleri?

5. Pruning + quantization birleşimi etkisi?