Tüm yazılar
Matematik31 Ağustos 2025

Quantization: Büyük Modelleri Cebinize Sığdırma Matematiği

GPT-4 yaklaşık 1.8 trilyon parametre — 7 TB bellek gerektirir. Telefonunuza sığmaz. **Quantization**: 32 bit yerine 4 bit kullan. Boyut **8 kat azalır**, doğruluk **çok az** düşer. Modern AI'nın telefonlara taşınması.

Matematik Karavanı Editörü 4 dk okuma 5 soru
Mozaik taşları — düşük bitli temsil metaforu

"1.8 trilyon parametre = 7 TB"

GPT-4 yaklaşık 1.8 trilyon parametre. Her parametre 32-bit float = 4 byte.

1.8×1012×4=7.2 TB1.8 \times 10^{12} \times 4 = 7.2 \text{ TB}

Modern enterprise GPU'da bile inanılmaz. Telefonunuza kesinlikle sığmaz.

Quantization: parametrelerin bit sayısını azaltmak.

  • 32-bit float (FP32) → 16-bit float (FP16): 2× azalma.
  • 16-bit8-bit integer (INT8): 4× azalma.
  • INT84-bit (INT4): 8× azalma.

Modern telefonlarda 7B parametreli model çalışıyor → 4-bit quantization.

Niçin işe yarıyor?

Sinir ağları aşırı parametrelendirilmiş. Bilgi redundant kodlanmış.

Düşük bitle:

  • Az hassasiyet: değer çözünürlüğü azalır.
  • Aynı kalite: kalite genelde çok az düşer.

Klasik yaklaşımlar

Symmetric quantization

q=round(xs),xqsq = \text{round}\left(\frac{x}{s}\right), \quad x \approx q \cdot s

ss = scale faktör.

Asymmetric quantization

q=round(xzs)+zq = \text{round}\left(\frac{x - z}{s}\right) + z

zz = zero-point.

Modern teknikler

Post-Training Quantization (PTQ)

Eğitim sonrası quantize. GPTQ, AWQ modern standart.

Quantization-Aware Training (QAT)

Eğitim sırasında quantize hatasını öğren. Daha iyi kalite ama yavaş eğitim.

Mixed-precision

Bazı katmanlar yüksek hassasiyetle, diğerleri düşük.

LLM.int8() (Dettmers 2022)

LLM'lerde outlier kanalları FP16, geri kalanı INT8.

QLoRA (Dettmers 2023)

4-bit quantized model + LoRA fine-tuning. Tek GPU'da 70B model fine-tune.

GGUF/GGML

Pratik dosya formatı. llama.cpp standardı.

Modern uygulamalar

1. Mobil AI

Apple Intelligence, Google AI Core — telefon üzerinde.

2. Açık kaynak modeller

LLaMA, Mistral, Qwen — quantized versiyonları.

3. Tüketici GPU'lar

RTX 4090, M3 Mac — quantize ile 70B model çalışır.

4. Bulut maliyeti

Quantize ile inference maliyeti çok düşer.

Donanım

Modern GPU'lar quantization için optimize:

  • NVIDIA Hopper: FP8 desteği.
  • NVIDIA Blackwell: FP4 desteği.
  • Apple Neural Engine: INT8 optimize.

Donanım + yazılım birlikte ilerliyor.

Sınırlamalar

  • 4 bit altı: kalite ciddi düşer.
  • Outliers: bazı değerler çok büyük/küçük; sıradan quantization bozar.
  • Eğitim: quantization-aware training daha zor.
  • Activations: weights quantize edilse de activations FP16 olabilir.

Modern alternatifler

Pruning

Az önemli parametreleri çıkar.

Distillation

Büyük model → küçük model bilgi aktarımı.

Sparse models (MoE)

Önceki yazımız.

Felsefi anlamı

Quantization paradigması: "Model bilgisi parametrelerin yüksek hassasiyetinde değil, yapıda."

Modern derin öğrenmenin teorik bir keşfi — modellerin gereksiz hassasiyet içerdiği.

Sonuç

Quantization:

  • 32-bit → 8-bit → 4-bit parametre temsili.
  • GPTQ, AWQ, QLoRA, GGUF modern teknikler.
  • Telefon, edge AI mümkün.
  • Donanım + yazılım birlikte gelişiyor.

Modern AI'nın her cihaza taşınmasının matematik temeli. Trilyon parametreli modeller cebimize sığıyor.

"Daha az bit, aynı zeka." Quantization'ın paradigması.

Etiketler

quantizationmodel sıkıştırmaINT8modern AIedge computing

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Quantization ne sağlar?

2. QLoRA ne yapar?

3. Modern quantization'ın temel zorluğu nedir?

4. GGUF formatı nedir?

5. Quantization'ın felsefi sezgisi nedir?