Quantization ne sağlar?

Parametre bit sayısını azaltarak model boyutunu küçültme (32→4 bit, 8× azalma)

4-bit quantize model + LoRA fine-tune; tek GPU'da 70B model fine-tune mümkün

Modern quantization'ın temel zorluğu nedir?

Outlier değerler — bazı kanallarda büyük değerler; sıradan quantization bozar

Quantized LLM'ler için pratik dosya formatı; llama.cpp standardı

Quantization'ın felsefi sezgisi nedir?

Model bilgisi parametrelerin yüksek hassasiyetinde değil, yapıda — derin öğrenmenin gereksiz hassasiyet keşfi

Quantization: Büyük Modelleri Cebinize Sığdırma Matematiği

"1.8 trilyon parametre = 7 TB"

GPT-4 yaklaşık 1.8 trilyon parametre. Her parametre 32-bit float = 4 byte.

$1.8 \times 10^{12} \times 4 = 7.2 \text{ TB}$

Modern enterprise GPU'da bile inanılmaz. Telefonunuza kesinlikle sığmaz.

Quantization: parametrelerin bit sayısını azaltmak.

32-bit float (FP32) → 16-bit float (FP16): 2× azalma.
16-bit → 8-bit integer (INT8): 4× azalma.
INT8 → 4-bit (INT4): 8× azalma.

Modern telefonlarda 7B parametreli model çalışıyor → 4-bit quantization.

Niçin işe yarıyor?

Sinir ağları aşırı parametrelendirilmiş. Bilgi redundant kodlanmış.

Düşük bitle:

Az hassasiyet: değer çözünürlüğü azalır.
Aynı kalite: kalite genelde çok az düşer.

Klasik yaklaşımlar

Symmetric quantization

$q = \text{round}\left(\frac{x}{s}\right), \quad x \approx q \cdot s$

$s$ = scale faktör.

Asymmetric quantization

$q = \text{round}\left(\frac{x - z}{s}\right) + z$

$z$ = zero-point.

Modern teknikler

Post-Training Quantization (PTQ)

Eğitim sonrası quantize. GPTQ, AWQ modern standart.

Quantization-Aware Training (QAT)

Eğitim sırasında quantize hatasını öğren. Daha iyi kalite ama yavaş eğitim.

Mixed-precision

Bazı katmanlar yüksek hassasiyetle, diğerleri düşük.

LLM.int8() (Dettmers 2022)

LLM'lerde outlier kanalları FP16, geri kalanı INT8.

QLoRA (Dettmers 2023)

4-bit quantized model + LoRA fine-tuning. Tek GPU'da 70B model fine-tune.

GGUF/GGML

Pratik dosya formatı. llama.cpp standardı.

Modern uygulamalar

1. Mobil AI

Apple Intelligence, Google AI Core — telefon üzerinde.

2. Açık kaynak modeller

LLaMA, Mistral, Qwen — quantized versiyonları.

3. Tüketici GPU'lar

RTX 4090, M3 Mac — quantize ile 70B model çalışır.

4. Bulut maliyeti

Quantize ile inference maliyeti çok düşer.

Donanım

Modern GPU'lar quantization için optimize:

NVIDIA Hopper: FP8 desteği.
NVIDIA Blackwell: FP4 desteği.
Apple Neural Engine: INT8 optimize.

Donanım + yazılım birlikte ilerliyor.

Sınırlamalar

4 bit altı: kalite ciddi düşer.
Outliers: bazı değerler çok büyük/küçük; sıradan quantization bozar.
Eğitim: quantization-aware training daha zor.
Activations: weights quantize edilse de activations FP16 olabilir.

Modern alternatifler

Pruning

Az önemli parametreleri çıkar.

Distillation

Büyük model → küçük model bilgi aktarımı.

Sparse models (MoE)

Önceki yazımız.

Felsefi anlamı

Quantization paradigması: "Model bilgisi parametrelerin yüksek hassasiyetinde değil, yapıda."

Modern derin öğrenmenin teorik bir keşfi — modellerin gereksiz hassasiyet içerdiği.

Sonuç

Quantization:

32-bit → 8-bit → 4-bit parametre temsili.
GPTQ, AWQ, QLoRA, GGUF modern teknikler.
Telefon, edge AI mümkün.
Donanım + yazılım birlikte gelişiyor.

Modern AI'nın her cihaza taşınmasının matematik temeli. Trilyon parametreli modeller cebimize sığıyor.

"Daha az bit, aynı zeka." Quantization'ın paradigması.