Quantization: Büyük Modelleri Cebinize Sığdırma Matematiği
GPT-4 yaklaşık 1.8 trilyon parametre — 7 TB bellek gerektirir. Telefonunuza sığmaz. **Quantization**: 32 bit yerine 4 bit kullan. Boyut **8 kat azalır**, doğruluk **çok az** düşer. Modern AI'nın telefonlara taşınması.

"1.8 trilyon parametre = 7 TB"
GPT-4 yaklaşık 1.8 trilyon parametre. Her parametre 32-bit float = 4 byte.
Modern enterprise GPU'da bile inanılmaz. Telefonunuza kesinlikle sığmaz.
Quantization: parametrelerin bit sayısını azaltmak.
- 32-bit float (FP32) → 16-bit float (FP16): 2× azalma.
- 16-bit → 8-bit integer (INT8): 4× azalma.
- INT8 → 4-bit (INT4): 8× azalma.
Modern telefonlarda 7B parametreli model çalışıyor → 4-bit quantization.
Niçin işe yarıyor?
Sinir ağları aşırı parametrelendirilmiş. Bilgi redundant kodlanmış.
Düşük bitle:
- Az hassasiyet: değer çözünürlüğü azalır.
- Aynı kalite: kalite genelde çok az düşer.
Klasik yaklaşımlar
Symmetric quantization
= scale faktör.
Asymmetric quantization
= zero-point.
Modern teknikler
Post-Training Quantization (PTQ)
Eğitim sonrası quantize. GPTQ, AWQ modern standart.
Quantization-Aware Training (QAT)
Eğitim sırasında quantize hatasını öğren. Daha iyi kalite ama yavaş eğitim.
Mixed-precision
Bazı katmanlar yüksek hassasiyetle, diğerleri düşük.
LLM.int8() (Dettmers 2022)
LLM'lerde outlier kanalları FP16, geri kalanı INT8.
QLoRA (Dettmers 2023)
4-bit quantized model + LoRA fine-tuning. Tek GPU'da 70B model fine-tune.
GGUF/GGML
Pratik dosya formatı. llama.cpp standardı.
Modern uygulamalar
1. Mobil AI
Apple Intelligence, Google AI Core — telefon üzerinde.
2. Açık kaynak modeller
LLaMA, Mistral, Qwen — quantized versiyonları.
3. Tüketici GPU'lar
RTX 4090, M3 Mac — quantize ile 70B model çalışır.
4. Bulut maliyeti
Quantize ile inference maliyeti çok düşer.
Donanım
Modern GPU'lar quantization için optimize:
- NVIDIA Hopper: FP8 desteği.
- NVIDIA Blackwell: FP4 desteği.
- Apple Neural Engine: INT8 optimize.
Donanım + yazılım birlikte ilerliyor.
Sınırlamalar
- 4 bit altı: kalite ciddi düşer.
- Outliers: bazı değerler çok büyük/küçük; sıradan quantization bozar.
- Eğitim: quantization-aware training daha zor.
- Activations: weights quantize edilse de activations FP16 olabilir.
Modern alternatifler
Pruning
Az önemli parametreleri çıkar.
Distillation
Büyük model → küçük model bilgi aktarımı.
Sparse models (MoE)
Önceki yazımız.
Felsefi anlamı
Quantization paradigması: "Model bilgisi parametrelerin yüksek hassasiyetinde değil, yapıda."
Modern derin öğrenmenin teorik bir keşfi — modellerin gereksiz hassasiyet içerdiği.
Sonuç
Quantization:
- 32-bit → 8-bit → 4-bit parametre temsili.
- GPTQ, AWQ, QLoRA, GGUF modern teknikler.
- Telefon, edge AI mümkün.
- Donanım + yazılım birlikte gelişiyor.
Modern AI'nın her cihaza taşınmasının matematik temeli. Trilyon parametreli modeller cebimize sığıyor.
"Daha az bit, aynı zeka." Quantization'ın paradigması.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Quantization ne sağlar?
2. QLoRA ne yapar?
3. Modern quantization'ın temel zorluğu nedir?
4. GGUF formatı nedir?
5. Quantization'ın felsefi sezgisi nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?