Perplexity: Dil Modeli Değerlendirmesinin Eski Altın Standardı
Bir model bir metinde "ne kadar şaşırır?" sorusu, 60 yıldır dil modellemenin temel metriği. Sade ama derin.

"Ne kadar şaşırıyor?"
Bir dil modelini değerlendirmek için en eski ve hâlâ en temel metrik: perplexity (şaşkınlık). Sezgisel anlamı:
"Model bu metni okurken her adımda yaklaşık kaç eşit ihtimal arasından seçim yapıyor gibi?"
Düşük perplexity = model metin için iyi tahminci. Yüksek = model şaşıyor.
Matematik
Bir test metni . Model olasılık atıyor:
Bu olasılığın geometrik ortalaması:
Perplexity bu ortalamanın tersi:
Yani: negatif log-olasılığın ortalamasının üsteli. Bu cross-entropy'nin üsteli — bilgi teorisinden gelir.
Yorum
İdeal model her kelimeyi mükemmel tahmin eder: , PPL = 1.
Random tahmin (binary uniform): , PPL = 2.
Gerçek modeller arasında:
- n-gram (1980-2000): ~100-200 PPL (Penn Treebank).
- LSTM (2015): ~70 PPL.
- Transformer XL (2019): ~24 PPL.
- GPT-3 (2020): ~20 PPL.
- Modern GPT-4 sınıfı: ~6-8 PPL (tahmini).
Her halefe %30-50 azalma. Şu anki teorik alt sınır (insan tahmini ile aynı): ~5 PPL'in altında.
Bits per character (BPC)
Karakter düzeyinde dil modellerinde sıkça BPC kullanılır:
Sezgi: "her karakter için kaç bit gerek?" Random ASCII: 8 BPC. İyi model: 1.0-1.5 BPC. Shannon'un 1951 deneyi İngilizce karakter entropisini 1.3 bit olarak tahmin etmişti — bugünkü modeller bu sınıra yaklaşıyor.
Perplexity'nin gücü
Perplexity şu özelliklere sahiptir:
- Veri etkili. Tek bir test seti yeter; insan değerlendirici gerekmez.
- Karşılaştırılabilir. Aynı tokenizer ile modeller arası direkt karşılaştırma.
- Sürekli. Eğitim sırasında epoch başına ölçülür.
- Teorik temelli. Cross-entropy = KL divergence + entropy; bilgi teorisinde sağlam yerleşik.
Bu nedenle 1980'lerden 2020'lere kadar dil modelleme literatürünün tek standart metriği oldu.
Perplexity'nin sınırları
Modern LLM çağında perplexity zayıflıkları gösterdi:
1. Akıl yürütme ile zayıf korelasyon
Düşük perplexity, modelin matematik problemi çözebileceği anlamına gelmez. GPT-2 düşük perplexity ile bir paragraf yazabilir ama "27 × 13 = ?" hesaplayamaz. Reasoning ile perplexity farklı eksenler.
2. Görev başarısı ile uyumsuz
İki model: birinin PPL=15, diğerinin PPL=18. Soru-cevap görevinde ikincisi daha iyi olabilir. Perplexity "olasılık" ölçer; "doğruluk" değil.
3. Tokenizer bağımlı
Aynı modeli farklı tokenizerlerle karşılaştırırsanız PPL anlamsız. Llama 3 ile GPT-2'nin perplexity'lerini karşılaştıramazsınız.
4. RLHF sonrası bozulma
RLHF ile fine-tune edilmiş bir model, base modelinin PPL'sinden daha yüksek PPL alır. Çünkü model "olasılığa" değil, "yararlı/yardımcı" cevaba göre eğitildi. Yani modern hizalanmış modeller perplexity ile karşılaştırılamaz.
Modern alternatifler
Modern LLM değerlendirmesi benchmark koleksiyonları üzerinden yapılır:
- MMLU: 57 farklı konu, çoktan seçmeli.
- HumanEval: Python kod yazma.
- GSM8K: Matematik kelime problemleri.
- HellaSwag: Sağduyu tamamlama.
- TruthfulQA: Yanlış bilgi.
- MT-Bench: Çok turlu diyalog kalitesi.
Bunlar görev başarısını ölçer, perplexity'nin "olasılık" boyutunu değil.
Yine de perplexity ölmüş değil: pre-training'in sağlık kontrolü olarak hâlâ kullanılır. Eğitim eğrisini görselleştirirken her epoch sonrası ölçülür.
Klasik benzetme
Bir öğretmen bir öğrenciye boşluk doldurma testi verir: "Türkiye'nin __ İstanbul'dur". İyi öğrenci hemen "başkenti" yazar (yüksek olasılık). Zayıf öğrenci "büyük şehri", "merkezi", "tarihi yeri" gibi birkaç eşit alternatif düşünür (yayılmış olasılık).
Perplexity: öğrencinin kafasında "kaç olası kelime" bulunduğunun ölçüsü. Az = emin = düşük perplexity.
Sade ders
Perplexity hikâyesinden iki şey:
- Metrik tanımı görevini de tanımlar. Perplexity dil modellemeyi "sonraki kelime tahmini" olarak çerçeveledi; bu çerçeve 40 yıl modeli yönetti. Modern AI artık farklı metriklerle (görev başarısı) farklı çerçevede.
- Bilgi teorisi temeldir. Shannon'un 1948 çalışması bugünkü LLM değerlendirmesinin matematiksel temelinin temel taşı.
Bağlam
Bilgi teorisi için: [[shannon-bilgi-teorisi]], [[entropi-ve-belirsizlik]] (varsa). LLM değerlendirmesi için: [[mmlu-benchmark-llm-degerlendirmesi]] (varsa). Modern hizalama için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Cross-entropy için: [[cross-entropy-kayip-fonksiyonu]] (varsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Perplexity ne ölçer?
2. PPL=20 ne demek?
3. Modern LLM'de perplexity neden tek başına yetmez?
4. BPC nedir?
5. Perplexity'nin matematiksel temeli nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?