Perplexity ne ölçer?

Modelin metni tahmin ederken ortalama kaç eşit olasılık arasında "şaştığını" — negatif log-olasılığın üsteli

Model her tokende ortalama 20 eşit olasılık arasından seçiyormuş gibi şaşıyor

Modern LLM'de perplexity neden tek başına yetmez?

Akıl yürütmeyle zayıf korele, tokenizer bağımlı, RLHF sonrası bozulur, görev başarısını ölçmez

Bits Per Character — karakter başına bit; Shannon 1951 İngilizce için 1.3 bit tahmin etti

Perplexity'nin matematiksel temeli nedir?

Cross-entropy ve bilgi teorisi — Shannon'un 1948 çalışmasından gelir

Perplexity: Dil Modeli Değerlendirmesinin Eski Altın Standardı

"Ne kadar şaşırıyor?"

Bir dil modelini değerlendirmek için en eski ve hâlâ en temel metrik: perplexity (şaşkınlık). Sezgisel anlamı:

"Model bu metni okurken her adımda yaklaşık kaç eşit ihtimal arasından seçim yapıyor gibi?"

Düşük perplexity = model metin için iyi tahminci. Yüksek = model şaşıyor.

Matematik

Bir test metni $w_1, w_2, \ldots, w_N$ . Model olasılık atıyor:

P(w_1, w_2, \ldots, w_N) = \prod_i P(w_i | w_{<i})

Bu olasılığın geometrik ortalaması:

\bar{P} = P(w_1, \ldots, w_N)^{1/N}

Perplexity bu ortalamanın tersi:

\text{PPL} = \bar{P}^{-1} = \exp\left(-\frac{1}{N} \sum_i \log P(w_i | w_{<i})\right)

Yani: negatif log-olasılığın ortalamasının üsteli. Bu cross-entropy'nin üsteli — bilgi teorisinden gelir.

Yorum

İdeal model her kelimeyi mükemmel tahmin eder: $P = 1$ , PPL = 1.

Random tahmin (binary uniform): $P = 0.5$ , PPL = 2.

Gerçek modeller arasında:

n-gram (1980-2000): ~100-200 PPL (Penn Treebank).
LSTM (2015): ~70 PPL.
Transformer XL (2019): ~24 PPL.
GPT-3 (2020): ~20 PPL.
Modern GPT-4 sınıfı: ~6-8 PPL (tahmini).

Her halefe %30-50 azalma. Şu anki teorik alt sınır (insan tahmini ile aynı): ~5 PPL'in altında.

Bits per character (BPC)

Karakter düzeyinde dil modellerinde sıkça BPC kullanılır:

\text{BPC} = \frac{1}{N \ln 2} \sum_i -\log P(c_i | c_{<i})

Sezgi: "her karakter için kaç bit gerek?" Random ASCII: 8 BPC. İyi model: 1.0-1.5 BPC. Shannon'un 1951 deneyi İngilizce karakter entropisini 1.3 bit olarak tahmin etmişti — bugünkü modeller bu sınıra yaklaşıyor.

Perplexity'nin gücü

Perplexity şu özelliklere sahiptir:

Veri etkili. Tek bir test seti yeter; insan değerlendirici gerekmez.
Karşılaştırılabilir. Aynı tokenizer ile modeller arası direkt karşılaştırma.
Sürekli. Eğitim sırasında epoch başına ölçülür.
Teorik temelli. Cross-entropy = KL divergence + entropy; bilgi teorisinde sağlam yerleşik.

Bu nedenle 1980'lerden 2020'lere kadar dil modelleme literatürünün tek standart metriği oldu.

Perplexity'nin sınırları

Modern LLM çağında perplexity zayıflıkları gösterdi:

1. Akıl yürütme ile zayıf korelasyon

Düşük perplexity, modelin matematik problemi çözebileceği anlamına gelmez. GPT-2 düşük perplexity ile bir paragraf yazabilir ama "27 × 13 = ?" hesaplayamaz. Reasoning ile perplexity farklı eksenler.

2. Görev başarısı ile uyumsuz

İki model: birinin PPL=15, diğerinin PPL=18. Soru-cevap görevinde ikincisi daha iyi olabilir. Perplexity "olasılık" ölçer; "doğruluk" değil.

3. Tokenizer bağımlı

Aynı modeli farklı tokenizerlerle karşılaştırırsanız PPL anlamsız. Llama 3 ile GPT-2'nin perplexity'lerini karşılaştıramazsınız.

4. RLHF sonrası bozulma

RLHF ile fine-tune edilmiş bir model, base modelinin PPL'sinden daha yüksek PPL alır. Çünkü model "olasılığa" değil, "yararlı/yardımcı" cevaba göre eğitildi. Yani modern hizalanmış modeller perplexity ile karşılaştırılamaz.

Modern alternatifler

Modern LLM değerlendirmesi benchmark koleksiyonları üzerinden yapılır:

MMLU: 57 farklı konu, çoktan seçmeli.
HumanEval: Python kod yazma.
GSM8K: Matematik kelime problemleri.
HellaSwag: Sağduyu tamamlama.
TruthfulQA: Yanlış bilgi.
MT-Bench: Çok turlu diyalog kalitesi.

Bunlar görev başarısını ölçer, perplexity'nin "olasılık" boyutunu değil.

Yine de perplexity ölmüş değil: pre-training'in sağlık kontrolü olarak hâlâ kullanılır. Eğitim eğrisini görselleştirirken her epoch sonrası ölçülür.

Klasik benzetme

Bir öğretmen bir öğrenciye boşluk doldurma testi verir: "Türkiye'nin __ İstanbul'dur". İyi öğrenci hemen "başkenti" yazar (yüksek olasılık). Zayıf öğrenci "büyük şehri", "merkezi", "tarihi yeri" gibi birkaç eşit alternatif düşünür (yayılmış olasılık).

Perplexity: öğrencinin kafasında "kaç olası kelime" bulunduğunun ölçüsü. Az = emin = düşük perplexity.

Sade ders

Perplexity hikâyesinden iki şey:

Metrik tanımı görevini de tanımlar. Perplexity dil modellemeyi "sonraki kelime tahmini" olarak çerçeveledi; bu çerçeve 40 yıl modeli yönetti. Modern AI artık farklı metriklerle (görev başarısı) farklı çerçevede.
Bilgi teorisi temeldir. Shannon'un 1948 çalışması bugünkü LLM değerlendirmesinin matematiksel temelinin temel taşı.

Bağlam

Bilgi teorisi için: [[shannon-bilgi-teorisi]], [[entropi-ve-belirsizlik]] (varsa). LLM değerlendirmesi için: [[mmlu-benchmark-llm-degerlendirmesi]] (varsa). Modern hizalama için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Cross-entropy için: [[cross-entropy-kayip-fonksiyonu]] (varsa).