Tüm yazılar
Matematik10 Haziran 2025

Perplexity: Dil Modeli Değerlendirmesinin Eski Altın Standardı

Bir model bir metinde "ne kadar şaşırır?" sorusu, 60 yıldır dil modellemenin temel metriği. Sade ama derin.

Matematik Karavanı 6 dk okuma 5 soru
Ölçüm cetveli — dil modelinin metriksel değerlendirmesi

"Ne kadar şaşırıyor?"

Bir dil modelini değerlendirmek için en eski ve hâlâ en temel metrik: perplexity (şaşkınlık). Sezgisel anlamı:

"Model bu metni okurken her adımda yaklaşık kaç eşit ihtimal arasından seçim yapıyor gibi?"

Düşük perplexity = model metin için iyi tahminci. Yüksek = model şaşıyor.

Matematik

Bir test metni w1,w2,,wNw_1, w_2, \ldots, w_N. Model olasılık atıyor:

P(w1,w2,,wN)=iP(wiw<i)P(w_1, w_2, \ldots, w_N) = \prod_i P(w_i | w_{<i})

Bu olasılığın geometrik ortalaması:

Pˉ=P(w1,,wN)1/N\bar{P} = P(w_1, \ldots, w_N)^{1/N}

Perplexity bu ortalamanın tersi:

PPL=Pˉ1=exp(1NilogP(wiw<i))\text{PPL} = \bar{P}^{-1} = \exp\left(-\frac{1}{N} \sum_i \log P(w_i | w_{<i})\right)

Yani: negatif log-olasılığın ortalamasının üsteli. Bu cross-entropy'nin üsteli — bilgi teorisinden gelir.

Yorum

İdeal model her kelimeyi mükemmel tahmin eder: P=1P = 1, PPL = 1.

Random tahmin (binary uniform): P=0.5P = 0.5, PPL = 2.

Gerçek modeller arasında:

  • n-gram (1980-2000): ~100-200 PPL (Penn Treebank).
  • LSTM (2015): ~70 PPL.
  • Transformer XL (2019): ~24 PPL.
  • GPT-3 (2020): ~20 PPL.
  • Modern GPT-4 sınıfı: ~6-8 PPL (tahmini).

Her halefe %30-50 azalma. Şu anki teorik alt sınır (insan tahmini ile aynı): ~5 PPL'in altında.

Bits per character (BPC)

Karakter düzeyinde dil modellerinde sıkça BPC kullanılır:

BPC=1Nln2ilogP(cic<i)\text{BPC} = \frac{1}{N \ln 2} \sum_i -\log P(c_i | c_{<i})

Sezgi: "her karakter için kaç bit gerek?" Random ASCII: 8 BPC. İyi model: 1.0-1.5 BPC. Shannon'un 1951 deneyi İngilizce karakter entropisini 1.3 bit olarak tahmin etmişti — bugünkü modeller bu sınıra yaklaşıyor.

Perplexity'nin gücü

Perplexity şu özelliklere sahiptir:

  1. Veri etkili. Tek bir test seti yeter; insan değerlendirici gerekmez.
  2. Karşılaştırılabilir. Aynı tokenizer ile modeller arası direkt karşılaştırma.
  3. Sürekli. Eğitim sırasında epoch başına ölçülür.
  4. Teorik temelli. Cross-entropy = KL divergence + entropy; bilgi teorisinde sağlam yerleşik.

Bu nedenle 1980'lerden 2020'lere kadar dil modelleme literatürünün tek standart metriği oldu.

Perplexity'nin sınırları

Modern LLM çağında perplexity zayıflıkları gösterdi:

1. Akıl yürütme ile zayıf korelasyon

Düşük perplexity, modelin matematik problemi çözebileceği anlamına gelmez. GPT-2 düşük perplexity ile bir paragraf yazabilir ama "27 × 13 = ?" hesaplayamaz. Reasoning ile perplexity farklı eksenler.

2. Görev başarısı ile uyumsuz

İki model: birinin PPL=15, diğerinin PPL=18. Soru-cevap görevinde ikincisi daha iyi olabilir. Perplexity "olasılık" ölçer; "doğruluk" değil.

3. Tokenizer bağımlı

Aynı modeli farklı tokenizerlerle karşılaştırırsanız PPL anlamsız. Llama 3 ile GPT-2'nin perplexity'lerini karşılaştıramazsınız.

4. RLHF sonrası bozulma

RLHF ile fine-tune edilmiş bir model, base modelinin PPL'sinden daha yüksek PPL alır. Çünkü model "olasılığa" değil, "yararlı/yardımcı" cevaba göre eğitildi. Yani modern hizalanmış modeller perplexity ile karşılaştırılamaz.

Modern alternatifler

Modern LLM değerlendirmesi benchmark koleksiyonları üzerinden yapılır:

  • MMLU: 57 farklı konu, çoktan seçmeli.
  • HumanEval: Python kod yazma.
  • GSM8K: Matematik kelime problemleri.
  • HellaSwag: Sağduyu tamamlama.
  • TruthfulQA: Yanlış bilgi.
  • MT-Bench: Çok turlu diyalog kalitesi.

Bunlar görev başarısını ölçer, perplexity'nin "olasılık" boyutunu değil.

Yine de perplexity ölmüş değil: pre-training'in sağlık kontrolü olarak hâlâ kullanılır. Eğitim eğrisini görselleştirirken her epoch sonrası ölçülür.

Klasik benzetme

Bir öğretmen bir öğrenciye boşluk doldurma testi verir: "Türkiye'nin __ İstanbul'dur". İyi öğrenci hemen "başkenti" yazar (yüksek olasılık). Zayıf öğrenci "büyük şehri", "merkezi", "tarihi yeri" gibi birkaç eşit alternatif düşünür (yayılmış olasılık).

Perplexity: öğrencinin kafasında "kaç olası kelime" bulunduğunun ölçüsü. Az = emin = düşük perplexity.

Sade ders

Perplexity hikâyesinden iki şey:

  1. Metrik tanımı görevini de tanımlar. Perplexity dil modellemeyi "sonraki kelime tahmini" olarak çerçeveledi; bu çerçeve 40 yıl modeli yönetti. Modern AI artık farklı metriklerle (görev başarısı) farklı çerçevede.
  2. Bilgi teorisi temeldir. Shannon'un 1948 çalışması bugünkü LLM değerlendirmesinin matematiksel temelinin temel taşı.

Bağlam

Bilgi teorisi için: [[shannon-bilgi-teorisi]], [[entropi-ve-belirsizlik]] (varsa). LLM değerlendirmesi için: [[mmlu-benchmark-llm-degerlendirmesi]] (varsa). Modern hizalama için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Cross-entropy için: [[cross-entropy-kayip-fonksiyonu]] (varsa).

Etiketler

perplexitydil modelientropideğerlendirmemetrik

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Perplexity ne ölçer?

2. PPL=20 ne demek?

3. Modern LLM'de perplexity neden tek başına yetmez?

4. BPC nedir?

5. Perplexity'nin matematiksel temeli nedir?