Gerçek ve üretilen görüntülerin Inception V3 özellik dağılımları arasındaki uzaklık

Metin ve görüntü CLIP embeddinglerinin cosine similarity

"Bir metrik hedef olunca iyi metrik olmaktan çıkar" — benchmarkler oyuna gelir

Modern altın standart?

İnsan değerlendirme (LMSYS Arena vb.) — yavaş ama güvenilir

Modern image gen önerisi?

Çoklu (FID + CLIP + PickScore) + insan A/B

Üretken Model Değerlendirmesi: FID, IS, CLIP-score ve Ötesi

"Üretilen görüntü iyi mi?"

Klasik ML'de accuracy açık. Üretken AI:

GPT cevabı "iyi" mi?
Diffusion görüntüsü "güzel" mi?
Müzik "hoş" mu?

Tek bir doğru cevap yok.

Image generation metrikleri

Inception Score (IS)

Salimans et al. 2016 — GAN için.

İki kriter:

Kalite: model net sınıf tahmin.
Çeşitlilik: farklı sınıflar.

IS = exp(E_x[KL(p(y|x) || p(y))])

Yüksek IS = iyi. ImageNet 1000 sınıfa göre.

Sorunlar:

ImageNet bias'lı.
Modern modeller IS'i oyunluyor.

FID (Fréchet Inception Distance)

Heusel et al. 2017.

Gerçek ve üretilen görüntülerin Inception V3 özelliklerini karşılaştır:

FID = ||μ_r - μ_g||² + Tr(Σ_r + Σ_g - 2(Σ_r Σ_g)^{1/2})

Düşük FID = iyi.

Sorunlar:

Inception V3 modeline bağımlı.
2014 modelle 2024 üretimi değerlendirme garip.

KID (Kernel Inception Distance)

FID benzeri ama kernel-based:

Daha az veride güvenilir.
Polynomial kernel.

CLIP Score

Metin → görüntü modelleri için:

CLIP modelle metin ve görüntü embed.
Cosine similarity.
Yüksek = iyi alignment.

Aesthetic Score

Görsel "güzellik":

LAION-Aesthetic.
Sanat eserlerine eğitilmiş.

LLM metrikleri

Perplexity

Klasik dil modeli metriği. Düşük = iyi.

BLEU

Çeviri için n-gram örtüşmesi.

ROUGE

Özetleme.

BERTScore

BERT embedding ile karşılaştırma.

LLM-as-a-Judge

Modern standart. Önceki yazımız.

Insan değerlendirmesi

Klasik

A/B test.
Likert ölçek.
Tercih sıralama.

Modern

LMSYS Arena.
Crowdsourcing.

Pahalı ama altın standart.

Yeni metrikler

TIFA (Text-to-Image Faithfulness)

GPT-4 ile değerlendirme:

Üretilen görüntü promptu yansıtıyor mu?
VQA tabanlı.

PickScore

İnsan tercih verisi ile eğitilmiş.

ImageReward

İnsan geri bildirimle.

HPS (Human Preference Score)

Stable Diffusion için optimize.

Video metrikleri

FVD (Fréchet Video Distance)

FID'in video versiyonu.

CLIP-T (temporal)

CLIP zaman boyutunda.

VBench

Comprehensive video benchmark.

Müzik metrikleri

FAD (Fréchet Audio Distance)

Ses embeddingle.

CLAP score

CLIP audio-language.

Mean Opinion Score (MOS)

İnsan değerlendirmesi.

3D metrikleri

CD (Chamfer Distance)

Nokta bulutu.

EMD (Earth Mover's Distance)

Optimal transport.

CLIP-3D

Metin → 3D.

Tartışmalar

Goodhart's Law

"Bir metrik hedef olunca, iyi metrik olmaktan çıkar".

Modern modeller FID/IS'i oyuna alıyor → metrikler güvenilirliği kaybediyor.

Cherry picking

Demo örnekler dikkatle seçilir.

Test seti contamination

Eğitim verisi test setiyle örtüşür.

Benchmark hacking

Spesifik benchmark için optimize.

Modern yaklaşım

Çoklu metrik

IS, FID, KID, CLIP score birlikte.
Her birinin zaafı karşı dengelenebilir.

Human + automated

İnsan ve makine değerlendirme birleştir.

Open-ended eval

Sabit benchmark yerine dinamik soru.

Adversarial eval

Modelin zayıf olduğu örnekleri ara.

Türkçe için

Türk PickScore eksikliği.
TÜBİTAK BİLGEM Türkçe üretken eval.
Türkçe insan değerlendirme platformları.

Sébastien Bubeck'in eleştirisi

"Sparks of AGI" makalesinde:

"Standart benchmarks GPT-4'i ölçemez".
Bu konu sonra ana tartışma oldu.

Pratik öneriler

Image generation

FID + CLIP score baseline.
PickScore production.
İnsan A/B test final.

Text generation

Perplexity hızlı.
LLM-as-Judge model seçimi.
İnsan production.

Video

VBench standart.
İnsan kritik.

Felsefe

Üretken AI değerlendirme temel sorusu: "Kalite öznel mi nesnel mi?"

Hem hem de. Bu yüzden çoklu metrik + insan karışımı.

Üretken AI sektörünün sorunu

Modern üretken modellerin resmi sıralaması yok:

Her şirket kendi benchmarkını gösterir.
LMSYS Arena en yakın bağımsız.

Genç AI mühendisi için ders

Değerlendirme:

Ürün için kritik.
Tek metrik aldatıcı.
İnsan değerlendirmesi şart.
Sürekli güncellenmeli.

Kapanış

Üretken model değerlendirmesi, modern AI mühendisliğinin zorluk alanı. Doğru metriği seçmek model seçiminin yarısı.

Bir AI mühendisinin olgunluk işareti: birden fazla metrik ve insan değerlendirmesi birleştirmek.

Sayılarla aldatma kolay; gerçek kalite ölçmek zor.