Üretken Model Değerlendirmesi: FID, IS, CLIP-score ve Ötesi
Bir AI üretilen görüntü ne kadar iyidir? Klasik metrikler tartışmalı, modern alternatifler de tartışmalı. Üretken AI değerlendirme bir bilim.

"Üretilen görüntü iyi mi?"
Klasik ML'de accuracy açık. Üretken AI:
- GPT cevabı "iyi" mi?
- Diffusion görüntüsü "güzel" mi?
- Müzik "hoş" mu?
Tek bir doğru cevap yok.
Image generation metrikleri
Inception Score (IS)
Salimans et al. 2016 — GAN için.
İki kriter:
- Kalite: model net sınıf tahmin.
- Çeşitlilik: farklı sınıflar.
IS = exp(E_x[KL(p(y|x) || p(y))])
Yüksek IS = iyi. ImageNet 1000 sınıfa göre.
Sorunlar:
- ImageNet bias'lı.
- Modern modeller IS'i oyunluyor.
FID (Fréchet Inception Distance)
Heusel et al. 2017.
Gerçek ve üretilen görüntülerin Inception V3 özelliklerini karşılaştır:
FID = ||μ_r - μ_g||² + Tr(Σ_r + Σ_g - 2(Σ_r Σ_g)^{1/2})
Düşük FID = iyi.
Sorunlar:
- Inception V3 modeline bağımlı.
- 2014 modelle 2024 üretimi değerlendirme garip.
KID (Kernel Inception Distance)
FID benzeri ama kernel-based:
- Daha az veride güvenilir.
- Polynomial kernel.
CLIP Score
Metin → görüntü modelleri için:
- CLIP modelle metin ve görüntü embed.
- Cosine similarity.
- Yüksek = iyi alignment.
Aesthetic Score
Görsel "güzellik":
- LAION-Aesthetic.
- Sanat eserlerine eğitilmiş.
LLM metrikleri
Perplexity
Klasik dil modeli metriği. Düşük = iyi.
BLEU
Çeviri için n-gram örtüşmesi.
ROUGE
Özetleme.
BERTScore
BERT embedding ile karşılaştırma.
LLM-as-a-Judge
Modern standart. Önceki yazımız.
Insan değerlendirmesi
Klasik
- A/B test.
- Likert ölçek.
- Tercih sıralama.
Modern
- LMSYS Arena.
- Crowdsourcing.
Pahalı ama altın standart.
Yeni metrikler
TIFA (Text-to-Image Faithfulness)
GPT-4 ile değerlendirme:
- Üretilen görüntü promptu yansıtıyor mu?
- VQA tabanlı.
PickScore
İnsan tercih verisi ile eğitilmiş.
ImageReward
İnsan geri bildirimle.
HPS (Human Preference Score)
Stable Diffusion için optimize.
Video metrikleri
FVD (Fréchet Video Distance)
FID'in video versiyonu.
CLIP-T (temporal)
CLIP zaman boyutunda.
VBench
Comprehensive video benchmark.
Müzik metrikleri
FAD (Fréchet Audio Distance)
Ses embeddingle.
CLAP score
CLIP audio-language.
Mean Opinion Score (MOS)
İnsan değerlendirmesi.
3D metrikleri
CD (Chamfer Distance)
Nokta bulutu.
EMD (Earth Mover's Distance)
Optimal transport.
CLIP-3D
Metin → 3D.
Tartışmalar
Goodhart's Law
"Bir metrik hedef olunca, iyi metrik olmaktan çıkar".
Modern modeller FID/IS'i oyuna alıyor → metrikler güvenilirliği kaybediyor.
Cherry picking
Demo örnekler dikkatle seçilir.
Test seti contamination
Eğitim verisi test setiyle örtüşür.
Benchmark hacking
Spesifik benchmark için optimize.
Modern yaklaşım
Çoklu metrik
- IS, FID, KID, CLIP score birlikte.
- Her birinin zaafı karşı dengelenebilir.
Human + automated
İnsan ve makine değerlendirme birleştir.
Open-ended eval
Sabit benchmark yerine dinamik soru.
Adversarial eval
Modelin zayıf olduğu örnekleri ara.
Türkçe için
- Türk PickScore eksikliği.
- TÜBİTAK BİLGEM Türkçe üretken eval.
- Türkçe insan değerlendirme platformları.
Sébastien Bubeck'in eleştirisi
"Sparks of AGI" makalesinde:
- "Standart benchmarks GPT-4'i ölçemez".
- Bu konu sonra ana tartışma oldu.
Pratik öneriler
Image generation
- FID + CLIP score baseline.
- PickScore production.
- İnsan A/B test final.
Text generation
- Perplexity hızlı.
- LLM-as-Judge model seçimi.
- İnsan production.
Video
- VBench standart.
- İnsan kritik.
Felsefe
Üretken AI değerlendirme temel sorusu: "Kalite öznel mi nesnel mi?"
Hem hem de. Bu yüzden çoklu metrik + insan karışımı.
Üretken AI sektörünün sorunu
Modern üretken modellerin resmi sıralaması yok:
- Her şirket kendi benchmarkını gösterir.
- LMSYS Arena en yakın bağımsız.
Genç AI mühendisi için ders
Değerlendirme:
- Ürün için kritik.
- Tek metrik aldatıcı.
- İnsan değerlendirmesi şart.
- Sürekli güncellenmeli.
Kapanış
Üretken model değerlendirmesi, modern AI mühendisliğinin zorluk alanı. Doğru metriği seçmek model seçiminin yarısı.
Bir AI mühendisinin olgunluk işareti: birden fazla metrik ve insan değerlendirmesi birleştirmek.
Sayılarla aldatma kolay; gerçek kalite ölçmek zor.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. FID ne ölçer?
2. CLIP Score?
3. Goodhart's Law?
4. Modern altın standart?
5. Modern image gen önerisi?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?