BLEU'nun temel fikri nedir?

N-gram precision'ının geometrik ortalaması + brevity penalty

ROUGE BLEU'dan ne ile ayrılır?

Recall odaklı (BLEU precision); özetleme için daha uygun

BERTScore neden BLEU'dan iyi?

Embedding tabanlı; eşanlamlıları tanır, insan değerlendirmesiyle %20-30 daha iyi korelasyon

BLEU'nun en büyük zayıflığı nedir?

Eşanlamlı tanımaz, cümle sırasını umursamaz — "hızlı" ve "süratli" sıfır puan

LLM-as-a-judge nedir?

GPT-4 ya da Claude'a iki cevap göstererek hangi daha iyi diye sor — MT-Bench, Chatbot Arena

BLEU, ROUGE, BERTScore: Çeviri ve Özetleme Metrikleri

"İyi çeviri" neye benzer?

Bir makine çevirisini değerlendirmek istiyorsun. İnsan referansı:

"Kedi mat üzerinde oturuyor."

Model A: "Mat üzerinde bir kedi oturmaktadır."
Model B: "Bir köpek halıda yatıyor."

A çevirisi B'den daha iyi. Ama otomatik olarak nasıl ölçersin?

İnsan değerlendirme pahalı. Saniyede milyonlarca çevirinin otomatik puanlanması gerek.

BLEU (2002) — IBM Watson

Kishore Papineni ve ark. (IBM) 2002'de BLEU (Bilingual Evaluation Understudy) önerdi. Temel fikir: n-gram örtüşmesi.

Adım:

Hipotez (model çevirisi) ile referans cümleyi n-gram'lara böl ( $n=1, 2, 3, 4$ ).
Hipotezdeki her n-gram referansta var mı?
Precision hesapla — hipotezin kaç yüzdesi referansta?
Dört precision'ı geometrik ortalama al.

Plus brevity penalty (BP) — çok kısa hipotezleri cezalandır:

\text{BLEU} = \text{BP} \cdot \exp\left(\sum_{n=1}^{4} w_n \log p_n\right)

BLEU 0-1 (genellikle 0-100 ölçekli). 30+ "iyi" çeviri sayılır. 50+ profesyonel kalitede.

BLEU'nun gücü

Çok dilde çalışır. Tokenizasyon dışında dile özel kuralı yok.
Hızlı. Saniyede milyonlarca.
Akademik kabul. 23.000+ atıf; tarihte en çok atıf alan NLP makalelerinden.
İnsan değerlendirmesiyle korelasyon var. Mükemmel değil ama 0.6-0.7 korelasyon.

Bu yüzden 2002-2018 makine çevirisi tarihi BLEU'nun tarihidir. Google Translate, Microsoft Translator, Facebook her büyük makale BLEU rakamı verir.

BLEU'nun zayıflıkları

Eşanlamlıları sayar. "Hızlı" yerine "süratli" yazdın? BLEU sıfır puan verir.
Cümle yapısını umursamaz. "Kedi mat üzerinde" ile "Mat kedi üzerinde" aynı BLEU.
Sıralamayı kaybeder. Bag-of-words yaklaşımı.
Tek referansla zayıf. Aynı içeriği farklı şekillerde söylenebilir.

Bu zayıflıklar 2018 sonrası transformer çağında belirginleşti. Hâlâ kullanılır ama tek metrik değil.

ROUGE (2004) — özetleme için

Chin-Yew Lin (Microsoft Research) BLEU'yu özetleme için adapte etti. ROUGE (Recall-Oriented Understudy for Gisting Evaluation).

BLEU precision, ROUGE recall odaklı. Mantıklı: özetlemede "her şeyi söyledin mi" sorusu önemlidir.

ROUGE varyantları:

ROUGE-N: N-gram örtüşmesi (genelde ROUGE-1, ROUGE-2).
ROUGE-L: En uzun ortak alt-dizi (LCS) — sıralamayı dikkate alır.
ROUGE-W: Ağırlıklı LCS.
ROUGE-S: Skip-bigram, atlamaya izin verir.

CNN/DailyMail haber özetleme veri seti üzerinde ROUGE-1/2/L üçlüsü standart raporlama.

BERTScore (2019) — modern alternatif

Tianyi Zhang ve ark. BERTScore önerdi. Temel sezgi:

"N-gram tam eşleşmesini bırak. Sözcükleri embedding olarak temsil et, en yakın komşu eşleştirmesi yap."

Algoritma:

Hipotez ve referans kelimelerini BERT ile embed et.
Her hipotez kelimesi için referanstaki en yakın kelime ile eşleştir.
Bu eşleştirmenin ortalama benzerliği = precision.
Tersi = recall.

Avantaj: "hızlı" ve "süratli" yakın embedding olur → yüksek puan. Eşanlamlı problemi çözüldü.

BERTScore insan değerlendirmesiyle BLEU'dan %20-30 daha iyi korelasyon gösterir. 2020 sonrası özellikle özetleme literatürünün standardı oldu.

Modern eğilim — LLM-as-a-judge

2023'ten beri yeni paradigma: bir LLM (GPT-4, Claude) öbür LLM'lerin çıktısını değerlendirsin.

MT-Bench (2023): GPT-4 hakemli değerlendirme. İnsan değerlendirmesiyle 0.85+ korelasyon. BLEU/ROUGE'tan açık ara üstün.

Chatbot Arena (2023, LMSYS): İnsanlar iki LLM cevabı arasında körlemesine seçim yapar; Elo puanı çıkarılır. Gerçek kullanıcı tercihini ölçer.

Bu yöntemler BLEU/ROUGE'un yerine geçmedi ama özellikle diyalog ve open-ended görevlerde tercih edilir.

Hangi metriği ne zaman

Çeviri: BLEU + COMET (modern transformer tabanlı metrik) + insan.
Özetleme: ROUGE + BERTScore + insan.
Diyalog: MT-Bench / Chatbot Arena.
Kod: pass@k (kodun doğru çalışma oranı).
Akıl yürütme: Exact match.

Tek metrik artık yeterli değil. Çok boyutlu değerlendirme modern standart.

Klasik benzetme

İki resim arasındaki benzerliği ölç. BLEU/ROUGE: piksel piksel karşılaştır. Aynı renk varsa kaç piksel? Yetersiz: aynı yüzün iki farklı pozu sıfır puan alır.

BERTScore: resim embedding'leri çıkar (CNN ile), embedding uzayında karşılaştır. Yüz tanır. Daha iyi.

LLM-as-a-judge: bir uzmana sor "bu iki resim benzer mi?" En iyi ama pahalı.

Sade ders

NLP metrik hikâyesinden iki şey:

Otomatik metrik her zaman insanın yerini tutamaz. BLEU 22 yıl standart oldu ama eşanlamlı bile sayamadı. Bu yüzden modern AI değerlendirmesi çok boyutlu.
Embedding tabanlı yöntemler 20 yıllık dilbilimi devirdi. BERTScore basit bir fikir ama akademik literatürün eksenini değiştirdi.

Bağlam

Perplexity için: [[perplexity-dil-modeli-degerlendirmesinin-eski-altin-standardi]]. Embedding için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]]. LLM değerlendirmesi için: [[percy-liang-foundation-models-uzerine-akademik-dushe]]. Çeviri tarihi için: [[neural-machine-translation-attention]] (varsa).