BLEU, ROUGE, BERTScore: Çeviri ve Özetleme Metrikleri
İki cümle ne kadar "benzer"? 2002'de IBM'den çıkan bu ölçütler, NLP'nin onlarca yıllık değerlendirme dilini oluşturdu.

"İyi çeviri" neye benzer?
Bir makine çevirisini değerlendirmek istiyorsun. İnsan referansı:
"Kedi mat üzerinde oturuyor."
Model A: "Mat üzerinde bir kedi oturmaktadır."
Model B: "Bir köpek halıda yatıyor."
A çevirisi B'den daha iyi. Ama otomatik olarak nasıl ölçersin?
İnsan değerlendirme pahalı. Saniyede milyonlarca çevirinin otomatik puanlanması gerek.
BLEU (2002) — IBM Watson
Kishore Papineni ve ark. (IBM) 2002'de BLEU (Bilingual Evaluation Understudy) önerdi. Temel fikir: n-gram örtüşmesi.
Adım:
- Hipotez (model çevirisi) ile referans cümleyi n-gram'lara böl ().
- Hipotezdeki her n-gram referansta var mı?
- Precision hesapla — hipotezin kaç yüzdesi referansta?
- Dört precision'ı geometrik ortalama al.
Plus brevity penalty (BP) — çok kısa hipotezleri cezalandır:
BLEU 0-1 (genellikle 0-100 ölçekli). 30+ "iyi" çeviri sayılır. 50+ profesyonel kalitede.
BLEU'nun gücü
- Çok dilde çalışır. Tokenizasyon dışında dile özel kuralı yok.
- Hızlı. Saniyede milyonlarca.
- Akademik kabul. 23.000+ atıf; tarihte en çok atıf alan NLP makalelerinden.
- İnsan değerlendirmesiyle korelasyon var. Mükemmel değil ama 0.6-0.7 korelasyon.
Bu yüzden 2002-2018 makine çevirisi tarihi BLEU'nun tarihidir. Google Translate, Microsoft Translator, Facebook her büyük makale BLEU rakamı verir.
BLEU'nun zayıflıkları
- Eşanlamlıları sayar. "Hızlı" yerine "süratli" yazdın? BLEU sıfır puan verir.
- Cümle yapısını umursamaz. "Kedi mat üzerinde" ile "Mat kedi üzerinde" aynı BLEU.
- Sıralamayı kaybeder. Bag-of-words yaklaşımı.
- Tek referansla zayıf. Aynı içeriği farklı şekillerde söylenebilir.
Bu zayıflıklar 2018 sonrası transformer çağında belirginleşti. Hâlâ kullanılır ama tek metrik değil.
ROUGE (2004) — özetleme için
Chin-Yew Lin (Microsoft Research) BLEU'yu özetleme için adapte etti. ROUGE (Recall-Oriented Understudy for Gisting Evaluation).
BLEU precision, ROUGE recall odaklı. Mantıklı: özetlemede "her şeyi söyledin mi" sorusu önemlidir.
ROUGE varyantları:
- ROUGE-N: N-gram örtüşmesi (genelde ROUGE-1, ROUGE-2).
- ROUGE-L: En uzun ortak alt-dizi (LCS) — sıralamayı dikkate alır.
- ROUGE-W: Ağırlıklı LCS.
- ROUGE-S: Skip-bigram, atlamaya izin verir.
CNN/DailyMail haber özetleme veri seti üzerinde ROUGE-1/2/L üçlüsü standart raporlama.
BERTScore (2019) — modern alternatif
Tianyi Zhang ve ark. BERTScore önerdi. Temel sezgi:
"N-gram tam eşleşmesini bırak. Sözcükleri embedding olarak temsil et, en yakın komşu eşleştirmesi yap."
Algoritma:
- Hipotez ve referans kelimelerini BERT ile embed et.
- Her hipotez kelimesi için referanstaki en yakın kelime ile eşleştir.
- Bu eşleştirmenin ortalama benzerliği = precision.
- Tersi = recall.
Avantaj: "hızlı" ve "süratli" yakın embedding olur → yüksek puan. Eşanlamlı problemi çözüldü.
BERTScore insan değerlendirmesiyle BLEU'dan %20-30 daha iyi korelasyon gösterir. 2020 sonrası özellikle özetleme literatürünün standardı oldu.
Modern eğilim — LLM-as-a-judge
2023'ten beri yeni paradigma: bir LLM (GPT-4, Claude) öbür LLM'lerin çıktısını değerlendirsin.
MT-Bench (2023): GPT-4 hakemli değerlendirme. İnsan değerlendirmesiyle 0.85+ korelasyon. BLEU/ROUGE'tan açık ara üstün.
Chatbot Arena (2023, LMSYS): İnsanlar iki LLM cevabı arasında körlemesine seçim yapar; Elo puanı çıkarılır. Gerçek kullanıcı tercihini ölçer.
Bu yöntemler BLEU/ROUGE'un yerine geçmedi ama özellikle diyalog ve open-ended görevlerde tercih edilir.
Hangi metriği ne zaman
- Çeviri: BLEU + COMET (modern transformer tabanlı metrik) + insan.
- Özetleme: ROUGE + BERTScore + insan.
- Diyalog: MT-Bench / Chatbot Arena.
- Kod: pass@k (kodun doğru çalışma oranı).
- Akıl yürütme: Exact match.
Tek metrik artık yeterli değil. Çok boyutlu değerlendirme modern standart.
Klasik benzetme
İki resim arasındaki benzerliği ölç. BLEU/ROUGE: piksel piksel karşılaştır. Aynı renk varsa kaç piksel? Yetersiz: aynı yüzün iki farklı pozu sıfır puan alır.
BERTScore: resim embedding'leri çıkar (CNN ile), embedding uzayında karşılaştır. Yüz tanır. Daha iyi.
LLM-as-a-judge: bir uzmana sor "bu iki resim benzer mi?" En iyi ama pahalı.
Sade ders
NLP metrik hikâyesinden iki şey:
- Otomatik metrik her zaman insanın yerini tutamaz. BLEU 22 yıl standart oldu ama eşanlamlı bile sayamadı. Bu yüzden modern AI değerlendirmesi çok boyutlu.
- Embedding tabanlı yöntemler 20 yıllık dilbilimi devirdi. BERTScore basit bir fikir ama akademik literatürün eksenini değiştirdi.
Bağlam
Perplexity için: [[perplexity-dil-modeli-degerlendirmesinin-eski-altin-standardi]]. Embedding için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]]. LLM değerlendirmesi için: [[percy-liang-foundation-models-uzerine-akademik-dushe]]. Çeviri tarihi için: [[neural-machine-translation-attention]] (varsa).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. BLEU'nun temel fikri nedir?
2. ROUGE BLEU'dan ne ile ayrılır?
3. BERTScore neden BLEU'dan iyi?
4. BLEU'nun en büyük zayıflığı nedir?
5. LLM-as-a-judge nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?