LLM-as-a-Judge: Büyük Dil Modellerinin Birbirini Değerlendirmesi
Bir LLM'in çıktısını başka bir LLM puanlasın. İnsan kıyaslamasından 100 kat ucuz. Modern eval altyapısının yeni standardı.

"Bir LLM'in çıktısı iyi mi?" sorusu
Klasik ML'de metrikler vardı: accuracy, precision, recall.
LLM'de zorluk: çıktı serbest metin. Hangi cevap "iyi"?
Eski çözümler:
- BLEU/ROUGE: kelime örtüşmesi. Sığ.
- İnsan değerlendirme: yavaş, pahalı, tutarsız.
Yeni çözüm: başka bir LLM puanlasın.
LLM-as-a-Judge
Bir cevabı GPT-4 veya Claude gibi güçlü bir modele puanlatma:
Sistem: "Sen kibar bir öğretmensin. İki cevabı karşılaştır,
hangisinin daha iyi olduğunu söyle."
Soru: "İklim değişikliği nedir?"
Cevap A: "Iklim değişiyor."
Cevap B: "İklim değişikliği uzun vadeli atmosfer..."
Sonuç: B daha iyi. Sebep: ...
Model rastgele insan gibi tutarsız değil — sistematik.
Avantajları
- Hız: saniye.
- Maliyet: insan dakikası 10 dolar, GPT-4 puanı 1 sent.
- Ölçeklenir: binlerce karşılaştırma paralel.
- Tutarlı: aynı kriterleri uygular.
- Detaylı: sebepleri açıklar.
Akademik sonuç
Zheng et al. (2023): GPT-4 hakim olarak insan değerlendirici ile %80'in üzerinde tutarlılık.
İki insan arasındaki tutarlılık genelde %70-80, yani GPT-4 zaten insanlar arası standartta.
LMSYS Chatbot Arena
Modern LLM rekabet platformu:
- Kullanıcı iki modelin (anonim) cevabını görür.
- Hangisi daha iyi oy verir.
- Yüz binlerce vote → ELO rating.
LMSYS Arena Leaderboard: GPT-4, Claude, Gemini, Llama hepsi yarışır.
Insan + LLM jüri karışımı.
Arena Hard
Otomatik versiyonu: 500 zor soru, GPT-4 jüri olarak.
Daha hızlı: yeni model çıkar çıkmaz değerlendirilir.
MT-Bench
Multi-Turn benchmark:
- 80 zor çok-turlu konuşma.
- GPT-4 jüri.
- 1-10 puan.
Modern LLM'lerin diyalog kalitesi ölçümü.
Reward Bench
Reward model eğitimi için: hangi response daha iyi puanlanmalı?
- 5000+ kıyaslama.
- Reward model performansı ölçümü.
RLHF içinde kritik.
Sorunlar
Bias
Position bias: A önce gelirse A'yı tercih etme eğilimi.
Çözüm: rastgele sıra.
Length bias: uzun cevapları daha iyi sanma.
Çözüm: pre-prompt ile dengele.
Self-preference: GPT-4 GPT-4'ün cevabını sever.
Çözüm: jüri ve değerlendirilen farklı model olsun.
"Sycophancy"
Jüri kullanıcıya kibarca yaltaklanır → yanlış değerlendirir.
Hallucination
Jüri yanlış sebep uydurur.
Maliyet
GPT-4 jüri pahalı (1 değerlendirme ~$0.05).
Çözüm: Claude Haiku, GPT-4o-mini gibi ucuz modeller jüri olarak.
Pratik araçlar
- Langfuse: LLM observability + LLM eval.
- Promptfoo: A/B test.
- DeepEval: pytest benzeri LLM testleri.
- Ragas: RAG değerlendirmesi.
- LangSmith: LangChain ekosistemi.
- Lit-LLM: Anthropic'in araç seti.
Constitutional Judge
Anthropic'in yaklaşımı: jüri için anayasal kurallar:
- Doğruluk.
- Yararlılık.
- Zararsızlık.
- Dürüstlük.
Jüri bunlara göre puanlar.
RAG evaluation
RAG sistemleri için özel jüri:
- Faithfulness: cevap retrieve edilen bilgiyle tutarlı mı?
- Relevance: cevap soruyu yanıtladı mı?
- Context recall: gerekli bilgi alındı mı?
Ragas standart aracı.
Modern uygulama
Tipik LLM ürün geliştirme:
- Eval seti hazırla: 100-500 örnek.
- Modeli çalıştır.
- LLM-as-a-Judge ile puan.
- Hata vakaları incele.
- Prompt iyileştir.
- Tekrar.
A/B test'in LLM versiyonu.
Türk endüstri için
- Türk dilinde LLM değerlendirmesi yeni alan.
- Türk MMLU: TruthfulQA, AGIEval Türkçe.
- Trendyol, Garanti: dahili LLM-as-a-Judge.
- TÜBİTAK: Türkçe NLP benchmark inşası.
Yarışmalar
- LMArena Hard: Türkçe versiyonu yok henüz.
- Türk dilinde açık leaderboard ihtiyacı.
Felsefe
LLM-as-a-Judge temel mesajı: "Otomatik değerlendirme insan değerlendirmeden hızlı, ucuz ve daha tutarlı olabilir".
Hıza, ölçeğe, maliyete avantajla — yeni standartlar.
Sınırlamalar
- Bias'tan kaçınma: hassas hyperparameter.
- Yeni modeller: jüri eski olabilir.
- Domain-specific: tıp, hukuk gibi alanlarda uzman jüri gerekir.
- Adversarial: jürürü manipule edenler.
Geleceği
- Multi-model jüri: ensemble.
- Yerel LLM jüri: maliyet azaltma.
- Domain-specific yorumlanmış kuralar.
- İnsan-LLM ortak değerlendirme.
Kapanış
LLM-as-a-Judge, modern AI değerlendirmesinin temel araçlarından biri. İnsan değerlendirmesini tamamlamasa da büyük ölçüde değiştirdi.
Bir AI mühendisinin olgunluk işareti: eval pipeline kurmak ve sürekli ölçmek.
LLM'i geliştirebilmek için LLM ile ölçmen lazım — özyinelemeli bir gerçek.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. LLM-as-a-Judge ne yapar?
2. En büyük avantaj?
3. Position bias nedir?
4. LMSYS Arena ne?
5. RAG evaluation kriterleri?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?