LLM-as-a-Judge ne yapar?

Bir modelin çıktısını başka bir LLM puanlar — insan değerlendirmesini hızlandırır

Hız + maliyet — saniye seviyesi, çoğu durumda insan ile %80+ tutarlılık

A önce gelirse A'yı tercih etme eğilimi — rastgele sıra ile düzeltilir

Kullanıcı vote'u + ELO rating ile LLM rekabet platformu

RAG evaluation kriterleri?

Faithfulness, relevance, context recall — Ragas aracı

LLM-as-a-Judge: Büyük Dil Modellerinin Birbirini Değerlendirmesi

"Bir LLM'in çıktısı iyi mi?" sorusu

Klasik ML'de metrikler vardı: accuracy, precision, recall.

LLM'de zorluk: çıktı serbest metin. Hangi cevap "iyi"?

Eski çözümler:

BLEU/ROUGE: kelime örtüşmesi. Sığ.
İnsan değerlendirme: yavaş, pahalı, tutarsız.

Yeni çözüm: başka bir LLM puanlasın.

LLM-as-a-Judge

Bir cevabı GPT-4 veya Claude gibi güçlü bir modele puanlatma:

Sistem: "Sen kibar bir öğretmensin. İki cevabı karşılaştır,
hangisinin daha iyi olduğunu söyle."

Soru: "İklim değişikliği nedir?"
Cevap A: "Iklim değişiyor."
Cevap B: "İklim değişikliği uzun vadeli atmosfer..."

Sonuç: B daha iyi. Sebep: ...

Model rastgele insan gibi tutarsız değil — sistematik.

Avantajları

Hız: saniye.
Maliyet: insan dakikası 10 dolar, GPT-4 puanı 1 sent.
Ölçeklenir: binlerce karşılaştırma paralel.
Tutarlı: aynı kriterleri uygular.
Detaylı: sebepleri açıklar.

Akademik sonuç

Zheng et al. (2023): GPT-4 hakim olarak insan değerlendirici ile %80'in üzerinde tutarlılık.

İki insan arasındaki tutarlılık genelde %70-80, yani GPT-4 zaten insanlar arası standartta.

LMSYS Chatbot Arena

Modern LLM rekabet platformu:

Kullanıcı iki modelin (anonim) cevabını görür.
Hangisi daha iyi oy verir.
Yüz binlerce vote → ELO rating.

LMSYS Arena Leaderboard: GPT-4, Claude, Gemini, Llama hepsi yarışır.

Insan + LLM jüri karışımı.

Arena Hard

Otomatik versiyonu: 500 zor soru, GPT-4 jüri olarak.

Daha hızlı: yeni model çıkar çıkmaz değerlendirilir.

MT-Bench

Multi-Turn benchmark:

80 zor çok-turlu konuşma.
GPT-4 jüri.
1-10 puan.

Modern LLM'lerin diyalog kalitesi ölçümü.

Reward Bench

Reward model eğitimi için: hangi response daha iyi puanlanmalı?

5000+ kıyaslama.
Reward model performansı ölçümü.

RLHF içinde kritik.

Sorunlar

Bias

Position bias: A önce gelirse A'yı tercih etme eğilimi.
Çözüm: rastgele sıra.

Length bias: uzun cevapları daha iyi sanma.
Çözüm: pre-prompt ile dengele.

Self-preference: GPT-4 GPT-4'ün cevabını sever.
Çözüm: jüri ve değerlendirilen farklı model olsun.

"Sycophancy"

Jüri kullanıcıya kibarca yaltaklanır → yanlış değerlendirir.

Hallucination

Jüri yanlış sebep uydurur.

Maliyet

GPT-4 jüri pahalı (1 değerlendirme ~$0.05).

Çözüm: Claude Haiku, GPT-4o-mini gibi ucuz modeller jüri olarak.

Pratik araçlar

Langfuse: LLM observability + LLM eval.
Promptfoo: A/B test.
DeepEval: pytest benzeri LLM testleri.
Ragas: RAG değerlendirmesi.
LangSmith: LangChain ekosistemi.
Lit-LLM: Anthropic'in araç seti.

Constitutional Judge

Anthropic'in yaklaşımı: jüri için anayasal kurallar:

Doğruluk.
Yararlılık.
Zararsızlık.
Dürüstlük.

Jüri bunlara göre puanlar.

RAG evaluation

RAG sistemleri için özel jüri:

Faithfulness: cevap retrieve edilen bilgiyle tutarlı mı?
Relevance: cevap soruyu yanıtladı mı?
Context recall: gerekli bilgi alındı mı?

Ragas standart aracı.

Modern uygulama

Tipik LLM ürün geliştirme:

Eval seti hazırla: 100-500 örnek.
Modeli çalıştır.
LLM-as-a-Judge ile puan.
Hata vakaları incele.
Prompt iyileştir.
Tekrar.

A/B test'in LLM versiyonu.

Türk endüstri için

Türk dilinde LLM değerlendirmesi yeni alan.
Türk MMLU: TruthfulQA, AGIEval Türkçe.
Trendyol, Garanti: dahili LLM-as-a-Judge.
TÜBİTAK: Türkçe NLP benchmark inşası.

Yarışmalar

LMArena Hard: Türkçe versiyonu yok henüz.
Türk dilinde açık leaderboard ihtiyacı.

Felsefe

LLM-as-a-Judge temel mesajı: "Otomatik değerlendirme insan değerlendirmeden hızlı, ucuz ve daha tutarlı olabilir".

Hıza, ölçeğe, maliyete avantajla — yeni standartlar.

Sınırlamalar

Bias'tan kaçınma: hassas hyperparameter.
Yeni modeller: jüri eski olabilir.
Domain-specific: tıp, hukuk gibi alanlarda uzman jüri gerekir.
Adversarial: jürürü manipule edenler.

Geleceği

Multi-model jüri: ensemble.
Yerel LLM jüri: maliyet azaltma.
Domain-specific yorumlanmış kuralar.
İnsan-LLM ortak değerlendirme.

Kapanış

LLM-as-a-Judge, modern AI değerlendirmesinin temel araçlarından biri. İnsan değerlendirmesini tamamlamasa da büyük ölçüde değiştirdi.

Bir AI mühendisinin olgunluk işareti: eval pipeline kurmak ve sürekli ölçmek.

LLM'i geliştirebilmek için LLM ile ölçmen lazım — özyinelemeli bir gerçek.