Tüm yazılar
Matematik6 Aralık 2024

LLM-as-a-Judge: Büyük Dil Modellerinin Birbirini Değerlendirmesi

Bir LLM'in çıktısını başka bir LLM puanlasın. İnsan kıyaslamasından 100 kat ucuz. Modern eval altyapısının yeni standardı.

Matematik Karavanı 6 dk okuma 5 soru
Hakim tokmağı — LLM jüri metaforu

"Bir LLM'in çıktısı iyi mi?" sorusu

Klasik ML'de metrikler vardı: accuracy, precision, recall.

LLM'de zorluk: çıktı serbest metin. Hangi cevap "iyi"?

Eski çözümler:

  • BLEU/ROUGE: kelime örtüşmesi. Sığ.
  • İnsan değerlendirme: yavaş, pahalı, tutarsız.

Yeni çözüm: başka bir LLM puanlasın.

LLM-as-a-Judge

Bir cevabı GPT-4 veya Claude gibi güçlü bir modele puanlatma:

Sistem: "Sen kibar bir öğretmensin. İki cevabı karşılaştır,
hangisinin daha iyi olduğunu söyle."

Soru: "İklim değişikliği nedir?"
Cevap A: "Iklim değişiyor."
Cevap B: "İklim değişikliği uzun vadeli atmosfer..."

Sonuç: B daha iyi. Sebep: ...

Model rastgele insan gibi tutarsız değil — sistematik.

Avantajları

  • Hız: saniye.
  • Maliyet: insan dakikası 10 dolar, GPT-4 puanı 1 sent.
  • Ölçeklenir: binlerce karşılaştırma paralel.
  • Tutarlı: aynı kriterleri uygular.
  • Detaylı: sebepleri açıklar.

Akademik sonuç

Zheng et al. (2023): GPT-4 hakim olarak insan değerlendirici ile %80'in üzerinde tutarlılık.

İki insan arasındaki tutarlılık genelde %70-80, yani GPT-4 zaten insanlar arası standartta.

LMSYS Chatbot Arena

Modern LLM rekabet platformu:

  • Kullanıcı iki modelin (anonim) cevabını görür.
  • Hangisi daha iyi oy verir.
  • Yüz binlerce vote → ELO rating.

LMSYS Arena Leaderboard: GPT-4, Claude, Gemini, Llama hepsi yarışır.

Insan + LLM jüri karışımı.

Arena Hard

Otomatik versiyonu: 500 zor soru, GPT-4 jüri olarak.

Daha hızlı: yeni model çıkar çıkmaz değerlendirilir.

MT-Bench

Multi-Turn benchmark:

  • 80 zor çok-turlu konuşma.
  • GPT-4 jüri.
  • 1-10 puan.

Modern LLM'lerin diyalog kalitesi ölçümü.

Reward Bench

Reward model eğitimi için: hangi response daha iyi puanlanmalı?

  • 5000+ kıyaslama.
  • Reward model performansı ölçümü.

RLHF içinde kritik.

Sorunlar

Bias

Position bias: A önce gelirse A'yı tercih etme eğilimi.
Çözüm: rastgele sıra.

Length bias: uzun cevapları daha iyi sanma.
Çözüm: pre-prompt ile dengele.

Self-preference: GPT-4 GPT-4'ün cevabını sever.
Çözüm: jüri ve değerlendirilen farklı model olsun.

"Sycophancy"

Jüri kullanıcıya kibarca yaltaklanır → yanlış değerlendirir.

Hallucination

Jüri yanlış sebep uydurur.

Maliyet

GPT-4 jüri pahalı (1 değerlendirme ~$0.05).

Çözüm: Claude Haiku, GPT-4o-mini gibi ucuz modeller jüri olarak.

Pratik araçlar

  • Langfuse: LLM observability + LLM eval.
  • Promptfoo: A/B test.
  • DeepEval: pytest benzeri LLM testleri.
  • Ragas: RAG değerlendirmesi.
  • LangSmith: LangChain ekosistemi.
  • Lit-LLM: Anthropic'in araç seti.

Constitutional Judge

Anthropic'in yaklaşımı: jüri için anayasal kurallar:

  1. Doğruluk.
  2. Yararlılık.
  3. Zararsızlık.
  4. Dürüstlük.

Jüri bunlara göre puanlar.

RAG evaluation

RAG sistemleri için özel jüri:

  • Faithfulness: cevap retrieve edilen bilgiyle tutarlı mı?
  • Relevance: cevap soruyu yanıtladı mı?
  • Context recall: gerekli bilgi alındı mı?

Ragas standart aracı.

Modern uygulama

Tipik LLM ürün geliştirme:

  1. Eval seti hazırla: 100-500 örnek.
  2. Modeli çalıştır.
  3. LLM-as-a-Judge ile puan.
  4. Hata vakaları incele.
  5. Prompt iyileştir.
  6. Tekrar.

A/B test'in LLM versiyonu.

Türk endüstri için

  • Türk dilinde LLM değerlendirmesi yeni alan.
  • Türk MMLU: TruthfulQA, AGIEval Türkçe.
  • Trendyol, Garanti: dahili LLM-as-a-Judge.
  • TÜBİTAK: Türkçe NLP benchmark inşası.

Yarışmalar

  • LMArena Hard: Türkçe versiyonu yok henüz.
  • Türk dilinde açık leaderboard ihtiyacı.

Felsefe

LLM-as-a-Judge temel mesajı: "Otomatik değerlendirme insan değerlendirmeden hızlı, ucuz ve daha tutarlı olabilir".

Hıza, ölçeğe, maliyete avantajla — yeni standartlar.

Sınırlamalar

  • Bias'tan kaçınma: hassas hyperparameter.
  • Yeni modeller: jüri eski olabilir.
  • Domain-specific: tıp, hukuk gibi alanlarda uzman jüri gerekir.
  • Adversarial: jürürü manipule edenler.

Geleceği

  • Multi-model jüri: ensemble.
  • Yerel LLM jüri: maliyet azaltma.
  • Domain-specific yorumlanmış kuralar.
  • İnsan-LLM ortak değerlendirme.

Kapanış

LLM-as-a-Judge, modern AI değerlendirmesinin temel araçlarından biri. İnsan değerlendirmesini tamamlamasa da büyük ölçüde değiştirdi.

Bir AI mühendisinin olgunluk işareti: eval pipeline kurmak ve sürekli ölçmek.

LLM'i geliştirebilmek için LLM ile ölçmen lazım — özyinelemeli bir gerçek.

Etiketler

LLM-as-a-JudgeevaluationLMSYSreward modelAI değerlendirme

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. LLM-as-a-Judge ne yapar?

2. En büyük avantaj?

3. Position bias nedir?

4. LMSYS Arena ne?

5. RAG evaluation kriterleri?