Tüm yazılar
Matematik17 Nisan 2025

MMLU: Modern LLM Değerlendirmesinin Altın Standardı

57 farklı konuda 16.000 çoktan seçmeli sorudan oluşan, modern AI yarışında "rakam" görevini gören benchmark.

Matematik Karavanı 6 dk okuma 5 soru
Çoktan seçmeli sınav kağıdı — MMLU formatı

"Hangi model daha akıllı?"

GPT-4, Claude, Gemini, Llama. Hangisi daha iyi? Sorgu gerçek hayat performansını ölçmez. Bir standart sınav gerek.

MMLU (Massive Multitask Language Understanding), 2020'de Dan Hendrycks ve ark. tarafından yayımlandı. 57 farklı konu, 16.000+ çoktan seçmeli soru. Lise düzeyinden uzmanlık seviyesine.

Modern LLM'lerin "akademik karne"si haline geldi. Her yeni model duyurusunda MMLU skoru paylaşılır.

57 konu — neler

Konular geniş yelpaze:

STEM:

  • Lise matematik, üniversite matematik
  • Lise fizik, üniversite fizik
  • Lise kimya, biyoloji
  • Bilgisayar bilimi

Sosyal:

  • Tarih (dünya, Avrupa, ABD)
  • Psikoloji, sosyoloji
  • Ekonomi
  • Hukuk

Uzmanlık:

  • Profesyonel tıp
  • Profesyonel hukuk
  • Profesyonel muhasebe

Felsefe ve insancıl:

  • Felsefe, etik
  • Mantık
  • Din çalışmaları

Geniş yelpaze sayesinde model çok yönlü test edilir.

Format

Her soru çoktan seçmeli, 4 seçenek:

Soru: Demokratik aşamalı bir hükümeti tanımlayan ilk kayıt nedir?
A) Solonun Atina anayasası (M.Ö. 594)
B) Cleisthenes'in reformları (M.Ö. 508)
C) Periklesın yargılaması (M.Ö. 441)
D) Pisistratus'un demokratikleştirilmiş tiranlığı

Doğru cevap: A.

Bu basit format otomatik değerlendirmeyi mümkün kılar. Model A/B/C/D seçer, doğrulanır.

Modern skorlar

MMLU tarihi:

  • GPT-3 (2020): ~%44 (sadece az iyi rastgele).
  • GPT-3.5 (ChatGPT, 2022): ~%70.
  • GPT-4 (2023): %86.5.
  • GPT-4 Turbo, Claude 3 Opus: %86-88.
  • Claude 3.5 Sonnet (2024): %88.7.
  • Llama 3 (2024): ~%82.
  • Grok 2: ~%85.

İnsan referansı: uzmanın ortalaması %90. Modern modeller insan uzmanına çok yakın.

"Doyma sınırı"

MMLU 2024'te doyma noktasına yaklaşıyor. Hata oranı %10-15. Yeni modeller arası fark az.

Sorunlar:

  • Test seti sızıntısı: Eğitim verisinde sorular olabilir.
  • Format kısıtı: 4 seçenek üzerinde "akıl yürütme" sınırlı test.
  • Bias: İngilizce odaklı; sorular kültürel olarak ABD-merkez.

Modern AI yarışı daha zor benchmark'lara kaydı: GPQA, HLE, AGIEval.

GPQA (2023) — yeni eşik

Graduate-Level Physics, Biology, and Chemistry benchmark'ı. PhD seviyesi sorular. Modern modeller %30-50 alır (bilirkişi non-PhD %30).

GPQA MMLU'nun "doyma"sının bir sonucu — daha zor sorular gerek.

Hendrycks ve "Center for AI Safety"

Dan Hendrycks, MMLU'nun baş yazarı. AI güvenlik araştırmacısı. Center for AI Safety (CAIS)'i yönetiyor.

2023'te ünlü bir mektup: "AI yapay zekânın varoluşsal riskini ciddiye almalı." İmzalayanlar: Hinton, Bengio, Altman, Amodei. Binlerce akademisyen.

Hendrycks akademik AI güvenlik söyleminin merkez figürlerinden.

"Benchmark wars"

Modern AI yarışı MMLU savaşları olarak görülür. Şirketler:

  • "%89!" yeni model duyurusu.
  • "%91!" rakip duyurusu.
  • Akademik tartışma: skor şişirmeyle gerçek ilerleme arasındaki fark.

Bu yarış akademik düşünce kadar pazarlama.

Sınırlamalar — modern eleştiri

Akademik camianın eleştirileri:

  1. Memorization: Sorular eğitim verisinde olabilir.
  2. Zihinsel cinsiyet: ABD lise/üniversite sistemi odaklı.
  3. Görev örtüsmesi: Çoktan seçmeli format her şeyi yakalamaz.
  4. Bağlam yok: Tek soru, geçmiş yok.

Modern değerlendirme bu nedenle çoklu benchmark kullanır: MMLU + GPQA + HumanEval + MATH + ChatBot Arena.

Türkçe MMLU yok

MMLU İngilizcedir. mMMLU (multilingual) var ama Türkçe dahil 14 dil. Türkçe için TR-MMLU çalışmaları başladı ama henüz standardize değil.

Bu, AI değerlendirmesinde dil eşitsizliğinin somut örneği.

Sade ders

MMLU hikâyesinden iki şey:

  1. Benchmark'lar yarış dilini şekillendirir. "MMLU 88" demek, modern AI dünyasında somut başarı. Akademik standartlar endüstri kararlarını yönlendirir.
  2. Çoktan seçmeli "akıl yürütme"yi tam yakalayamaz. Gerçek dünya görevleri açık uçlu, çoklu adım. MMLU yararlıdır ama yetmez.

Bağlam

GLUE/SuperGLUE için: [[sam-bowman-nyu-dan-anthropic-e-llm-degerlendirmesinin-uzmani]]. Perplexity ölçü için: [[perplexity-dil-modeli-degerlendirmesinin-eski-altin-standardi]]. Chain-of-Thought ile reasoning için: [[chain-of-thought-llm-leri-akil-yurutmeye-zorlamak]]. Modern model değerlendirmesi için: [[bleu-rouge-bertscore-ceviri-ozetleme-metrikler]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]].

Etiketler

MMLUbenchmarkLLM değerlendirmeAI yarışıHendrycks

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. MMLU nedir?

2. GPT-4 MMLU'da ne aldı?

3. MMLU'nun sorunu nedir?

4. Hendrycks başka ne yapar?

5. Türkçe için MMLU var mı?