MMLU: Modern LLM Değerlendirmesinin Altın Standardı
57 farklı konuda 16.000 çoktan seçmeli sorudan oluşan, modern AI yarışında "rakam" görevini gören benchmark.

"Hangi model daha akıllı?"
GPT-4, Claude, Gemini, Llama. Hangisi daha iyi? Sorgu gerçek hayat performansını ölçmez. Bir standart sınav gerek.
MMLU (Massive Multitask Language Understanding), 2020'de Dan Hendrycks ve ark. tarafından yayımlandı. 57 farklı konu, 16.000+ çoktan seçmeli soru. Lise düzeyinden uzmanlık seviyesine.
Modern LLM'lerin "akademik karne"si haline geldi. Her yeni model duyurusunda MMLU skoru paylaşılır.
57 konu — neler
Konular geniş yelpaze:
STEM:
- Lise matematik, üniversite matematik
- Lise fizik, üniversite fizik
- Lise kimya, biyoloji
- Bilgisayar bilimi
Sosyal:
- Tarih (dünya, Avrupa, ABD)
- Psikoloji, sosyoloji
- Ekonomi
- Hukuk
Uzmanlık:
- Profesyonel tıp
- Profesyonel hukuk
- Profesyonel muhasebe
Felsefe ve insancıl:
- Felsefe, etik
- Mantık
- Din çalışmaları
Geniş yelpaze sayesinde model çok yönlü test edilir.
Format
Her soru çoktan seçmeli, 4 seçenek:
Soru: Demokratik aşamalı bir hükümeti tanımlayan ilk kayıt nedir?
A) Solonun Atina anayasası (M.Ö. 594)
B) Cleisthenes'in reformları (M.Ö. 508)
C) Periklesın yargılaması (M.Ö. 441)
D) Pisistratus'un demokratikleştirilmiş tiranlığı
Doğru cevap: A.
Bu basit format otomatik değerlendirmeyi mümkün kılar. Model A/B/C/D seçer, doğrulanır.
Modern skorlar
MMLU tarihi:
- GPT-3 (2020): ~%44 (sadece az iyi rastgele).
- GPT-3.5 (ChatGPT, 2022): ~%70.
- GPT-4 (2023): %86.5.
- GPT-4 Turbo, Claude 3 Opus: %86-88.
- Claude 3.5 Sonnet (2024): %88.7.
- Llama 3 (2024): ~%82.
- Grok 2: ~%85.
İnsan referansı: uzmanın ortalaması %90. Modern modeller insan uzmanına çok yakın.
"Doyma sınırı"
MMLU 2024'te doyma noktasına yaklaşıyor. Hata oranı %10-15. Yeni modeller arası fark az.
Sorunlar:
- Test seti sızıntısı: Eğitim verisinde sorular olabilir.
- Format kısıtı: 4 seçenek üzerinde "akıl yürütme" sınırlı test.
- Bias: İngilizce odaklı; sorular kültürel olarak ABD-merkez.
Modern AI yarışı daha zor benchmark'lara kaydı: GPQA, HLE, AGIEval.
GPQA (2023) — yeni eşik
Graduate-Level Physics, Biology, and Chemistry benchmark'ı. PhD seviyesi sorular. Modern modeller %30-50 alır (bilirkişi non-PhD %30).
GPQA MMLU'nun "doyma"sının bir sonucu — daha zor sorular gerek.
Hendrycks ve "Center for AI Safety"
Dan Hendrycks, MMLU'nun baş yazarı. AI güvenlik araştırmacısı. Center for AI Safety (CAIS)'i yönetiyor.
2023'te ünlü bir mektup: "AI yapay zekânın varoluşsal riskini ciddiye almalı." İmzalayanlar: Hinton, Bengio, Altman, Amodei. Binlerce akademisyen.
Hendrycks akademik AI güvenlik söyleminin merkez figürlerinden.
"Benchmark wars"
Modern AI yarışı MMLU savaşları olarak görülür. Şirketler:
- "%89!" yeni model duyurusu.
- "%91!" rakip duyurusu.
- Akademik tartışma: skor şişirmeyle gerçek ilerleme arasındaki fark.
Bu yarış akademik düşünce kadar pazarlama.
Sınırlamalar — modern eleştiri
Akademik camianın eleştirileri:
- Memorization: Sorular eğitim verisinde olabilir.
- Zihinsel cinsiyet: ABD lise/üniversite sistemi odaklı.
- Görev örtüsmesi: Çoktan seçmeli format her şeyi yakalamaz.
- Bağlam yok: Tek soru, geçmiş yok.
Modern değerlendirme bu nedenle çoklu benchmark kullanır: MMLU + GPQA + HumanEval + MATH + ChatBot Arena.
Türkçe MMLU yok
MMLU İngilizcedir. mMMLU (multilingual) var ama Türkçe dahil 14 dil. Türkçe için TR-MMLU çalışmaları başladı ama henüz standardize değil.
Bu, AI değerlendirmesinde dil eşitsizliğinin somut örneği.
Sade ders
MMLU hikâyesinden iki şey:
- Benchmark'lar yarış dilini şekillendirir. "MMLU 88" demek, modern AI dünyasında somut başarı. Akademik standartlar endüstri kararlarını yönlendirir.
- Çoktan seçmeli "akıl yürütme"yi tam yakalayamaz. Gerçek dünya görevleri açık uçlu, çoklu adım. MMLU yararlıdır ama yetmez.
Bağlam
GLUE/SuperGLUE için: [[sam-bowman-nyu-dan-anthropic-e-llm-degerlendirmesinin-uzmani]]. Perplexity ölçü için: [[perplexity-dil-modeli-degerlendirmesinin-eski-altin-standardi]]. Chain-of-Thought ile reasoning için: [[chain-of-thought-llm-leri-akil-yurutmeye-zorlamak]]. Modern model değerlendirmesi için: [[bleu-rouge-bertscore-ceviri-ozetleme-metrikler]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. MMLU nedir?
2. GPT-4 MMLU'da ne aldı?
3. MMLU'nun sorunu nedir?
4. Hendrycks başka ne yapar?
5. Türkçe için MMLU var mı?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?