57 konuda 16.000+ çoktan seçmeli soru — modern LLM'in akademik karnesi

GPT-4 MMLU'da ne aldı?

%86.5 — insan uzmanına (~%90) yakın

MMLU'nun sorunu nedir?

Doyma — modeller insan seviyesine yakın; eğitim verisinde sızıntı olabilir

Hendrycks başka ne yapar?

Center for AI Safety yönetir; AI varoluşsal risk söyleminin akademik sesi

Türkçe için MMLU var mı?

Yarı — mMMLU 14 dilde, TR-MMLU başladı ama standartlaşmadı

MMLU: Modern LLM Değerlendirmesinin Altın Standardı

"Hangi model daha akıllı?"

GPT-4, Claude, Gemini, Llama. Hangisi daha iyi? Sorgu gerçek hayat performansını ölçmez. Bir standart sınav gerek.

MMLU (Massive Multitask Language Understanding), 2020'de Dan Hendrycks ve ark. tarafından yayımlandı. 57 farklı konu, 16.000+ çoktan seçmeli soru. Lise düzeyinden uzmanlık seviyesine.

Modern LLM'lerin "akademik karne"si haline geldi. Her yeni model duyurusunda MMLU skoru paylaşılır.

57 konu — neler

Konular geniş yelpaze:

STEM:

Lise matematik, üniversite matematik
Lise fizik, üniversite fizik
Lise kimya, biyoloji
Bilgisayar bilimi

Sosyal:

Tarih (dünya, Avrupa, ABD)
Psikoloji, sosyoloji
Ekonomi
Hukuk

Uzmanlık:

Profesyonel tıp
Profesyonel hukuk
Profesyonel muhasebe

Felsefe ve insancıl:

Felsefe, etik
Mantık
Din çalışmaları

Geniş yelpaze sayesinde model çok yönlü test edilir.

Format

Her soru çoktan seçmeli, 4 seçenek:

Soru: Demokratik aşamalı bir hükümeti tanımlayan ilk kayıt nedir?
A) Solonun Atina anayasası (M.Ö. 594)
B) Cleisthenes'in reformları (M.Ö. 508)
C) Periklesın yargılaması (M.Ö. 441)
D) Pisistratus'un demokratikleştirilmiş tiranlığı

Doğru cevap: A.

Bu basit format otomatik değerlendirmeyi mümkün kılar. Model A/B/C/D seçer, doğrulanır.

Modern skorlar

MMLU tarihi:

GPT-3 (2020): ~%44 (sadece az iyi rastgele).
GPT-3.5 (ChatGPT, 2022): ~%70.
GPT-4 (2023): %86.5.
GPT-4 Turbo, Claude 3 Opus: %86-88.
Claude 3.5 Sonnet (2024): %88.7.
Llama 3 (2024): ~%82.
Grok 2: ~%85.

İnsan referansı: uzmanın ortalaması %90. Modern modeller insan uzmanına çok yakın.

"Doyma sınırı"

MMLU 2024'te doyma noktasına yaklaşıyor. Hata oranı %10-15. Yeni modeller arası fark az.

Sorunlar:

Test seti sızıntısı: Eğitim verisinde sorular olabilir.
Format kısıtı: 4 seçenek üzerinde "akıl yürütme" sınırlı test.
Bias: İngilizce odaklı; sorular kültürel olarak ABD-merkez.

Modern AI yarışı daha zor benchmark'lara kaydı: GPQA, HLE, AGIEval.

GPQA (2023) — yeni eşik

Graduate-Level Physics, Biology, and Chemistry benchmark'ı. PhD seviyesi sorular. Modern modeller %30-50 alır (bilirkişi non-PhD %30).

GPQA MMLU'nun "doyma"sının bir sonucu — daha zor sorular gerek.

Hendrycks ve "Center for AI Safety"

Dan Hendrycks, MMLU'nun baş yazarı. AI güvenlik araştırmacısı. Center for AI Safety (CAIS)'i yönetiyor.

2023'te ünlü bir mektup: "AI yapay zekânın varoluşsal riskini ciddiye almalı." İmzalayanlar: Hinton, Bengio, Altman, Amodei. Binlerce akademisyen.

Hendrycks akademik AI güvenlik söyleminin merkez figürlerinden.

"Benchmark wars"

Modern AI yarışı MMLU savaşları olarak görülür. Şirketler:

"%89!" yeni model duyurusu.
"%91!" rakip duyurusu.
Akademik tartışma: skor şişirmeyle gerçek ilerleme arasındaki fark.

Bu yarış akademik düşünce kadar pazarlama.

Sınırlamalar — modern eleştiri

Akademik camianın eleştirileri:

Memorization: Sorular eğitim verisinde olabilir.
Zihinsel cinsiyet: ABD lise/üniversite sistemi odaklı.
Görev örtüsmesi: Çoktan seçmeli format her şeyi yakalamaz.
Bağlam yok: Tek soru, geçmiş yok.

Modern değerlendirme bu nedenle çoklu benchmark kullanır: MMLU + GPQA + HumanEval + MATH + ChatBot Arena.

Türkçe MMLU yok

MMLU İngilizcedir. mMMLU (multilingual) var ama Türkçe dahil 14 dil. Türkçe için TR-MMLU çalışmaları başladı ama henüz standardize değil.

Bu, AI değerlendirmesinde dil eşitsizliğinin somut örneği.

Sade ders

MMLU hikâyesinden iki şey:

Benchmark'lar yarış dilini şekillendirir. "MMLU 88" demek, modern AI dünyasında somut başarı. Akademik standartlar endüstri kararlarını yönlendirir.
Çoktan seçmeli "akıl yürütme"yi tam yakalayamaz. Gerçek dünya görevleri açık uçlu, çoklu adım. MMLU yararlıdır ama yetmez.

Bağlam

GLUE/SuperGLUE için: [[sam-bowman-nyu-dan-anthropic-e-llm-degerlendirmesinin-uzmani]]. Perplexity ölçü için: [[perplexity-dil-modeli-degerlendirmesinin-eski-altin-standardi]]. Chain-of-Thought ile reasoning için: [[chain-of-thought-llm-leri-akil-yurutmeye-zorlamak]]. Modern model değerlendirmesi için: [[bleu-rouge-bertscore-ceviri-ozetleme-metrikler]]. AI güvenliği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]].