HumanEval: LLM'leri Kod Yazma Konusunda Değerlendirmek
OpenAI Codex'in 2021'de tanıttığı, "fonksiyon imzası ver, kodu yazsın" formatıyla AI kodlamanın standart ölçütü.

Kod yazımı ölçülebilir mi?
Çoğu AI görevi sübjektif: bir şiir "iyi" mi? Tartışılır. Bir cevap "doğru" mu? Bağlama göre.
Kod farklı. Kod ya çalışır ya çalışmaz. Test geçer ya geçmez. Bu nedenle kod, AI değerlendirmesinin en temiz görevi.
2021'de OpenAI Codex makalesinde HumanEval benchmark'ı tanıttı. 164 Python programlama problemi.
Format
Her problem üç parça:
- Fonksiyon imzası ve docstring: Modele girdi.
- Kanonik çözüm: İnsan tarafından yazılmış doğru cevap.
- Test fonksiyonu: Çözümü değerlendiren unit testler.
Örnek:
def has_close_elements(numbers: List[float], threshold: float) -> bool:
"""Check if in given list of numbers, any two numbers are closer
to each other than given threshold.
"""
Model fonksiyonu tamamlamalı. Sonra test:
assert has_close_elements([1.0, 2.0, 3.9, 4.0], 0.3) == True
assert has_close_elements([1.0, 2.0, 5.9, 4.0], 0.95) == True
Test geçerse: pass. Geçmezse: fail.
pass@k metriği
Model her problem için k cevap üretsin. En az biri test geçerse: pass. Skor: pass@k.
- pass@1: Tek deneme. Strict.
- pass@10: 10 deneme. Daha makul.
- pass@100: "Bir çözüm var mı?" sorusu.
Genelde pass@1 asıl ölçü. Modern LLM'ler için referans.
Skorlar — modern AI tarihi
HumanEval pass@1 tarihi:
- Codex (2021): ~%29.
- GPT-3.5: ~%48.
- GPT-4 (2023): %67-88 (versiyona göre).
- Claude 3.5 Sonnet (2024): %92.
- GPT-4o: %90+.
- DeepSeek-Coder (2024): %85-90.
İnsan referansı: deneyimli geliştiriciler ~%95-98. Modern modeller insan seviyesine çok yakın ya da geçti.
"Doyma"
HumanEval da MMLU gibi doyma noktasında. Modeller %90+ alıyor; ayırt edicilik düşük.
Yeni benchmark'lar:
- MBPP (Mostly Basic Python Problems): Daha sade ama 974 problem.
- APPS: Algoritma problemleri.
- CodeContests: Yarışma seviyesi (Codeforces gibi).
- SWE-bench: Gerçek GitHub bug'larını çözme.
- LiveCodeBench: Sürekli güncel (data sızıntısı yok).
SWE-bench özellikle önemli: ekibin gerçek dünya sorunlarını ölçer.
GitHub Copilot — somut ürün
HumanEval'in akademik değerinin yanı sıra GitHub Copilot (2021+) ticari başarıdır. Codex modelinin pratik versiyonu.
2024'te 1.3M+ paying customer. Geliştirici verimliliğini artırdığı iddiası deneylerle kanıtlandı (eleştirilere rağmen).
Bu, AI kodlamanın gerçek ekonomik etkisidir.
Modern eğilim — agentic kodlama
2024-2025'te AI kodlama agentic moda kaydı:
- Devin (Cognition AI): Otonom yazılım mühendisi.
- Cursor: AI-doğal IDE.
- Aider, Claude Code: Komut satırı AI kodlama.
Bu sistemlerin değerlendirmesi tek bir fonksiyon yazımı değil, çok adımlı yazılım mühendisliği. SWE-bench bu yönde.
Sınırlamalar
HumanEval sorunları:
- Python'a özgü: Diğer dilleri kapsamıyor.
- Algoritma odaklı: Gerçek dünya kodu farklı.
- Kısa: Birkaç fonksiyon, büyük sistem değil.
- Data sızıntısı: Internet'te sorular var, modeller görmüş olabilir.
Modern değerlendirme bunları aşmak için çoklu benchmark + dinamik.
Sade ders
HumanEval hikâyesinden iki şey:
- Kod, AI değerlendirmesinin en temiz görevi. Test geçer/geçmez. Sübjektivite yok. Bu netlik, ilerlemeyi ölçmeyi kolaylaştırır.
- Benchmark'lar gerçek dünya ile ayrışabilir. %92 HumanEval = harika programcı mı? Belki çoğu sade görevde. Ama büyük yazılım mühendisliği için yetmez. SWE-bench bu farkı kapatmaya çalışıyor.
Bağlam
MMLU için: [[mmlu-modern-llm-degerlendirmesinin-altin-standardi]]. Codex ve AI kodlama tarihinin akademik analizi için: [[chain-of-thought-llm-leri-akil-yurutmeye-zorlamak]]. GitHub Copilot pratik etkisi için: [[function-calling-llm-ye-arac-vermek]]. Agentic kodlama için: [[devin-cognition-ai-otonom-yazilim-muhendisi]] (varsa). DeepSeek ve Çin modeli için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. HumanEval nedir?
2. pass@k ne ölçer?
3. Modern modellerin HumanEval skorları?
4. SWE-bench HumanEval'den ne ile ayrılır?
5. GitHub Copilot ne yapar?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?