Tüm yazılar
Matematik15 Nisan 2025

HumanEval: LLM'leri Kod Yazma Konusunda Değerlendirmek

OpenAI Codex'in 2021'de tanıttığı, "fonksiyon imzası ver, kodu yazsın" formatıyla AI kodlamanın standart ölçütü.

Matematik Karavanı 5 dk okuma 5 soru
Kod ekranı — HumanEval'in kod üretimi formatı

Kod yazımı ölçülebilir mi?

Çoğu AI görevi sübjektif: bir şiir "iyi" mi? Tartışılır. Bir cevap "doğru" mu? Bağlama göre.

Kod farklı. Kod ya çalışır ya çalışmaz. Test geçer ya geçmez. Bu nedenle kod, AI değerlendirmesinin en temiz görevi.

2021'de OpenAI Codex makalesinde HumanEval benchmark'ı tanıttı. 164 Python programlama problemi.

Format

Her problem üç parça:

  1. Fonksiyon imzası ve docstring: Modele girdi.
  2. Kanonik çözüm: İnsan tarafından yazılmış doğru cevap.
  3. Test fonksiyonu: Çözümü değerlendiren unit testler.

Örnek:

def has_close_elements(numbers: List[float], threshold: float) -> bool:
    """Check if in given list of numbers, any two numbers are closer
    to each other than given threshold.
    """

Model fonksiyonu tamamlamalı. Sonra test:

assert has_close_elements([1.0, 2.0, 3.9, 4.0], 0.3) == True
assert has_close_elements([1.0, 2.0, 5.9, 4.0], 0.95) == True

Test geçerse: pass. Geçmezse: fail.

pass@k metriği

Model her problem için k cevap üretsin. En az biri test geçerse: pass. Skor: pass@k.

  • pass@1: Tek deneme. Strict.
  • pass@10: 10 deneme. Daha makul.
  • pass@100: "Bir çözüm var mı?" sorusu.

Genelde pass@1 asıl ölçü. Modern LLM'ler için referans.

Skorlar — modern AI tarihi

HumanEval pass@1 tarihi:

  • Codex (2021): ~%29.
  • GPT-3.5: ~%48.
  • GPT-4 (2023): %67-88 (versiyona göre).
  • Claude 3.5 Sonnet (2024): %92.
  • GPT-4o: %90+.
  • DeepSeek-Coder (2024): %85-90.

İnsan referansı: deneyimli geliştiriciler ~%95-98. Modern modeller insan seviyesine çok yakın ya da geçti.

"Doyma"

HumanEval da MMLU gibi doyma noktasında. Modeller %90+ alıyor; ayırt edicilik düşük.

Yeni benchmark'lar:

  • MBPP (Mostly Basic Python Problems): Daha sade ama 974 problem.
  • APPS: Algoritma problemleri.
  • CodeContests: Yarışma seviyesi (Codeforces gibi).
  • SWE-bench: Gerçek GitHub bug'larını çözme.
  • LiveCodeBench: Sürekli güncel (data sızıntısı yok).

SWE-bench özellikle önemli: ekibin gerçek dünya sorunlarını ölçer.

GitHub Copilot — somut ürün

HumanEval'in akademik değerinin yanı sıra GitHub Copilot (2021+) ticari başarıdır. Codex modelinin pratik versiyonu.

2024'te 1.3M+ paying customer. Geliştirici verimliliğini artırdığı iddiası deneylerle kanıtlandı (eleştirilere rağmen).

Bu, AI kodlamanın gerçek ekonomik etkisidir.

Modern eğilim — agentic kodlama

2024-2025'te AI kodlama agentic moda kaydı:

  • Devin (Cognition AI): Otonom yazılım mühendisi.
  • Cursor: AI-doğal IDE.
  • Aider, Claude Code: Komut satırı AI kodlama.

Bu sistemlerin değerlendirmesi tek bir fonksiyon yazımı değil, çok adımlı yazılım mühendisliği. SWE-bench bu yönde.

Sınırlamalar

HumanEval sorunları:

  1. Python'a özgü: Diğer dilleri kapsamıyor.
  2. Algoritma odaklı: Gerçek dünya kodu farklı.
  3. Kısa: Birkaç fonksiyon, büyük sistem değil.
  4. Data sızıntısı: Internet'te sorular var, modeller görmüş olabilir.

Modern değerlendirme bunları aşmak için çoklu benchmark + dinamik.

Sade ders

HumanEval hikâyesinden iki şey:

  1. Kod, AI değerlendirmesinin en temiz görevi. Test geçer/geçmez. Sübjektivite yok. Bu netlik, ilerlemeyi ölçmeyi kolaylaştırır.
  2. Benchmark'lar gerçek dünya ile ayrışabilir. %92 HumanEval = harika programcı mı? Belki çoğu sade görevde. Ama büyük yazılım mühendisliği için yetmez. SWE-bench bu farkı kapatmaya çalışıyor.

Bağlam

MMLU için: [[mmlu-modern-llm-degerlendirmesinin-altin-standardi]]. Codex ve AI kodlama tarihinin akademik analizi için: [[chain-of-thought-llm-leri-akil-yurutmeye-zorlamak]]. GitHub Copilot pratik etkisi için: [[function-calling-llm-ye-arac-vermek]]. Agentic kodlama için: [[devin-cognition-ai-otonom-yazilim-muhendisi]] (varsa). DeepSeek ve Çin modeli için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]].

Etiketler

HumanEvalCodexcode generationbenchmarkAI kodlama

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. HumanEval nedir?

2. pass@k ne ölçer?

3. Modern modellerin HumanEval skorları?

4. SWE-bench HumanEval'den ne ile ayrılır?

5. GitHub Copilot ne yapar?