164 Python programlama probleminden oluşan AI kodlama benchmark'ı (OpenAI 2021)

Model k cevap üretsin, en az biri test geçerse: pass; pass@1 strict

Modern modellerin HumanEval skorları?

GPT-4, Claude 3.5 Sonnet %90+ — insan seviyesine yakın/geçti

SWE-bench HumanEval'den ne ile ayrılır?

Gerçek GitHub bug'larını çözer — büyük yazılım mühendisliği, tek fonksiyon değil

GitHub Copilot ne yapar?

Codex modelinin pratik IDE entegrasyonu — 1.3M+ paying customer

HumanEval: LLM'leri Kod Yazma Konusunda Değerlendirmek

Kod yazımı ölçülebilir mi?

Çoğu AI görevi sübjektif: bir şiir "iyi" mi? Tartışılır. Bir cevap "doğru" mu? Bağlama göre.

Kod farklı. Kod ya çalışır ya çalışmaz. Test geçer ya geçmez. Bu nedenle kod, AI değerlendirmesinin en temiz görevi.

2021'de OpenAI Codex makalesinde HumanEval benchmark'ı tanıttı. 164 Python programlama problemi.

Format

Her problem üç parça:

Fonksiyon imzası ve docstring: Modele girdi.
Kanonik çözüm: İnsan tarafından yazılmış doğru cevap.
Test fonksiyonu: Çözümü değerlendiren unit testler.

Örnek:

def has_close_elements(numbers: List[float], threshold: float) -> bool:
    """Check if in given list of numbers, any two numbers are closer
    to each other than given threshold.
    """

Model fonksiyonu tamamlamalı. Sonra test:

assert has_close_elements([1.0, 2.0, 3.9, 4.0], 0.3) == True
assert has_close_elements([1.0, 2.0, 5.9, 4.0], 0.95) == True

Test geçerse: pass. Geçmezse: fail.

pass@k metriği

Model her problem için k cevap üretsin. En az biri test geçerse: pass. Skor: pass@k.

pass@1: Tek deneme. Strict.
pass@10: 10 deneme. Daha makul.
pass@100: "Bir çözüm var mı?" sorusu.

Genelde pass@1 asıl ölçü. Modern LLM'ler için referans.

Skorlar — modern AI tarihi

HumanEval pass@1 tarihi:

Codex (2021): ~%29.
GPT-3.5: ~%48.
GPT-4 (2023): %67-88 (versiyona göre).
Claude 3.5 Sonnet (2024): %92.
GPT-4o: %90+.
DeepSeek-Coder (2024): %85-90.

İnsan referansı: deneyimli geliştiriciler ~%95-98. Modern modeller insan seviyesine çok yakın ya da geçti.

"Doyma"

HumanEval da MMLU gibi doyma noktasında. Modeller %90+ alıyor; ayırt edicilik düşük.

Yeni benchmark'lar:

MBPP (Mostly Basic Python Problems): Daha sade ama 974 problem.
APPS: Algoritma problemleri.
CodeContests: Yarışma seviyesi (Codeforces gibi).
SWE-bench: Gerçek GitHub bug'larını çözme.
LiveCodeBench: Sürekli güncel (data sızıntısı yok).

SWE-bench özellikle önemli: ekibin gerçek dünya sorunlarını ölçer.

GitHub Copilot — somut ürün

HumanEval'in akademik değerinin yanı sıra GitHub Copilot (2021+) ticari başarıdır. Codex modelinin pratik versiyonu.

2024'te 1.3M+ paying customer. Geliştirici verimliliğini artırdığı iddiası deneylerle kanıtlandı (eleştirilere rağmen).

Bu, AI kodlamanın gerçek ekonomik etkisidir.

Modern eğilim — agentic kodlama

2024-2025'te AI kodlama agentic moda kaydı:

Devin (Cognition AI): Otonom yazılım mühendisi.
Cursor: AI-doğal IDE.
Aider, Claude Code: Komut satırı AI kodlama.

Bu sistemlerin değerlendirmesi tek bir fonksiyon yazımı değil, çok adımlı yazılım mühendisliği. SWE-bench bu yönde.

Sınırlamalar

HumanEval sorunları:

Python'a özgü: Diğer dilleri kapsamıyor.
Algoritma odaklı: Gerçek dünya kodu farklı.
Kısa: Birkaç fonksiyon, büyük sistem değil.
Data sızıntısı: Internet'te sorular var, modeller görmüş olabilir.

Modern değerlendirme bunları aşmak için çoklu benchmark + dinamik.

Sade ders

HumanEval hikâyesinden iki şey:

Kod, AI değerlendirmesinin en temiz görevi. Test geçer/geçmez. Sübjektivite yok. Bu netlik, ilerlemeyi ölçmeyi kolaylaştırır.
Benchmark'lar gerçek dünya ile ayrışabilir. %92 HumanEval = harika programcı mı? Belki çoğu sade görevde. Ama büyük yazılım mühendisliği için yetmez. SWE-bench bu farkı kapatmaya çalışıyor.

Bağlam

MMLU için: [[mmlu-modern-llm-degerlendirmesinin-altin-standardi]]. Codex ve AI kodlama tarihinin akademik analizi için: [[chain-of-thought-llm-leri-akil-yurutmeye-zorlamak]]. GitHub Copilot pratik etkisi için: [[function-calling-llm-ye-arac-vermek]]. Agentic kodlama için: [[devin-cognition-ai-otonom-yazilim-muhendisi]] (varsa). DeepSeek ve Çin modeli için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]].

HumanEval: LLM'leri Kod Yazma Konusunda Değerlendirmek

Kod yazımı ölçülebilir mi?

Format

pass@k metriği

Skorlar — modern AI tarihi

"Doyma"

GitHub Copilot — somut ürün

Modern eğilim — agentic kodlama

Sınırlamalar

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü