Precision ve recall'in harmonik ortalaması — tek skor

ROC eğrisinin altındaki alan — eşik bağımsız model performansı

Dengesiz sınıflarda hangi tercih?

AUC-PR veya F1 — doğruluk yanıltıcı olabilir

Sınıflandırma Metrikleri: Precision, Recall, F1, ROC-AUC

"Modelim %95 doğru" yetersizdir

Bir kanser testi modeli düşünün. Hastaların %99'u sağlıklı. Model her zaman "sağlıklı" dese %99 doğruluk alır — ama hiçbir kanser yakalamaz.

Bu yüzden doğruluk (accuracy) yanıltıcıdır. Daha incelikli metrikler lazım.

Confusion Matrix (Karmaşıklık Matrisi)

İkili sınıflandırmada her tahmin dört kutudan birine düşer:

	Tahmin: Pozitif	Tahmin: Negatif
Gerçek: Pozitif	TP (True Positive)	FN (False Negative)
Gerçek: Negatif	FP (False Positive)	TN (True Negative)

Temel metrikler

Accuracy (Doğruluk)

$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$

Genel doğru oranı. Dengesiz sınıflarda yanıltıcı.

Precision (Hassasiyet)

$\text{Precision} = \frac{TP}{TP + FP}$

"Pozitif dediklerimin kaçı gerçekten pozitif?"

Spam filtresi: precision yüksek olmalı (yanlış pozitif = önemli e-posta kayıp).

Recall (Anma) / Sensitivity

$\text{Recall} = \frac{TP}{TP + FN}$

"Gerçek pozitiflerin kaçını yakaladım?"

Kanser tarama: recall yüksek olmalı (yanlış negatif = kanser kaçır).

F1 Score

$F_1 = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$

Precision + recall dengeli ortalama (harmonik). Tek skor istediğinizde.

Specificity (Özgüllük)

$\text{Specificity} = \frac{TN}{TN + FP}$

"Gerçek negatiflerin kaçını doğru reddettim?"

Trade-off

Eşik (threshold) ayarı:

Yüksek eşik: precision artar, recall düşer.
Düşük eşik: recall artar, precision düşer.

Her uygulama için doğru denge farklı.

ROC Curve (Receiver Operating Characteristic)

Tüm eşik değerleri için TPR vs FPR çiz:

TPR (True Positive Rate) = Recall.
FPR (False Positive Rate) = 1 - Specificity.

Sol-üst köşeye ne kadar yakınsa o kadar iyi.

AUC (Area Under Curve)

ROC eğrisi altındaki alan:

AUC = 1.0: mükemmel ayrım.
AUC = 0.5: rastgele.
AUC = 0.9+: çok iyi.

Avantaj: eşikten bağımsız.

Precision-Recall (PR) Curve

Dengesiz sınıflarda ROC yetersiz olabilir. PR curve:

X: Recall, Y: Precision.
AUC-PR: alan altı.

Spam, fraud, kanser gibi seyrek pozitif sınıflarda PR curve daha bilgilendirici.

Çok sınıflı

K sınıf için her sınıfı birer kez pozitif kabul ederek metrik hesapla:

Macro F1: her sınıfın F1'ini ortala.
Micro F1: toplam TP, FP, FN üzerinden F1.
Weighted F1: sınıf büyüklüğüne göre ağırlıklı.

Hangi metrik ne zaman?

Uygulama	Tercih
Spam filtre	Yüksek precision
Kanser tarama	Yüksek recall
Fraud detection	F1 veya AUC-PR
Genel doğruluk	Accuracy
Eşik bağımsız	AUC
Dengesiz sınıf	AUC-PR, F1

Modern AI'da

LLM değerlendirme:

Doğruluk: matematik problem (kesin cevap).
F1 / BLEU / ROUGE: çeviri, özetleme.
MMLU: çoklu seçim sınıflandırma.
HumanEval: kod doğruluğu (pass@k).

Yanılgılar

1. Accuracy paradox

%99 sınıf dengesizliğinde her zaman çoğunluk demek %99 doğruluk verir.

2. ROC misuse

PR curve dengesiz veride daha bilgilendirici.

3. Eşik unutma

Modelin çıktısı olasılık, kararı eşik. Eşiği değiştirmeden metrik karşılaştırma eksik.

4. Cross-validation atlama

Tek bir random split metriği = tek bir noktadan tahmin.

Türk endüstrisi örnekleri

Garanti BBVA fraud: AUC-PR + precision optimizasyonu (yanlış alarm maliyetli).
Türk SSK COVID: recall öncelik (yakalanmayan vaka tehlikeli).
Trendyol öneri: NDCG, Hit@K gibi sıralama metrikleri.
Acıbadem tıbbi AI: sensitivity 95%+ standart.

Doktor analojisi

Hassas test (high precision): "Pozitif diyorsa kesin doğru".
Duyarlı test (high recall): "Hasta varsa yakalar".

Klasik tıp metrikleri ile özdeş.

Kapanış

Sınıflandırma metrikleri ML'in alfabesidir. Doğruluğa takılma — uygulamana göre doğru metriği seç. Eşik, sınıf dengesizliği, maliyet — hepsini düşün.

Bir veri biliminin olgunluk işareti: "Bu modelin AUC'si 0.85" yerine "Bu modelin recall'u %92 ve precision %78".