Tüm yazılar
Matematik5 Ocak 2025

Sınıflandırma Metrikleri: Precision, Recall, F1, ROC-AUC

Doğruluk yetmez. Spam filtresi, kanser testi, fraud — her durumda farklı metrik tercih edilir. Modern ML'in vazgeçilmez sözcüğü.

Matematik Karavanı 6 dk okuma 5 soru
Tıbbi laboratuvar testleri — tanı metrikleri metaforu

"Modelim %95 doğru" yetersizdir

Bir kanser testi modeli düşünün. Hastaların %99'u sağlıklı. Model her zaman "sağlıklı" dese %99 doğruluk alır — ama hiçbir kanser yakalamaz.

Bu yüzden doğruluk (accuracy) yanıltıcıdır. Daha incelikli metrikler lazım.

Confusion Matrix (Karmaşıklık Matrisi)

İkili sınıflandırmada her tahmin dört kutudan birine düşer:

Tahmin: PozitifTahmin: Negatif
Gerçek: PozitifTP (True Positive)FN (False Negative)
Gerçek: NegatifFP (False Positive)TN (True Negative)

Temel metrikler

Accuracy (Doğruluk)

Accuracy=TP+TNTP+TN+FP+FN\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}

Genel doğru oranı. Dengesiz sınıflarda yanıltıcı.

Precision (Hassasiyet)

Precision=TPTP+FP\text{Precision} = \frac{TP}{TP + FP}

"Pozitif dediklerimin kaçı gerçekten pozitif?"

Spam filtresi: precision yüksek olmalı (yanlış pozitif = önemli e-posta kayıp).

Recall (Anma) / Sensitivity

Recall=TPTP+FN\text{Recall} = \frac{TP}{TP + FN}

"Gerçek pozitiflerin kaçını yakaladım?"

Kanser tarama: recall yüksek olmalı (yanlış negatif = kanser kaçır).

F1 Score

F1=2PrecisionRecallPrecision+RecallF_1 = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

Precision + recall dengeli ortalama (harmonik). Tek skor istediğinizde.

Specificity (Özgüllük)

Specificity=TNTN+FP\text{Specificity} = \frac{TN}{TN + FP}

"Gerçek negatiflerin kaçını doğru reddettim?"

Trade-off

Eşik (threshold) ayarı:

  • Yüksek eşik: precision artar, recall düşer.
  • Düşük eşik: recall artar, precision düşer.

Her uygulama için doğru denge farklı.

ROC Curve (Receiver Operating Characteristic)

Tüm eşik değerleri için TPR vs FPR çiz:

  • TPR (True Positive Rate) = Recall.
  • FPR (False Positive Rate) = 1 - Specificity.

Sol-üst köşeye ne kadar yakınsa o kadar iyi.

AUC (Area Under Curve)

ROC eğrisi altındaki alan:

  • AUC = 1.0: mükemmel ayrım.
  • AUC = 0.5: rastgele.
  • AUC = 0.9+: çok iyi.

Avantaj: eşikten bağımsız.

Precision-Recall (PR) Curve

Dengesiz sınıflarda ROC yetersiz olabilir. PR curve:

  • X: Recall, Y: Precision.
  • AUC-PR: alan altı.

Spam, fraud, kanser gibi seyrek pozitif sınıflarda PR curve daha bilgilendirici.

Çok sınıflı

K sınıf için her sınıfı birer kez pozitif kabul ederek metrik hesapla:

  • Macro F1: her sınıfın F1'ini ortala.
  • Micro F1: toplam TP, FP, FN üzerinden F1.
  • Weighted F1: sınıf büyüklüğüne göre ağırlıklı.

Hangi metrik ne zaman?

UygulamaTercih
Spam filtreYüksek precision
Kanser taramaYüksek recall
Fraud detectionF1 veya AUC-PR
Genel doğrulukAccuracy
Eşik bağımsızAUC
Dengesiz sınıfAUC-PR, F1

Modern AI'da

LLM değerlendirme:

  • Doğruluk: matematik problem (kesin cevap).
  • F1 / BLEU / ROUGE: çeviri, özetleme.
  • MMLU: çoklu seçim sınıflandırma.
  • HumanEval: kod doğruluğu (pass@k).

Yanılgılar

1. Accuracy paradox

%99 sınıf dengesizliğinde her zaman çoğunluk demek %99 doğruluk verir.

2. ROC misuse

PR curve dengesiz veride daha bilgilendirici.

3. Eşik unutma

Modelin çıktısı olasılık, kararı eşik. Eşiği değiştirmeden metrik karşılaştırma eksik.

4. Cross-validation atlama

Tek bir random split metriği = tek bir noktadan tahmin.

Türk endüstrisi örnekleri

  • Garanti BBVA fraud: AUC-PR + precision optimizasyonu (yanlış alarm maliyetli).
  • Türk SSK COVID: recall öncelik (yakalanmayan vaka tehlikeli).
  • Trendyol öneri: NDCG, Hit@K gibi sıralama metrikleri.
  • Acıbadem tıbbi AI: sensitivity 95%+ standart.

Doktor analojisi

  • Hassas test (high precision): "Pozitif diyorsa kesin doğru".
  • Duyarlı test (high recall): "Hasta varsa yakalar".

Klasik tıp metrikleri ile özdeş.

Kapanış

Sınıflandırma metrikleri ML'in alfabesidir. Doğruluğa takılma — uygulamana göre doğru metriği seç. Eşik, sınıf dengesizliği, maliyet — hepsini düşün.

Bir veri biliminin olgunluk işareti: "Bu modelin AUC'si 0.85" yerine "Bu modelin recall'u %92 ve precision %78".

Etiketler

precisionrecallF1ROCsınıflandırma metrikleri

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Precision tanımı?

2. Recall tanımı?

3. F1 ne yapar?

4. AUC ne ölçer?

5. Dengesiz sınıflarda hangi tercih?