Sınıflandırma Metrikleri: Precision, Recall, F1, ROC-AUC
Doğruluk yetmez. Spam filtresi, kanser testi, fraud — her durumda farklı metrik tercih edilir. Modern ML'in vazgeçilmez sözcüğü.

"Modelim %95 doğru" yetersizdir
Bir kanser testi modeli düşünün. Hastaların %99'u sağlıklı. Model her zaman "sağlıklı" dese %99 doğruluk alır — ama hiçbir kanser yakalamaz.
Bu yüzden doğruluk (accuracy) yanıltıcıdır. Daha incelikli metrikler lazım.
Confusion Matrix (Karmaşıklık Matrisi)
İkili sınıflandırmada her tahmin dört kutudan birine düşer:
| Tahmin: Pozitif | Tahmin: Negatif | |
|---|---|---|
| Gerçek: Pozitif | TP (True Positive) | FN (False Negative) |
| Gerçek: Negatif | FP (False Positive) | TN (True Negative) |
Temel metrikler
Accuracy (Doğruluk)
Genel doğru oranı. Dengesiz sınıflarda yanıltıcı.
Precision (Hassasiyet)
"Pozitif dediklerimin kaçı gerçekten pozitif?"
Spam filtresi: precision yüksek olmalı (yanlış pozitif = önemli e-posta kayıp).
Recall (Anma) / Sensitivity
"Gerçek pozitiflerin kaçını yakaladım?"
Kanser tarama: recall yüksek olmalı (yanlış negatif = kanser kaçır).
F1 Score
Precision + recall dengeli ortalama (harmonik). Tek skor istediğinizde.
Specificity (Özgüllük)
"Gerçek negatiflerin kaçını doğru reddettim?"
Trade-off
Eşik (threshold) ayarı:
- Yüksek eşik: precision artar, recall düşer.
- Düşük eşik: recall artar, precision düşer.
Her uygulama için doğru denge farklı.
ROC Curve (Receiver Operating Characteristic)
Tüm eşik değerleri için TPR vs FPR çiz:
- TPR (True Positive Rate) = Recall.
- FPR (False Positive Rate) = 1 - Specificity.
Sol-üst köşeye ne kadar yakınsa o kadar iyi.
AUC (Area Under Curve)
ROC eğrisi altındaki alan:
- AUC = 1.0: mükemmel ayrım.
- AUC = 0.5: rastgele.
- AUC = 0.9+: çok iyi.
Avantaj: eşikten bağımsız.
Precision-Recall (PR) Curve
Dengesiz sınıflarda ROC yetersiz olabilir. PR curve:
- X: Recall, Y: Precision.
- AUC-PR: alan altı.
Spam, fraud, kanser gibi seyrek pozitif sınıflarda PR curve daha bilgilendirici.
Çok sınıflı
K sınıf için her sınıfı birer kez pozitif kabul ederek metrik hesapla:
- Macro F1: her sınıfın F1'ini ortala.
- Micro F1: toplam TP, FP, FN üzerinden F1.
- Weighted F1: sınıf büyüklüğüne göre ağırlıklı.
Hangi metrik ne zaman?
| Uygulama | Tercih |
|---|---|
| Spam filtre | Yüksek precision |
| Kanser tarama | Yüksek recall |
| Fraud detection | F1 veya AUC-PR |
| Genel doğruluk | Accuracy |
| Eşik bağımsız | AUC |
| Dengesiz sınıf | AUC-PR, F1 |
Modern AI'da
LLM değerlendirme:
- Doğruluk: matematik problem (kesin cevap).
- F1 / BLEU / ROUGE: çeviri, özetleme.
- MMLU: çoklu seçim sınıflandırma.
- HumanEval: kod doğruluğu (pass@k).
Yanılgılar
1. Accuracy paradox
%99 sınıf dengesizliğinde her zaman çoğunluk demek %99 doğruluk verir.
2. ROC misuse
PR curve dengesiz veride daha bilgilendirici.
3. Eşik unutma
Modelin çıktısı olasılık, kararı eşik. Eşiği değiştirmeden metrik karşılaştırma eksik.
4. Cross-validation atlama
Tek bir random split metriği = tek bir noktadan tahmin.
Türk endüstrisi örnekleri
- Garanti BBVA fraud: AUC-PR + precision optimizasyonu (yanlış alarm maliyetli).
- Türk SSK COVID: recall öncelik (yakalanmayan vaka tehlikeli).
- Trendyol öneri: NDCG, Hit@K gibi sıralama metrikleri.
- Acıbadem tıbbi AI: sensitivity 95%+ standart.
Doktor analojisi
- Hassas test (high precision): "Pozitif diyorsa kesin doğru".
- Duyarlı test (high recall): "Hasta varsa yakalar".
Klasik tıp metrikleri ile özdeş.
Kapanış
Sınıflandırma metrikleri ML'in alfabesidir. Doğruluğa takılma — uygulamana göre doğru metriği seç. Eşik, sınıf dengesizliği, maliyet — hepsini düşün.
Bir veri biliminin olgunluk işareti: "Bu modelin AUC'si 0.85" yerine "Bu modelin recall'u %92 ve precision %78".
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Precision tanımı?
2. Recall tanımı?
3. F1 ne yapar?
4. AUC ne ölçer?
5. Dengesiz sınıflarda hangi tercih?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?