DBSCAN: Yoğunluğa Dayalı Kümeleme ve Outlier Tespiti
K-means küresel kümelere mahkum. DBSCAN, "yoğun bölgeler" arayan farklı bir yaklaşımla rastgele şekillere ve aykırı değerlere uyumlu.

K-means'in sınırına geldik
K-means küresel kümeleri varsayar. Ama gerçek dünya nadiren küresel:
- "C" şeklinde veri.
- İç içe halkalar.
- Yoğun + seyrek bölgelerin karışımı.
- Outlier'lar her şeyi bozar.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — 1996, Martin Ester ve ekibi — farklı bir bakış: yoğunluk.
Temel fikir
Küme = birbirine yakın çok sayıda noktanın bulunduğu bölge. Outlier = etrafında yeterli komşusu olmayan nokta.
Hiperparametreler:
- (epsilon): "komşu" sayılma yarıçapı.
- : yoğun sayılmak için gereken minimum komşu sayısı.
Nokta türleri
Her nokta üçten biridir:
- Core point: -yarıçapında komşusu var.
- Border point: yarıçapında daha az komşusu var ama bir core'un komşusu.
- Noise: hiçbir core'a yakın değil → outlier.
Algoritma
- Rastgele bir nokta seç.
- Core point ise:
- Yeni küme başlat.
- -komşularını ekle.
- Onlar da core ise, onların komşularını ekle (BFS/DFS).
- Border ise → kümeye katıl ama genişletme.
- Noise ise → işaretle, devam.
- Tüm noktalar işlenene kadar tekrarla.
Avantajlar
- K önceden bilinmesin: küme sayısı otomatik bulunur.
- Rastgele şekiller: spiral, halka, eğri — hepsini yakalar.
- Outlier dirençli: noise olarak otomatik etiketler.
- Sezgisel: "yoğun yerler küme, seyrek yerler değil".
Sınırlamalar
- Hiperparametre seçimi zor: doğru olmazsa felaket.
- Farklı yoğunluklar: bir kümenin yoğunluğu diğerinden farklıysa zor.
- Yüksek boyut: uzaklık tanımı bozulur (curse of dimensionality).
- Belirsiz border: border noktalar hangi kümeye? — sıraya göre değişebilir.
seçimi
Heuristik: k-distance plot.
- Her noktanın -en yakın komşu uzaklığını çiz, sırala.
- Dirsek noktası iyi .
- tipik.
HDBSCAN (2013)
DBSCAN'in genişletilmesi — hiyerarşik versiyonu:
- seçmek şart değil.
- Farklı yoğunluktaki kümeler.
- Daha sağlam border noktaları.
- scikit-learn-contrib standart.
McInnes ve Healy 2017 modernize etti — modern data science'da DBSCAN'in yerine geçti.
Uygulama alanları
1. Coğrafi veriler
- Müşteri konumlarından sıcak nokta bulma.
- Hastalık vakalarından küme tespiti (epidemiyoloji).
2. Astronomi
- Galaksi kümeleri.
- Asteroit ailesi tespiti.
3. Anomali tespiti
- Kredi kartı fraud (anormal harcamalar).
- Network intrusion (anormal trafik).
- Endüstriyel sensor (arıza tahmini).
4. Görüntü segmentasyonu
- Pixel kümeleri.
- Nesne tespiti ön işlem.
5. Bibliometrik
- Bilim makalelerinin konu kümeleri.
K-means ile karşılaştırma
| K-means | DBSCAN | |
|---|---|---|
| K | Önceden | Otomatik |
| Şekil | Küresel | Rastgele |
| Outlier | Bozar | Tespit eder |
| Hız | Çok hızlı | Daha yavaş |
| Yüksek boyut | Orta | Zayıf |
| Belirsizlik | Yok | Border noktalar |
Sıkça yapılan hata
DBSCAN'i veri ölçeklenmeden çalıştırmak. Yarıçap özelliklerin orijinal birimlerine duyarlı. Standardize edin.
Türk endüstrisi
- Ulaşım: BİTAKSİ/Marti gibi şirketler trafik yoğunluğu kümeleme için.
- Belediye: kentin yoğunluk haritası.
- Telekom: hücre baz istasyon yoğunluğu.
Modern bağlam: derin yerel kümeleme
Modern AI'da DBSCAN tek başına yetmez ama embedding'lerle birleştirilir:
- Cümleyi LLM embedding'le vektörleştir.
- UMAP/t-SNE ile boyut indir.
- HDBSCAN ile kümele.
Bu pipeline modern topic modeling'in standardı (BERTopic).
Kapanış
DBSCAN basit bir fikre dayanır — yoğunluk — ama K-means'in yapamadığı her şeyi yapar. Modern HDBSCAN ile birleştirildiğinde, denetimsiz analizin en sık aracı. Veri biliminin nadir "K önceden bilinmesi şart değil" durumlarında ilk seçenek.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. DBSCAN ne arar?
2. K-means'a göre temel avantaj?
3. İki ana hiperparametre?
4. HDBSCAN ne ekler?
5. En çok kullanım?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?