UMAP: Modern Boyut İndirgeme ve Topolojinin Pratik Yansıması
t-SNE'nin yerini alıyor. Daha hızlı, küresel yapıyı koruyan, modern veri biliminin standart aracı.

"t-SNE'den hızlı, daha iyi global yapı"
t-SNE 2008'den beri standart ama:
- Yavaş: 50k-100k nokta zorlu.
- Global yapı kaybı: kümeler arası uzaklık anlamsız.
- Hyperparameter hassas: "perplexity" sezgisel.
2018: Leland McInnes (Tutte Institute) UMAP'ı yayınladı. Uniform Manifold Approximation and Projection.
Sonuç: birkaç yılda t-SNE'nin yerine geçti.
Sezgi
Veri büyük olasılıkla alt boyutlu bir manifold üzerinde duruyor. UMAP bunu kabul edip:
- Yüksek boyutta verinin yerel topolojisini tanımla (k-en yakın komşu grafiği).
- Düşük boyutta benzer topoloji oluştur.
- İki topoloji arasında kayıp minimize et.
Teknik özet
Adım 1: Yüksek boyutta graf
Her nokta için k-en yakın komşu. Her komşuya bir olasılık ağırlığı:
- Yerel ölçek ile normalize.
- Uniform manifold varsayımı.
Sonuç: fuzzy simplicial complex — topological yapı.
Adım 2: Düşük boyutta optimize
Düşük boyuttaki noktalar için benzer graf yapı kur. Cross-entropy minimize et:
Stochastic gradient descent ile.
t-SNE ile fark
| t-SNE | UMAP | |
|---|---|---|
| Hız | Yavaş | 10x hızlı |
| Global yapı | Kötü | Daha iyi |
| Yeni veri (transform) | Yeniden eğit | Ekleyebilir |
| Hiperparametre | perplexity | n_neighbors, min_dist |
| Matematiksel temel | KL divergence | Riemannian geometry, topology |
| Olgun versiyon | 16 yıl | 6 yıl |
Hiperparametreler
- n_neighbors: yerel komşuluk boyutu (5-50). Küçük → yerel yapı, büyük → küresel yapı.
- min_dist: noktaların ne kadar sıkıca paketlendiği (0.0-1.0). Küçük → ayrık kümeler, büyük → düz dağılım.
Bu ikisinin ayarı, UMAP'ın "neye odaklandığını" belirler.
Avantajlar
- Çok büyük veri: milyonlarca nokta destekler.
- Yeni veri: eğitilen modelle yeni noktalar transform edilebilir (t-SNE bunu yapamaz).
- Boyutu istediğin gibi: 2D, 3D veya 50D (downstream model girdi olarak).
- Topolojik kanıt: matematiğe dayalı.
Sınırlamalar
- Yine stochastic: farklı seed → farklı sonuç.
- Global yapı: t-SNE'den iyi, ama yine de mükemmel değil.
- Hyperparameter etkisi büyük: deneme yanılma.
- Yorumlama: 2D koordinatlar mutlak anlamsız — sadece göreli.
Modern AI'da kullanım
1. Embedding görselleştirmesi
LLM cümle gömmelerini 2D'de göster. BERTopic, Hugging Face tools.
2. Tek-hücre genomi
scRNA-seq verilerinde hücre tiplerini ayır. Scanpy standart.
3. Pre-processing
Yüksek boyut → UMAP 50D → ML modeli (örn. HDBSCAN).
4. Anomaly detection
UMAP sonrası anormal noktalar uzakta olur.
5. Active learning
UMAP haritasında çeşitli noktalar etiketleme için seç.
BERTopic pipeline
Modern topic modeling:
- BERT/Sentence-BERT ile embedding.
- UMAP ile 5-10D'ye indir.
- HDBSCAN ile kümele.
- Küme başına TF-IDF ile anahtar kelime.
Bu dört adım Türk Twitter analizi, müşteri yorum analizi için standart.
McInnes ve Healy
UMAP'ın yazarı Leland McInnes — bir matematik PhD'si, Tutte Institute (Kanada). Modern ML'de arka planı saf matematik olan nadir araştırmacılardan.
UMAP makalesinin matematik bölümü Riemannian geometri yoğun — birçok ML uzmanı bile zorlanır.
Türkiye uygulamaları
- NLP araştırmaları: BERTurk vektörlerinin görselleştirmesi.
- Genetik: tek hücre tip ayrımı (Türk biyobilim çalışmaları).
- Sosyal medya: trend kümeleri.
- Eğitim: öğrenci performans tiplemeleri.
Kapanış
UMAP, matematiksel olarak derin ama pratikte basit bir araç. t-SNE'nin yerini almakla kalmadı, modern data science pipeline'ının vazgeçilmez öğesi oldu. Yeni veri kümeniz mi var? Önce UMAP + scatter çiz.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. UMAP'ın tam adı?
2. t-SNE'ye göre temel avantajları?
3. İki ana hiperparametre?
4. Matematiksel temeli?
5. Modern topic modeling pipeline'ı?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?