Tüm yazılar
Matematik19 Ocak 2025

UMAP: Modern Boyut İndirgeme ve Topolojinin Pratik Yansıması

t-SNE'nin yerini alıyor. Daha hızlı, küresel yapıyı koruyan, modern veri biliminin standart aracı.

Matematik Karavanı 6 dk okuma 5 soru
Origami kuğu — manifold gömme metaforu

"t-SNE'den hızlı, daha iyi global yapı"

t-SNE 2008'den beri standart ama:

  • Yavaş: 50k-100k nokta zorlu.
  • Global yapı kaybı: kümeler arası uzaklık anlamsız.
  • Hyperparameter hassas: "perplexity" sezgisel.

2018: Leland McInnes (Tutte Institute) UMAP'ı yayınladı. Uniform Manifold Approximation and Projection.

Sonuç: birkaç yılda t-SNE'nin yerine geçti.

Sezgi

Veri büyük olasılıkla alt boyutlu bir manifold üzerinde duruyor. UMAP bunu kabul edip:

  1. Yüksek boyutta verinin yerel topolojisini tanımla (k-en yakın komşu grafiği).
  2. Düşük boyutta benzer topoloji oluştur.
  3. İki topoloji arasında kayıp minimize et.

Teknik özet

Adım 1: Yüksek boyutta graf

Her nokta için k-en yakın komşu. Her komşuya bir olasılık ağırlığı:

  • Yerel ölçek σ\sigma ile normalize.
  • Uniform manifold varsayımı.

Sonuç: fuzzy simplicial complex — topological yapı.

Adım 2: Düşük boyutta optimize

Düşük boyuttaki noktalar için benzer graf yapı kur. Cross-entropy minimize et:

L=i,j[pijlogpijqij+(1pij)log1pij1qij]\mathcal{L} = \sum_{i,j} \left[ p_{ij} \log \frac{p_{ij}}{q_{ij}} + (1-p_{ij})\log \frac{1-p_{ij}}{1-q_{ij}} \right]

Stochastic gradient descent ile.

t-SNE ile fark

t-SNEUMAP
HızYavaş10x hızlı
Global yapıKötüDaha iyi
Yeni veri (transform)Yeniden eğitEkleyebilir
Hiperparametreperplexityn_neighbors, min_dist
Matematiksel temelKL divergenceRiemannian geometry, topology
Olgun versiyon16 yıl6 yıl

Hiperparametreler

  • n_neighbors: yerel komşuluk boyutu (5-50). Küçük → yerel yapı, büyük → küresel yapı.
  • min_dist: noktaların ne kadar sıkıca paketlendiği (0.0-1.0). Küçük → ayrık kümeler, büyük → düz dağılım.

Bu ikisinin ayarı, UMAP'ın "neye odaklandığını" belirler.

Avantajlar

  • Çok büyük veri: milyonlarca nokta destekler.
  • Yeni veri: eğitilen modelle yeni noktalar transform edilebilir (t-SNE bunu yapamaz).
  • Boyutu istediğin gibi: 2D, 3D veya 50D (downstream model girdi olarak).
  • Topolojik kanıt: matematiğe dayalı.

Sınırlamalar

  • Yine stochastic: farklı seed → farklı sonuç.
  • Global yapı: t-SNE'den iyi, ama yine de mükemmel değil.
  • Hyperparameter etkisi büyük: deneme yanılma.
  • Yorumlama: 2D koordinatlar mutlak anlamsız — sadece göreli.

Modern AI'da kullanım

1. Embedding görselleştirmesi

LLM cümle gömmelerini 2D'de göster. BERTopic, Hugging Face tools.

2. Tek-hücre genomi

scRNA-seq verilerinde hücre tiplerini ayır. Scanpy standart.

3. Pre-processing

Yüksek boyut → UMAP 50D → ML modeli (örn. HDBSCAN).

4. Anomaly detection

UMAP sonrası anormal noktalar uzakta olur.

5. Active learning

UMAP haritasında çeşitli noktalar etiketleme için seç.

BERTopic pipeline

Modern topic modeling:

  1. BERT/Sentence-BERT ile embedding.
  2. UMAP ile 5-10D'ye indir.
  3. HDBSCAN ile kümele.
  4. Küme başına TF-IDF ile anahtar kelime.

Bu dört adım Türk Twitter analizi, müşteri yorum analizi için standart.

McInnes ve Healy

UMAP'ın yazarı Leland McInnes — bir matematik PhD'si, Tutte Institute (Kanada). Modern ML'de arka planı saf matematik olan nadir araştırmacılardan.

UMAP makalesinin matematik bölümü Riemannian geometri yoğun — birçok ML uzmanı bile zorlanır.

Türkiye uygulamaları

  • NLP araştırmaları: BERTurk vektörlerinin görselleştirmesi.
  • Genetik: tek hücre tip ayrımı (Türk biyobilim çalışmaları).
  • Sosyal medya: trend kümeleri.
  • Eğitim: öğrenci performans tiplemeleri.

Kapanış

UMAP, matematiksel olarak derin ama pratikte basit bir araç. t-SNE'nin yerini almakla kalmadı, modern data science pipeline'ının vazgeçilmez öğesi oldu. Yeni veri kümeniz mi var? Önce UMAP + scatter çiz.

Etiketler

UMAPboyut indirgemet-SNEMcInnesmanifold öğrenme

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. UMAP'ın tam adı?

2. t-SNE'ye göre temel avantajları?

3. İki ana hiperparametre?

4. Matematiksel temeli?

5. Modern topic modeling pipeline'ı?