Yüksek boyutlu veriyi 2D/3D'ye indirir, kümeleri görselleştirir

Geoffrey Hinton (2008 NIPS makalesi)

UMAP daha hızlı + global yapı daha iyi; t-SNE küme görselinde hâlâ güzel

Şu an çalıştığı yer?

Meta AI (FAIR) — direktör seviyesi

Laurens van der Maaten: t-SNE ile Veriyi 2D'de Görmeyi Kolaylaştıran Hollandalı

"Yüksek boyutu 2D'de göster"

Modern bir LLM bir cümleyi 4096 boyutlu bir vektöre çevirir. Bu vektörü gözle anlamak imkansız. Hangi cümleler benzer? Kümeler var mı?

Çözüm: boyut indirgeme. 4096 boyutu 2 veya 3'e indir, ekranda çiz.

En popüler araç: t-SNE (t-distributed Stochastic Neighbor Embedding) — Laurens van der Maaten'in 2008'de Geoffrey Hinton ile yazdığı algoritma.

Yol

Maastricht Üniversitesi (Hollanda) — yapay zeka lisans.
Tilburg Üniversitesi doktora (2009) — Eric Postma ile.
Hinton'da post-doc Toronto'da (kısa bir dönem).
Delft Üniversitesi, TU Eindhoven — uzun süreli akademik.
Facebook AI Research (FAIR) → Meta AI — şu an direktör seviyesi.

t-SNE (2008)

Problem: yüksek boyutta yakın olan noktalar 2D'de de yakın olsun.

Klasik PCA: lineer dönüşüm — lineer ilişkileri korur. Sinir ağı temsilleri lineer değil — PCA yetersiz.

t-SNE'nin sezgisi:

Yüksek boyutta her nokta için olasılık dağılımı: bir noktanın diğerlerine "yakınlık" olasılığı (Gaussian).
2D'de farklı dağılım: t-distribution (uzun kuyruklu).
KL divergence'ı minimize et: yüksek boyut dağılımı ile 2D dağılım arasında.

$KL(P \| Q) = \sum_{i,j} p_{ij} \log \frac{p_{ij}}{q_{ij}}$

Sonuç: noktalar 2D'de yerlerini iterasyonla bulur.

Neden t-distribution?

Gaussian değil Student-t kullanmanın sebebi: kalabalık problemi (crowding problem).

Yüksek boyutta bir noktadan birçok başka nokta eşit uzaklıkta olabilir. 2D'de bu mümkün değil. t-dağılımının uzun kuyruğu uzak noktalara daha çok yer verir — kümeler daha net görünür.

Etki

30,000+ alıntı — modern ML'nin en çok alıntılanan makalelerinden.
Her büyük embedding gösteriminde t-SNE: BERT, CLIP, GPT-2 embeddings.
scikit-learn standart, Python/R/MATLAB her yerde.

Diğer katkıları

Barnes-Hut t-SNE (2014)

Klasik t-SNE $O(N^2)$ — büyük veriyle yavaş. Barnes-Hut algoritması $O(N \log N)$ — milyonlarca nokta mümkün.

Open-source liderliği

FAIR dönemi:

PySlowFast (video understanding).
DINO, DINOv2 (self-supervised vision).
SAM 1/2 (segment anything) — Hadsell ekibinden değil ama yakın iş birliği.
No Language Left Behind (200 dilde çeviri).

UMAP ile fark

UMAP (2018, McInnes) — t-SNE'ye rakip:

Daha hızlı.
Global yapı daha iyi korunur.
Topolojik bakış (manifold).

t-SNE: kümeleri güzel gösterir. UMAP: küresel ilişkileri korur.

Modern data science'da UMAP çoğunlukla tercih edilir; t-SNE hâlâ popüler.

Felsefe

Maaten'in temaları:

Görselleştirme bilimseldir: "görmek" hipoteze götürür.
Açık kaynak: her teknik kullanıcıya ulaşmalı.
Hollanda mühendislik tarzı: basit, sağlam, pratik.

Türk veri bilimi için bağlam

Türk üniversitelerinde t-SNE veri görselleştirmenin standart aracı.
ODTÜ ve Boğaziçi ML derslerinde mecburi konu.
Türkçe NLP araştırmalarında BERTurk embedding'lerin t-SNE'si görsel kanıt.

Meta'da rolü

Meta AI Research (FAIR) bünyesinde:

Vision araştırmaları.
Açık kaynak modeller (Llama dahil değil ama yakın).
Avrupa AI politikası.

Kapanış

Laurens van der Maaten, görselleştirmeyi bilim aracı olarak yükselten ML araştırmacılarındandır. t-SNE olmasaydı modern embedding analizi bambaşka olurdu. Türk veri bilimcileri için her gün dolaylı olarak onun kodunu kullanırlar.