Tüm yazılar
Bilim Tarihi20 Ocak 2025

Laurens van der Maaten: t-SNE ile Veriyi 2D'de Görmeyi Kolaylaştıran Hollandalı

Yüksek boyutlu veriyi anlamak için t-SNE bugün her ML mühendisinin başvurduğu araç. Maaten, Hollanda doktora döneminde ortaya çıkardı.

Matematik Karavanı 5 dk okuma 5 soru
Amsterdam kanalları — Hollanda bilim metaforu

"Yüksek boyutu 2D'de göster"

Modern bir LLM bir cümleyi 4096 boyutlu bir vektöre çevirir. Bu vektörü gözle anlamak imkansız. Hangi cümleler benzer? Kümeler var mı?

Çözüm: boyut indirgeme. 4096 boyutu 2 veya 3'e indir, ekranda çiz.

En popüler araç: t-SNE (t-distributed Stochastic Neighbor Embedding) — Laurens van der Maaten'in 2008'de Geoffrey Hinton ile yazdığı algoritma.

Yol

  • Maastricht Üniversitesi (Hollanda) — yapay zeka lisans.
  • Tilburg Üniversitesi doktora (2009) — Eric Postma ile.
  • Hinton'da post-doc Toronto'da (kısa bir dönem).
  • Delft Üniversitesi, TU Eindhoven — uzun süreli akademik.
  • Facebook AI Research (FAIR)Meta AI — şu an direktör seviyesi.

t-SNE (2008)

Problem: yüksek boyutta yakın olan noktalar 2D'de de yakın olsun.

Klasik PCA: lineer dönüşüm — lineer ilişkileri korur. Sinir ağı temsilleri lineer değil — PCA yetersiz.

t-SNE'nin sezgisi:

  1. Yüksek boyutta her nokta için olasılık dağılımı: bir noktanın diğerlerine "yakınlık" olasılığı (Gaussian).
  2. 2D'de farklı dağılım: t-distribution (uzun kuyruklu).
  3. KL divergence'ı minimize et: yüksek boyut dağılımı ile 2D dağılım arasında.

KL(PQ)=i,jpijlogpijqijKL(P \| Q) = \sum_{i,j} p_{ij} \log \frac{p_{ij}}{q_{ij}}

Sonuç: noktalar 2D'de yerlerini iterasyonla bulur.

Neden t-distribution?

Gaussian değil Student-t kullanmanın sebebi: kalabalık problemi (crowding problem).

Yüksek boyutta bir noktadan birçok başka nokta eşit uzaklıkta olabilir. 2D'de bu mümkün değil. t-dağılımının uzun kuyruğu uzak noktalara daha çok yer verir — kümeler daha net görünür.

Etki

  • 30,000+ alıntı — modern ML'nin en çok alıntılanan makalelerinden.
  • Her büyük embedding gösteriminde t-SNE: BERT, CLIP, GPT-2 embeddings.
  • scikit-learn standart, Python/R/MATLAB her yerde.

Diğer katkıları

Barnes-Hut t-SNE (2014)

Klasik t-SNE O(N2)O(N^2) — büyük veriyle yavaş. Barnes-Hut algoritması O(NlogN)O(N \log N) — milyonlarca nokta mümkün.

Open-source liderliği

FAIR dönemi:

  • PySlowFast (video understanding).
  • DINO, DINOv2 (self-supervised vision).
  • SAM 1/2 (segment anything) — Hadsell ekibinden değil ama yakın iş birliği.
  • No Language Left Behind (200 dilde çeviri).

UMAP ile fark

UMAP (2018, McInnes) — t-SNE'ye rakip:

  • Daha hızlı.
  • Global yapı daha iyi korunur.
  • Topolojik bakış (manifold).

t-SNE: kümeleri güzel gösterir. UMAP: küresel ilişkileri korur.

Modern data science'da UMAP çoğunlukla tercih edilir; t-SNE hâlâ popüler.

Felsefe

Maaten'in temaları:

  • Görselleştirme bilimseldir: "görmek" hipoteze götürür.
  • Açık kaynak: her teknik kullanıcıya ulaşmalı.
  • Hollanda mühendislik tarzı: basit, sağlam, pratik.

Türk veri bilimi için bağlam

  • Türk üniversitelerinde t-SNE veri görselleştirmenin standart aracı.
  • ODTÜ ve Boğaziçi ML derslerinde mecburi konu.
  • Türkçe NLP araştırmalarında BERTurk embedding'lerin t-SNE'si görsel kanıt.

Meta'da rolü

Meta AI Research (FAIR) bünyesinde:

  • Vision araştırmaları.
  • Açık kaynak modeller (Llama dahil değil ama yakın).
  • Avrupa AI politikası.

Kapanış

Laurens van der Maaten, görselleştirmeyi bilim aracı olarak yükselten ML araştırmacılarındandır. t-SNE olmasaydı modern embedding analizi bambaşka olurdu. Türk veri bilimcileri için her gün dolaylı olarak onun kodunu kullanırlar.

Etiketler

Laurens van der Maatent-SNEboyut indirgemeMeta AIHollanda

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. t-SNE ne yapar?

2. Neden t-distribution?

3. Co-author?

4. UMAP ile fark?

5. Şu an çalıştığı yer?