Tüm yazılar
Matematik3 Eylül 2025

Embedding: Kelimeleri Sayılara Çevirip Anlamı Yakalama

"Kral - erkek + kadın = kraliçe". Modern AI'nın garip sırrı: kelimeler **vektörler** olarak temsil edilir; kavramsal işlemler **aritmetik** olarak çalışır. Word2Vec'ten BERT'e modern NLP'nin temel taşı.

Matematik Karavanı Editörü 4 dk okuma 5 soru
Yön levhaları — vektörel yön metaforu

"Kral - erkek + kadın = ?"

Modern AI'nın bir mucizesi:

  • kral → vektör vkralv_{kral}.
  • erkek → vektör verkekv_{erkek}.
  • kadın → vektör vkadınv_{kadın}.

vkralverkek+vkadınvkralic\cev_{kral} - v_{erkek} + v_{kadın} \approx v_{kraliçe}.

Kelimeler vektör olarak temsil edilir; kavramsal işlemler aritmetik olarak çalışır.

Bu, embedding'in temel mucizesidir.

Resmi tanım

Embedding: bir nesneyi (kelime, cümle, görüntü) sabit boyutlu vektöre dönüştüren fonksiyon.

f:nesneRdf: \text{nesne} \to \mathbb{R}^d

dd tipik 768 veya 1536.

İdeal özellikler:

  • Anlamsal benzerlik = vektör benzerliği.
  • Aritmetik anlamlı ("kral - erkek + kadın").
  • Sabit boyut (kelime uzunluğundan bağımsız).

Tarihsel köken

Distributional hypothesis (1950'ler)

Firth: "Bir kelimenin anlamı, çevresindeki kelimelerden anlaşılır."

Modern embedding'in felsefi temeli.

LSA (1990'lar)

Latent Semantic Analysis: SVD ile döküman-kelime matrisi.

Word2Vec (2013)

Tomas Mikolov ve Google ekibi:

  • CBOW: çevre kelimelerden hedef kelimeyi tahmin.
  • Skip-gram: hedeften çevreyi tahmin.

Modern kelime embedding'lerinin başlangıcı. 300 boyutlu vektörler.

GloVe (2014)

Stanford: Global Vectors. Kelime-kelime ko-occurrence matrisi.

ELMo (2018)

Bağlamsal embedding'ler. Aynı kelime farklı bağlamda farklı vektör.

BERT (2018)

Devlin et al. (Google): Bidirectional Encoder Representations. Modern bağlamsal embedding standardı.

Modern embedding modelleri

  • OpenAI ada-002, text-embedding-3.
  • Sentence-BERT (Reimers, 2019).
  • BGE (BAAI, Çinli).
  • E5, NV-Embed.

Niçin işe yarar?

Distributional hypothesis matematiksel:

  • Benzer bağlamlarda geçen kelimeler benzer anlamlıdır.
  • Benzer anlamlı kelimeler benzer vektörlere sahip.

Aritmetik ise yan etki: ilişkiler vektör farkı olarak yakalanır.

Cümle embedding'leri

Kelime embedding'leri kelime için. Modern uygulamalar cümle veya doküman embedding'leri gerektirir.

Teknikler:

Ortalama

Kelime vektörlerinin ortalaması. Basit, çoğu zaman iyi.

Sentence-BERT

İki cümleyi karşılaştırarak fine-tune. Modern standart.

Instruction-tuned

Görev talimatı + cümle → embedding.

Modern uygulamalar

1. Arama

Google Search'ün modern temeli. Anlamsal arama.

2. RAG

Önceki yazımızda. Modern enterprise AI'nın temeli.

3. Tavsiye sistemleri

Kullanıcı + ürün embedding'leri.

4. Duygu analizi

Pozitif/negatif yorum.

5. Çeviri

Word2Vec ile başlangıç; modern NMT.

6. Anomali tespiti

Olağandışı verileri bulma.

7. Sınıflandırma

Embedding + lineer sınıflandırıcı = iyi baseline.

Sıra dışı uygulamalar

  • Görüntü embedding (CLIP).
  • Audio embedding.
  • Molekül embedding (kimya).
  • Protein embedding (biyoloji).
  • Kod embedding.

Modern AI her şey vektör.

Sınırlamalar

  • Önyargı: kelimelerle gelen sosyal önyargılar.
  • Bağlam eksikliği: word2vec sabit, BERT bağlamsal.
  • Çok dillilik: dil-bağımsız embedding zor.
  • Yorumlanabilirlik: 768 boyut ne demek?

Felsefi anlamı

Embedding: "Anlam vektör uzayında yaşar".

Modern AI mimarisi: veri → vektör → işlem → vektör → çıktı.

İnsan zekasının matematik karşılığı: kavramlar soyut uzayda noktalardır.

Sonuç

Embedding:

  • Kelimeleri sayılara dönüştürme matematik temeli.
  • Word2Vec (2013) modern başlangıç.
  • BERT (2018) bağlamsal devrim.
  • Modern AI'nın her yerinde.

"Kral - erkek + kadın = kraliçe" — modern AI'nın en şaşırtıcı matematik buluşlarından.

"Anlam matematiktir." Embedding'in paradigması.

Etiketler

embeddingWord2VecBERTmodern NLPvektör temsili

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Embedding ne sağlar?

2. Word2Vec'i kim ne zaman tanıttı?

3. BERT'in özelliği nedir?

4. "Kral - erkek + kadın = kraliçe" örneği niye önemli?

5. Embedding'in distributional hypothesis temeli nedir?