Embedding: Kelimeleri Sayılara Çevirip Anlamı Yakalama
"Kral - erkek + kadın = kraliçe". Modern AI'nın garip sırrı: kelimeler **vektörler** olarak temsil edilir; kavramsal işlemler **aritmetik** olarak çalışır. Word2Vec'ten BERT'e modern NLP'nin temel taşı.

"Kral - erkek + kadın = ?"
Modern AI'nın bir mucizesi:
- kral → vektör .
- erkek → vektör .
- kadın → vektör .
.
Kelimeler vektör olarak temsil edilir; kavramsal işlemler aritmetik olarak çalışır.
Bu, embedding'in temel mucizesidir.
Resmi tanım
Embedding: bir nesneyi (kelime, cümle, görüntü) sabit boyutlu vektöre dönüştüren fonksiyon.
tipik 768 veya 1536.
İdeal özellikler:
- Anlamsal benzerlik = vektör benzerliği.
- Aritmetik anlamlı ("kral - erkek + kadın").
- Sabit boyut (kelime uzunluğundan bağımsız).
Tarihsel köken
Distributional hypothesis (1950'ler)
Firth: "Bir kelimenin anlamı, çevresindeki kelimelerden anlaşılır."
Modern embedding'in felsefi temeli.
LSA (1990'lar)
Latent Semantic Analysis: SVD ile döküman-kelime matrisi.
Word2Vec (2013)
Tomas Mikolov ve Google ekibi:
- CBOW: çevre kelimelerden hedef kelimeyi tahmin.
- Skip-gram: hedeften çevreyi tahmin.
Modern kelime embedding'lerinin başlangıcı. 300 boyutlu vektörler.
GloVe (2014)
Stanford: Global Vectors. Kelime-kelime ko-occurrence matrisi.
ELMo (2018)
Bağlamsal embedding'ler. Aynı kelime farklı bağlamda farklı vektör.
BERT (2018)
Devlin et al. (Google): Bidirectional Encoder Representations. Modern bağlamsal embedding standardı.
Modern embedding modelleri
- OpenAI ada-002, text-embedding-3.
- Sentence-BERT (Reimers, 2019).
- BGE (BAAI, Çinli).
- E5, NV-Embed.
Niçin işe yarar?
Distributional hypothesis matematiksel:
- Benzer bağlamlarda geçen kelimeler benzer anlamlıdır.
- Benzer anlamlı kelimeler benzer vektörlere sahip.
Aritmetik ise yan etki: ilişkiler vektör farkı olarak yakalanır.
Cümle embedding'leri
Kelime embedding'leri kelime için. Modern uygulamalar cümle veya doküman embedding'leri gerektirir.
Teknikler:
Ortalama
Kelime vektörlerinin ortalaması. Basit, çoğu zaman iyi.
Sentence-BERT
İki cümleyi karşılaştırarak fine-tune. Modern standart.
Instruction-tuned
Görev talimatı + cümle → embedding.
Modern uygulamalar
1. Arama
Google Search'ün modern temeli. Anlamsal arama.
2. RAG
Önceki yazımızda. Modern enterprise AI'nın temeli.
3. Tavsiye sistemleri
Kullanıcı + ürün embedding'leri.
4. Duygu analizi
Pozitif/negatif yorum.
5. Çeviri
Word2Vec ile başlangıç; modern NMT.
6. Anomali tespiti
Olağandışı verileri bulma.
7. Sınıflandırma
Embedding + lineer sınıflandırıcı = iyi baseline.
Sıra dışı uygulamalar
- Görüntü embedding (CLIP).
- Audio embedding.
- Molekül embedding (kimya).
- Protein embedding (biyoloji).
- Kod embedding.
Modern AI her şey vektör.
Sınırlamalar
- Önyargı: kelimelerle gelen sosyal önyargılar.
- Bağlam eksikliği: word2vec sabit, BERT bağlamsal.
- Çok dillilik: dil-bağımsız embedding zor.
- Yorumlanabilirlik: 768 boyut ne demek?
Felsefi anlamı
Embedding: "Anlam vektör uzayında yaşar".
Modern AI mimarisi: veri → vektör → işlem → vektör → çıktı.
İnsan zekasının matematik karşılığı: kavramlar soyut uzayda noktalardır.
Sonuç
Embedding:
- Kelimeleri sayılara dönüştürme matematik temeli.
- Word2Vec (2013) modern başlangıç.
- BERT (2018) bağlamsal devrim.
- Modern AI'nın her yerinde.
"Kral - erkek + kadın = kraliçe" — modern AI'nın en şaşırtıcı matematik buluşlarından.
"Anlam matematiktir." Embedding'in paradigması.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Embedding ne sağlar?
2. Word2Vec'i kim ne zaman tanıttı?
3. BERT'in özelliği nedir?
4. "Kral - erkek + kadın = kraliçe" örneği niye önemli?
5. Embedding'in distributional hypothesis temeli nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?