Tüm yazılar
Matematik7 Nisan 2025

Çok Dilli NLP: İngilizce Dışında Bir Dünya Var

Dünya 7000 dil konuşuyor, AI yaklaşık 100'üne hizmet ediyor. Modern çok dilli modellerin ve eşitsizliklerin matematik perspektifi.

Matematik Karavanı 6 dk okuma 5 soru
Dünya küresi — çok dilli NLP'nin kapsamı

7000 dil, 100 destek

Dünyada 7000 dil konuşuluyor. Modern AI yaklaşık 100'ünde iyi çalışır. 300'ünde işe yarar seviyede. Geri kalan 6700 dil için pratikte AI yok.

Bu, dil eşitsizliği. Sebebi: veri. İngilizce internette milyarlarca sayfa. Yoruba (Nijerya, 40M konuşmacı) için belki birkaç bin.

mBERT (2018) — ilk çok dilli model

Google mBERT (multilingual BERT) yayımladı: 104 dilde tek model. Wikipedia'nın 104 dilini eğitim verisi olarak kullandı.

Sürpriz: model dil-spesifik eğitim olmadan transfer yapıyordu. İngilizce için fine-tune edilmiş model Türkçe'de kullanılabilir seviyede çalışıyordu.

Bu zero-shot cross-lingual transfer — modern çok dilli NLP'nin temel fenomeni.

Niye çalışır

LLM'ler "ortak dilsel temsiller" öğrenir. Türkçe ve İngilizce farklı görünür ama:

  • Aynı dünyayı tarif eder.
  • Aynı kavramları kullanır (kedi, koşmak, sevmek).
  • Aynı sözdizimsel yapılar olabilir.

Model bu ortaklığı içselleştirir. Vektör uzayında "kedi" ve "cat" yakın olur.

XLM-R (2020) — ölçek devrimi

Facebook (Conneau ve ark.) XLM-R'yi yayımladı. 2.5 TB internet verisi, 100 dil.

XLM-R mBERT'i geçti. Sırf ölçek. Modern büyük modellerin (LLaMA, GPT-4) çok dilli yeteneklerinin tarihsel atası.

Türkçe için durum

Türkçe çok dilli AI'da orta seviye. Veri:

  • ~10M Wikipedia maddesi (İngilizce: 200x daha çok).
  • ~1B web sayfası (İngilizce: 100x).
  • Akademik makaleler az.

Sonuç:

  • GPT-4: Türkçe akıcı ama deyim/ironi zayıf.
  • Whisper: Türkçe %10-15 WER (İngilizce %4-8).
  • Embedding modelleri: Türkçe için iyi ama İngilizce kadar değil.

Türkçe modelleri (BERTurk, Turkish T5) var. Açık kaynak ama küçük topluluk.

Düşük kaynaklı diller — gerçek sorun

Yoruba, Tamil, Khmer, Uighurca, Quechua — bu diller için NLP çok zor:

  1. Veri yok. İnternette az içerik.
  2. Etiketleyici yok. Az kişi annotation yapabilir.
  3. Benchmark yok. Performans nasıl ölçülür?
  4. Model bias. Eğitim verisi çoğu zaman İngilizce çevirisi; yerel anlamlar kaybolur.

Modern AI'ın etik krizinin somut boyutu bu.

NLLB (Meta, 2022) — büyük girişim

NLLB (No Language Left Behind): 200 dilde çeviri. Meta'nın açık kaynak girişimi.

İçinde 30 Afrika dili, 10 Hint dili, küçük Pasifik dilleri. Bunlar daha önce hiçbir ticari modelde yoktu.

Performans çok değişken. İyi: Hint dilleri. Zayıf: Afrika dilleri. Yine de var olmak yok olmaktan iyidir.

Türkçe için modern çözümler

Türkçe NLP'de aktif gelişme:

  • HuggingFace açık model paylaşımı: BERTurk, Turkish-Llama varyantları.
  • Cohere'in Aya Modeli (2024): Türkçe dahil 100+ dilde performans.
  • Akademik çabalar: İstanbul Teknik Üniversitesi, Hacettepe NLP grupları.

Yetersiz ama hareket var.

Tokenizasyon eşitsizliği

Modern LLM'lerin gizli eşitsizliği: tokenizer bias. İngilizce için kelime başına ~1.3 token, Türkçe için ~3-4. Bu:

  • Maliyet: Türkçe kullanıcı 3x daha öder.
  • Bağlam: Bağlam 3x daha hızlı dolar.
  • Kalite: Aynı token sayısında Türkçe daha az içerik.

Bu somut ekonomik eşitsizlik. Llama 3 vocab'ı genişletmesi Türkçe için %30 iyileştirme.

Sade ders

Çok dilli NLP hikâyesinden iki şey:

  1. Modern AI hâkim dillere hizmet eder. Bu, teknik karar değil piyasa kararı. Veri çoğunluğu hangi dilde ise model o dilde iyidir.
  2. Açık kaynak çözümün parçasıdır. NLLB ve Aya gibi açık modeller olmasa, düşük kaynaklı diller için AI hiç olmazdı.

Bağlam

Sebastian Ruder için: [[sebastian-ruder-cok-dilli-nlp-nin-ana-akademik-sesi]]. Whisper için: [[whisper-konusma-tanima-da-buyuk-veri-ile-cozulen-50-yillik-problem]]. Embedding için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]]. BPE ve tokenizasyon için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]]. Cohere için: [[aidan-gomez-attention-makalesinin-en-genc-yazari-ve-cohere-kurucusu]].

Etiketler

multilingual NLPmBERTXLM-RNLLBdüşük kaynaklı diller

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Modern AI kaç dilde iyi çalışır?

2. mBERT ne yaptı?

3. NLLB nedir?

4. Türkçe tokenizer eşitsizliği nedir?

5. Aya Model nedir?