Modern AI kaç dilde iyi çalışır?

~100 (iyi), ~300 (işe yarar), geri kalan 6700 için pratikte AI yok

104 dilde tek model — zero-shot cross-lingual transfer fenomeni

Meta'nın 200 dilde açık çeviri projesi — No Language Left Behind

Türkçe tokenizer eşitsizliği nedir?

Türkçe kelime başına 3-4 token (İngilizce 1.3) — 3x maliyet, bağlam, kalite kaybı

Cohere'in 2024 çok dilli modeli — Türkçe dahil 100+ dil

Çok Dilli NLP: İngilizce Dışında Bir Dünya Var

7000 dil, 100 destek

Dünyada 7000 dil konuşuluyor. Modern AI yaklaşık 100'ünde iyi çalışır. 300'ünde işe yarar seviyede. Geri kalan 6700 dil için pratikte AI yok.

Bu, dil eşitsizliği. Sebebi: veri. İngilizce internette milyarlarca sayfa. Yoruba (Nijerya, 40M konuşmacı) için belki birkaç bin.

mBERT (2018) — ilk çok dilli model

Google mBERT (multilingual BERT) yayımladı: 104 dilde tek model. Wikipedia'nın 104 dilini eğitim verisi olarak kullandı.

Sürpriz: model dil-spesifik eğitim olmadan transfer yapıyordu. İngilizce için fine-tune edilmiş model Türkçe'de kullanılabilir seviyede çalışıyordu.

Bu zero-shot cross-lingual transfer — modern çok dilli NLP'nin temel fenomeni.

Niye çalışır

LLM'ler "ortak dilsel temsiller" öğrenir. Türkçe ve İngilizce farklı görünür ama:

Aynı dünyayı tarif eder.
Aynı kavramları kullanır (kedi, koşmak, sevmek).
Aynı sözdizimsel yapılar olabilir.

Model bu ortaklığı içselleştirir. Vektör uzayında "kedi" ve "cat" yakın olur.

XLM-R (2020) — ölçek devrimi

Facebook (Conneau ve ark.) XLM-R'yi yayımladı. 2.5 TB internet verisi, 100 dil.

XLM-R mBERT'i geçti. Sırf ölçek. Modern büyük modellerin (LLaMA, GPT-4) çok dilli yeteneklerinin tarihsel atası.

Türkçe için durum

Türkçe çok dilli AI'da orta seviye. Veri:

~10M Wikipedia maddesi (İngilizce: 200x daha çok).
~1B web sayfası (İngilizce: 100x).
Akademik makaleler az.

Sonuç:

GPT-4: Türkçe akıcı ama deyim/ironi zayıf.
Whisper: Türkçe %10-15 WER (İngilizce %4-8).
Embedding modelleri: Türkçe için iyi ama İngilizce kadar değil.

Türkçe modelleri (BERTurk, Turkish T5) var. Açık kaynak ama küçük topluluk.

Düşük kaynaklı diller — gerçek sorun

Yoruba, Tamil, Khmer, Uighurca, Quechua — bu diller için NLP çok zor:

Veri yok. İnternette az içerik.
Etiketleyici yok. Az kişi annotation yapabilir.
Benchmark yok. Performans nasıl ölçülür?
Model bias. Eğitim verisi çoğu zaman İngilizce çevirisi; yerel anlamlar kaybolur.

Modern AI'ın etik krizinin somut boyutu bu.

NLLB (Meta, 2022) — büyük girişim

NLLB (No Language Left Behind): 200 dilde çeviri. Meta'nın açık kaynak girişimi.

İçinde 30 Afrika dili, 10 Hint dili, küçük Pasifik dilleri. Bunlar daha önce hiçbir ticari modelde yoktu.

Performans çok değişken. İyi: Hint dilleri. Zayıf: Afrika dilleri. Yine de var olmak yok olmaktan iyidir.

Türkçe için modern çözümler

Türkçe NLP'de aktif gelişme:

HuggingFace açık model paylaşımı: BERTurk, Turkish-Llama varyantları.
Cohere'in Aya Modeli (2024): Türkçe dahil 100+ dilde performans.
Akademik çabalar: İstanbul Teknik Üniversitesi, Hacettepe NLP grupları.

Yetersiz ama hareket var.

Tokenizasyon eşitsizliği

Modern LLM'lerin gizli eşitsizliği: tokenizer bias. İngilizce için kelime başına ~1.3 token, Türkçe için ~3-4. Bu:

Maliyet: Türkçe kullanıcı 3x daha öder.
Bağlam: Bağlam 3x daha hızlı dolar.
Kalite: Aynı token sayısında Türkçe daha az içerik.

Bu somut ekonomik eşitsizlik. Llama 3 vocab'ı genişletmesi Türkçe için %30 iyileştirme.

Sade ders

Çok dilli NLP hikâyesinden iki şey:

Modern AI hâkim dillere hizmet eder. Bu, teknik karar değil piyasa kararı. Veri çoğunluğu hangi dilde ise model o dilde iyidir.
Açık kaynak çözümün parçasıdır. NLLB ve Aya gibi açık modeller olmasa, düşük kaynaklı diller için AI hiç olmazdı.

Bağlam

Sebastian Ruder için: [[sebastian-ruder-cok-dilli-nlp-nin-ana-akademik-sesi]]. Whisper için: [[whisper-konusma-tanima-da-buyuk-veri-ile-cozulen-50-yillik-problem]]. Embedding için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]]. BPE ve tokenizasyon için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]]. Cohere için: [[aidan-gomez-attention-makalesinin-en-genc-yazari-ve-cohere-kurucusu]].