Çok Dilli NLP: İngilizce Dışında Bir Dünya Var
Dünya 7000 dil konuşuyor, AI yaklaşık 100'üne hizmet ediyor. Modern çok dilli modellerin ve eşitsizliklerin matematik perspektifi.

7000 dil, 100 destek
Dünyada 7000 dil konuşuluyor. Modern AI yaklaşık 100'ünde iyi çalışır. 300'ünde işe yarar seviyede. Geri kalan 6700 dil için pratikte AI yok.
Bu, dil eşitsizliği. Sebebi: veri. İngilizce internette milyarlarca sayfa. Yoruba (Nijerya, 40M konuşmacı) için belki birkaç bin.
mBERT (2018) — ilk çok dilli model
Google mBERT (multilingual BERT) yayımladı: 104 dilde tek model. Wikipedia'nın 104 dilini eğitim verisi olarak kullandı.
Sürpriz: model dil-spesifik eğitim olmadan transfer yapıyordu. İngilizce için fine-tune edilmiş model Türkçe'de kullanılabilir seviyede çalışıyordu.
Bu zero-shot cross-lingual transfer — modern çok dilli NLP'nin temel fenomeni.
Niye çalışır
LLM'ler "ortak dilsel temsiller" öğrenir. Türkçe ve İngilizce farklı görünür ama:
- Aynı dünyayı tarif eder.
- Aynı kavramları kullanır (kedi, koşmak, sevmek).
- Aynı sözdizimsel yapılar olabilir.
Model bu ortaklığı içselleştirir. Vektör uzayında "kedi" ve "cat" yakın olur.
XLM-R (2020) — ölçek devrimi
Facebook (Conneau ve ark.) XLM-R'yi yayımladı. 2.5 TB internet verisi, 100 dil.
XLM-R mBERT'i geçti. Sırf ölçek. Modern büyük modellerin (LLaMA, GPT-4) çok dilli yeteneklerinin tarihsel atası.
Türkçe için durum
Türkçe çok dilli AI'da orta seviye. Veri:
- ~10M Wikipedia maddesi (İngilizce: 200x daha çok).
- ~1B web sayfası (İngilizce: 100x).
- Akademik makaleler az.
Sonuç:
- GPT-4: Türkçe akıcı ama deyim/ironi zayıf.
- Whisper: Türkçe %10-15 WER (İngilizce %4-8).
- Embedding modelleri: Türkçe için iyi ama İngilizce kadar değil.
Türkçe modelleri (BERTurk, Turkish T5) var. Açık kaynak ama küçük topluluk.
Düşük kaynaklı diller — gerçek sorun
Yoruba, Tamil, Khmer, Uighurca, Quechua — bu diller için NLP çok zor:
- Veri yok. İnternette az içerik.
- Etiketleyici yok. Az kişi annotation yapabilir.
- Benchmark yok. Performans nasıl ölçülür?
- Model bias. Eğitim verisi çoğu zaman İngilizce çevirisi; yerel anlamlar kaybolur.
Modern AI'ın etik krizinin somut boyutu bu.
NLLB (Meta, 2022) — büyük girişim
NLLB (No Language Left Behind): 200 dilde çeviri. Meta'nın açık kaynak girişimi.
İçinde 30 Afrika dili, 10 Hint dili, küçük Pasifik dilleri. Bunlar daha önce hiçbir ticari modelde yoktu.
Performans çok değişken. İyi: Hint dilleri. Zayıf: Afrika dilleri. Yine de var olmak yok olmaktan iyidir.
Türkçe için modern çözümler
Türkçe NLP'de aktif gelişme:
- HuggingFace açık model paylaşımı: BERTurk, Turkish-Llama varyantları.
- Cohere'in Aya Modeli (2024): Türkçe dahil 100+ dilde performans.
- Akademik çabalar: İstanbul Teknik Üniversitesi, Hacettepe NLP grupları.
Yetersiz ama hareket var.
Tokenizasyon eşitsizliği
Modern LLM'lerin gizli eşitsizliği: tokenizer bias. İngilizce için kelime başına ~1.3 token, Türkçe için ~3-4. Bu:
- Maliyet: Türkçe kullanıcı 3x daha öder.
- Bağlam: Bağlam 3x daha hızlı dolar.
- Kalite: Aynı token sayısında Türkçe daha az içerik.
Bu somut ekonomik eşitsizlik. Llama 3 vocab'ı genişletmesi Türkçe için %30 iyileştirme.
Sade ders
Çok dilli NLP hikâyesinden iki şey:
- Modern AI hâkim dillere hizmet eder. Bu, teknik karar değil piyasa kararı. Veri çoğunluğu hangi dilde ise model o dilde iyidir.
- Açık kaynak çözümün parçasıdır. NLLB ve Aya gibi açık modeller olmasa, düşük kaynaklı diller için AI hiç olmazdı.
Bağlam
Sebastian Ruder için: [[sebastian-ruder-cok-dilli-nlp-nin-ana-akademik-sesi]]. Whisper için: [[whisper-konusma-tanima-da-buyuk-veri-ile-cozulen-50-yillik-problem]]. Embedding için: [[contrastive-learning-modern-temsil-ogrenmenin-omurgasi]]. BPE ve tokenizasyon için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]]. Cohere için: [[aidan-gomez-attention-makalesinin-en-genc-yazari-ve-cohere-kurucusu]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Modern AI kaç dilde iyi çalışır?
2. mBERT ne yaptı?
3. NLLB nedir?
4. Türkçe tokenizer eşitsizliği nedir?
5. Aya Model nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?