Türkçenin temel NLP zorluğu nedir?

Sondan eklemeli (agglutinative) — tek kelime çok ek

GPT-4 tokenizer Türkçe oranı?

Kelime başına ~3-4 token (İngilizce 1.3) — 3x maliyet

İlk büyük Türkçe BERT — Stefan Schweter, Türkçe NLP'nin temel referansı

Yerli Türkçe LLM projesi — bütçe sınırlı, henüz büyük boyut yok

Türk uygulamalı AI örnekleri?

Trendyol tavsiye, Hepsiburada AI asistan, Getir lojistik — somut Türkçe AI

Türkçe NLP: Zorluklar ve Yerli Çözümler

"Tek bir kelime, çok ek"

Türkçenin temel özelliği: sondan eklemeli (agglutinative). Bir kök kelimeye eklenen ekler.

Örneğin: evlerimden = ev + ler + im + den

İngilizce karşılığı: "from my houses" = 4 kelime.

Türkçe bir kelimede aynı anlam. NLP için zor.

Tokenizer problemi

Modern LLM tokenizer'lar İngilizce ağırlıklı:

GPT-4 tokenizer: İngilizce kelime başına ~1.3 token.
Türkçe: Kelime başına ~3-4 token.

Sebep: "evlerimden" tokenizer'da:

evler + im + den (3 token) veya
ev + ler + im + den (4 token).

Sonuç:

3x maliyet.
3x daha hızlı bağlam dolması.
3x daha az içerik aynı token sayısında.

Morfolojik analiz

Klasik Türkçe NLP morfolojik analiz:

Kök bulma.
Ek ayrıştırma.
POS tagging.

Modern LLM'ler bunu dolaylı yoldan öğrenir. Ama hâlâ zayıf:

Nadir kelime kompozisyonları.
Bölgesel ağız.
Eski Türkçe.

Yerli BERT denemeleri

BERTurk (2020)

İlk büyük Türkçe BERT. Stefan Schweter geliştirdi. Türkçe Wikipedia + OSCAR Corpus.

Türkçe NLP'nin temel referansı.

TR-BERT, Türkçe XLM-R

Akademik denemeler. Çeşitli sonuçlar.

TurkishGPT

Açık kaynak Türkçe LLM denemeleri. Boyut ve kalite sınırlı.

TUBITAK projeleri

TUBITAK 2023'ten beri yerli LLM projeleri yürütüyor:

MASEM: Türkçe LLM. Henüz büyük boyut yok.
TR-MMLU: Türkçe değerlendirme benchmark'ı.
Yerli embedding: Türkçe semantik arama.

Devlet bütçesi sınırlı. ABD/Çin gibi milyarlar yok.

Trendyol/Hepsiburada gibi şirketler

Türk e-ticaret şirketleri Türkçe AI'da aktif:

Trendyol

Tavsiye sistemleri.
Arama AI.
Otomatik ürün açıklama.

Hepsiburada

AI asistan (TURKEY).
Görüntü tanıma.

Bu uygulamalı AI, akademik araştırma değil. Ama Türkçe için somut.

Modern LLM'ler ve Türkçe

GPT-4, Claude, Gemini Türkçe biliyor:

Genel: İyi.
Akademik: Orta.
Deyim/ironi: Zayıf.
Yerel kültür: Eksik.
Az kaynaklı bölgeler: Belirsiz.

Yine de modern LLM'ler yıllar önce hayal bile edilemez Türkçe sunuyor.

Vatandaş bilim çabaları

Türkçe AI topluluğu büyüyor:

Hugging Face Türkçe modelleri: Aktif paylaşım.
GitHub repos: Türkçe NLP araçları.
Discord/Slack toplulukları: Topluluk öğrenme.

Akademik kanal değil ama somut katkı.

Sade ders

Türkçe NLP hikâyesinden iki şey:

Dil mimarisi AI ekonomisini etkiler. Türkçe sondan eklemeli yapısı modern tokenizer'larda eksik. Bu, dakika başına bir maliyet farkı yaratır. Dil yapısı somut ekonomik etki.
Yerli ekosistem yavaş ama somut. BERTurk, MASEM, Trendyol AI — küçük ama ilerleyiş. Modern Türkçe NLP görünür gelişme içinde.

Bağlam

Türkiye AI ekosistemi için: [[turkiye-ai-ekosistemi-2024-haritalama]]. Cem Anil için: [[cem-anil-anthropic-da-akil-yurutme-uzmani-turk-akademisyen]]. BPE tokenizasyon için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]]. Çok dilli NLP için: [[cok-dilli-nlp-ingilizce-disinda-bir-dunya-var]]. Whisper Türkçe için: [[whisper-konusma-tanima-da-buyuk-veri-ile-cozulen-50-yillik-problem]].