Sentetik veri ne yapar?

AI ile yeni eğitim verisi üretmek — distillation, self-instruct vs.

Sentetik veri ile eğitilen modellerin nesilden nesle kalite düşmesi (Nature 2024)

Phi-3 (Microsoft) özelliği?

"Textbook quality" sentetik veri — GPT-4 ile üretilmiş

Verified synthetic: kod çalıştır + test, matematik doğrula, LLM judge

Türkçe için önemi?

Türkçe verisi az — sentetik kritik destek

Sentetik Veri: Modelin Modeli Eğitmesi — Yeni Tartışmalı Çağ

"Veri tükendi"

Modern LLM'ler trilyonlarca token okudu:

Tüm Wikipedia.
Common Crawl.
Bilim makaleleri.
Github kodu.
Kitaplar.

İnternette yeni nitelikli veri azalıyor.

Çözüm: AI üretsin.

Sentetik veri çeşitleri

Distillation

Büyük model (GPT-4) → küçük model.

Alpaca: Llama Stanford'da GPT-3.5'in cevapları ile eğitildi.

Self-instruction

Model kendi prompt ve cevaplar üretir.

Self-Instruct (Wang et al. 2022) ile başladı.

Self-improvement (STaR)

Model kendi cevaplarını etiketler, doğruları öğrenir.

Cross-domain

Tıbbi LLM eğitim verisi GPT-4 ile üretilebilir.

Augmentation

Mevcut veri çeşitlendirme: paraphrase, çeviri, vs.

Modern LLM eğitiminde

Llama 3 (2024)

15T token pre-training.
Sentetik veri önemli kısmı (örn. matematik için).

Phi-3 (Microsoft)

"Textbook quality" sentetik veri.
GPT-4 ile üretilmiş.

Claude 3 (Anthropic)

Constitutional AI'a sentetik veri.

Nemotron-4 (NVIDIA)

Açık sentetik veri pipeline.

Llama 3.1 405B

Distillation kaynağı olarak diğer modelleri besler.

Sentetik veri faydaları

Maliyet

İnsan etiketçi pahalı. AI ucuz.

Hız

Saatte milyonlarca örnek.

Ölçek

Sınırsız.

Kontrol

Belirli dağılımları hedefle.

Edge cases

Nadir senaryolar üretilebilir.

Domain-specific

Tıbbi, hukuki — uzman simülasyonu.

Sentetik veri riskleri

Model collapse

Shumailov et al. (2024): AI üretilen veri ile eğitilen modeller çöker.

Generasyon 1: orijinal veri.
Gen 2: orijinal + sentetik.
...
Gen 5: "mode collapse" — kalite düşer.

Web internete sentetik veri yayıldıkça bütün eğitim etkilenir.

Bias amplification

AI bias → sentetik bias → daha kötü AI.

Hallucination spread

Model yanlış üretir → yanlışlar yayılır.

Diversity loss

Tek pattern dominant olur.

Akademik makaleler

"Self-Instruct" (Wang 2022).
"Textbooks Are All You Need" (Phi makalesi).
"AI models collapse when trained on recursively generated data" (Nature 2024).
"Position: Synthetic Data Is the Future" (NeurIPS 2024).

Tartışma

Pro

OpenAI, Anthropic, Google: dikkatli kullanım iyidir.
Distilled küçük modeller başarılı.
Self-improve mümkün.

Karşıt

Marcus, LeCun: model collapse ciddi.
Sentetik veri gerçek dünyayı yansıtmaz.
Tekrarlanan üretim bozulma yapar.

Modern teknik

Verified synthetic

Sentetik veri doğrulanır:

Kod: çalıştır + test.
Matematik: doğrula.
Çeviri: insan kontrol.

Hybrid

Sentetik + gerçek karışım.

Diversity sampling

Sentetik veri çeşitliliği zorla.

LLM judge

Sentetik veri kalitesini başka LLM denetler.

Çeşitli kullanım

Tıbbi

Hasta vaka simülasyonu.
GPT-4 ile vaka senaryosu.

Otomotiv

Simülasyonda otonom sürüş.
Carla, NVIDIA DRIVE.

Finans

Sentetik transaction.
Fraud pattern üretimi.

Hukuki

Mahkeme kararı simülasyonu.

Türkçe için

Türkçe verisi az → sentetik kritik.
GPT-4 ile Türkçe sentetik üretim.
BERTurk gibi modeller sentetik destekli.

Modern startuplar

Gretel.ai: enterprise sentetik veri.
Mostly.ai: tablo verisi.
Datagen: görsel.
Synthesis AI: yüz, body.

Felsefe

Sentetik veri temel sorusu: "Modelin modeli eğitmesi sürdürülebilir mi?"

Cevap belirsiz. Belki sürdürülebilir ama dikkatli, belki çökecek.

Türkiye için fırsat

Türkçe NLP için sentetik veri üretmek.
Türkçe tıbbi, hukuki veri sentezi.
TÜBİTAK BİLGEM projeleri.

Geleceği

Pozitif senaryo

Verified sentetik veri yaygın.
Model collapse çözüm var.
AI sürekli iyileşir.

Negatif senaryo

Tüm web AI üretimi olur.
Modeller çöker.
Yeni "gerçek" veri kaynağı gerekir.

Felsefi sorun

Bir Plato'nun mağarası: AI gölgelerin gölgesini üretir mi?

Kapanış

Sentetik veri, modern AI'in çift kenarlı kılıcı. Hızla yayılan teknik ama uzun vadede sürdürülebilirlik soru işareti.

Bir AI mühendisinin olgunluk işareti: ne zaman sentetik, ne zaman gerçek veri kullanacağını bilmek.

LLM çağı, kendi kuyruğunu yiyen yılana benzer.