Modern LLM verisinin ana kaynağı nedir?

Common Crawl — açık web arşivi, milyar sayfa/ay

Llama 3 kaç token ile eğitildi?

15T token — Chinchilla optimumu çok aştı

Hugging Face'in 15T açık temizlenmiş Common Crawl veri seti

Veri temizleme süreçleri neleri içerir?

URL filtreleme + HTML temizleme + dil tespiti + kalite + dedup + PII

Veri kıtlığı problemi nedir?

İnternette ~30-50T temiz token; modern modeller bu sınıra yakın

Pre-Training Verisi: LLM'in Bilgisinin Tek Kaynağı

"Model = veri"

Modern LLM'in tüm bilgisi pre-training verisinden gelir. Mimari mühendislik, optimizer matematik. Ama bilgi veri kaynaklıdır.

Bu yüzden Llama 3 8B Llama 2 7B'den çok daha iyi — temelde daha iyi veri. Mimari nesli aynı kaldı.

Modern LLM verisi — boyutlar

Model	Pre-training token	Veri ana kaynağı
GPT-3 (2020)	300B	Common Crawl + kitap
GPT-4 (2023)	Belli değil	~13T tahmin
Llama 2 (2023)	2T	Common Crawl + GitHub
Llama 3 (2024)	15T	Çok kaynak
Llama 3.1 (2024)	15T	Aynı
DeepSeek V3	14.8T	Aynı

15 trilyon token = ~50 trilyon karakter = 400 milyon roman. Bir kişi okuması 4000 yıl sürer.

Common Crawl — ana kaynak

Modern LLM'lerin temel kaynağı: Common Crawl. Aylık 2.5+ milyar web sayfası tarayan açık arşiv. 2008'den beri.

Ham CC = ham kalabalık. Reklam, spam, kötü HTML, tekrarlar. Modern LLM'ler bunu temizleyerek kullanır.

Temizleme süreçleri

Modern pre-training veri pipeline:

1. URL filtreleme

Reklam siteleri.
Spam.
Kötü amaçlı.
Pornografi.

2. HTML temizleme

Reklam çıkar.
Header/footer çıkar.
JavaScript çıkar.
Sadece ana içerik.

3. Dil tespiti

Türkçe sayfa için Türkçe tespit.
Karışık dilli sayfalar zor.

4. Kalite filtreleme

Perplexity-based — anlamsız metni filtrele.
Heuristik — çok kısa, çok uzun, ortografi sıkıntılı.

5. Tekrar (deduplication)

Aynı içerik birden çok kez geçerse: birden tut.
Modern dedup MinHash veya semantik.

6. PII ve etik

Telefon, email, kişisel veri çıkar.
Toksik içerik filtrele.

Bu süreç muazzam mühendislik. Çoğu kapalı (OpenAI, Anthropic) ama bazı açık örnekler (FineWeb) var.

C4 (Google, 2019)

T5 ile birlikte yayımlandı. Common Crawl'dan temizlenmiş 750 GB İngilizce metin.

C4 modern LLM verisinin referans temizleme örneği. Llama 2 dahil pek çok modelde kullanıldı.

FineWeb (Hugging Face, 2024)

Hugging Face'in açık veri seti. 15T token, temizlenmiş Common Crawl. Llama 3 ile benzer kalite.

FineWeb modern açık LLM ekosisteminin veri temeli. Topluluk için açık, ücretsiz.

Türkçe için sınırlı (CC İngilizce yoğun). Ama büyük adım.

Kod verisi — GitHub

Modern LLM'lerin %5-15'i kod. GitHub açık repolardan toplanır.

Çoğu lisanslı kod: izin var mı? Tartışmalı. GitHub Copilot davasının kökeni bu.

Akademik makaleler ve kitaplar

Yüksek kaliteli veri:

arXiv: Bilimsel makaleler.
Books3: Korsan kitap veri seti (tartışmalı).
Wikipedia: Yüksek kalite, az hacim.

Akademik makaleler dezenfektan kaynağı. Llama 3'te belirgin etki — bilimsel sorularda iyi.

"Veri kıtlığı" problemi

Chinchilla yasası: 20 token/parametre. Modern modeller bunu aştı. Llama 3 8B 15T token = 1875 token/parametre. Çok fazla.

Sebep: kaliteli veri kıt. İnternette ~30-50T temiz token var. Modern modeller yaklaşıyor sınırlara.

Çözüm: sentetik veri. Self-Instruct, Constitutional AI, AI tarafından üretilmiş veri.

Türkçe için durum

Türkçe pre-training verisi:

Common Crawl ~1B sayfa Türkçe (İngilizce: 100B).
Wikipedia ~500K madde.
Akademik: az.

Sonuç: Türkçe LLM kalitesi İngilizce'den belirgin geride. Llama 3, GPT-4 Türkçe biliyor ama deyim, ironi, yerel kültür zayıf.

Türkçe NLP topluluğu (İTÜ, Hacettepe) yerel veri seti çabaları yürütüyor.

Klasik benzetme

Bir öğrenciye bütün insanlık tarihini okutmak istiyorsun. Önce kitapları topla, sonra temiz olanları seç (yanlış, zararlı, tekrarlı olanları at), sonra öğrenciye ver.

Modern LLM pre-training tam bu. Veri seçimi öğretimi belirler.

Sade ders

Pre-training verisi hikâyesinden iki şey:

LLM'in bilgi sınırı veri sınırıdır. Model algoritmik değil, veri kümülatif. Daha iyi veri = daha iyi model.
Veri temizleme görünmez ama temeldir. Common Crawl ham %95 işe yaramaz. Modern AI'ın temel başarısı kaliteli veri pipeline mühendisliğindedir.

Bağlam

C4 için: [[t5-her-nlp-gorevini-metinden-metine-cevirmek]]. Chinchilla için: [[chinchilla-yasalari-veri-mi-parametre-mi]]. Self-Instruct için: [[self-instruct-modelin-kendi-egitim-verisini-uretmesi]]. Çok dilli NLP için: [[cok-dilli-nlp-ingilizce-disinda-bir-dunya-var]]. BPE ve tokenizasyon için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]].