Pre-Training Verisi: LLM'in Bilgisinin Tek Kaynağı
Modern LLM'in tüm bilgisi, bilinçli olmayan internet metinleridir. Bu veriyi temizleme ve seçme modern AI'ın gizli sanatıdır.

"Model = veri"
Modern LLM'in tüm bilgisi pre-training verisinden gelir. Mimari mühendislik, optimizer matematik. Ama bilgi veri kaynaklıdır.
Bu yüzden Llama 3 8B Llama 2 7B'den çok daha iyi — temelde daha iyi veri. Mimari nesli aynı kaldı.
Modern LLM verisi — boyutlar
| Model | Pre-training token | Veri ana kaynağı |
|---|---|---|
| GPT-3 (2020) | 300B | Common Crawl + kitap |
| GPT-4 (2023) | Belli değil | ~13T tahmin |
| Llama 2 (2023) | 2T | Common Crawl + GitHub |
| Llama 3 (2024) | 15T | Çok kaynak |
| Llama 3.1 (2024) | 15T | Aynı |
| DeepSeek V3 | 14.8T | Aynı |
15 trilyon token = ~50 trilyon karakter = 400 milyon roman. Bir kişi okuması 4000 yıl sürer.
Common Crawl — ana kaynak
Modern LLM'lerin temel kaynağı: Common Crawl. Aylık 2.5+ milyar web sayfası tarayan açık arşiv. 2008'den beri.
Ham CC = ham kalabalık. Reklam, spam, kötü HTML, tekrarlar. Modern LLM'ler bunu temizleyerek kullanır.
Temizleme süreçleri
Modern pre-training veri pipeline:
1. URL filtreleme
- Reklam siteleri.
- Spam.
- Kötü amaçlı.
- Pornografi.
2. HTML temizleme
- Reklam çıkar.
- Header/footer çıkar.
- JavaScript çıkar.
- Sadece ana içerik.
3. Dil tespiti
- Türkçe sayfa için Türkçe tespit.
- Karışık dilli sayfalar zor.
4. Kalite filtreleme
- Perplexity-based — anlamsız metni filtrele.
- Heuristik — çok kısa, çok uzun, ortografi sıkıntılı.
5. Tekrar (deduplication)
- Aynı içerik birden çok kez geçerse: birden tut.
- Modern dedup MinHash veya semantik.
6. PII ve etik
- Telefon, email, kişisel veri çıkar.
- Toksik içerik filtrele.
Bu süreç muazzam mühendislik. Çoğu kapalı (OpenAI, Anthropic) ama bazı açık örnekler (FineWeb) var.
C4 (Google, 2019)
T5 ile birlikte yayımlandı. Common Crawl'dan temizlenmiş 750 GB İngilizce metin.
C4 modern LLM verisinin referans temizleme örneği. Llama 2 dahil pek çok modelde kullanıldı.
FineWeb (Hugging Face, 2024)
Hugging Face'in açık veri seti. 15T token, temizlenmiş Common Crawl. Llama 3 ile benzer kalite.
FineWeb modern açık LLM ekosisteminin veri temeli. Topluluk için açık, ücretsiz.
Türkçe için sınırlı (CC İngilizce yoğun). Ama büyük adım.
Kod verisi — GitHub
Modern LLM'lerin %5-15'i kod. GitHub açık repolardan toplanır.
Çoğu lisanslı kod: izin var mı? Tartışmalı. GitHub Copilot davasının kökeni bu.
Akademik makaleler ve kitaplar
Yüksek kaliteli veri:
- arXiv: Bilimsel makaleler.
- Books3: Korsan kitap veri seti (tartışmalı).
- Wikipedia: Yüksek kalite, az hacim.
Akademik makaleler dezenfektan kaynağı. Llama 3'te belirgin etki — bilimsel sorularda iyi.
"Veri kıtlığı" problemi
Chinchilla yasası: 20 token/parametre. Modern modeller bunu aştı. Llama 3 8B 15T token = 1875 token/parametre. Çok fazla.
Sebep: kaliteli veri kıt. İnternette ~30-50T temiz token var. Modern modeller yaklaşıyor sınırlara.
Çözüm: sentetik veri. Self-Instruct, Constitutional AI, AI tarafından üretilmiş veri.
Türkçe için durum
Türkçe pre-training verisi:
- Common Crawl ~1B sayfa Türkçe (İngilizce: 100B).
- Wikipedia ~500K madde.
- Akademik: az.
Sonuç: Türkçe LLM kalitesi İngilizce'den belirgin geride. Llama 3, GPT-4 Türkçe biliyor ama deyim, ironi, yerel kültür zayıf.
Türkçe NLP topluluğu (İTÜ, Hacettepe) yerel veri seti çabaları yürütüyor.
Klasik benzetme
Bir öğrenciye bütün insanlık tarihini okutmak istiyorsun. Önce kitapları topla, sonra temiz olanları seç (yanlış, zararlı, tekrarlı olanları at), sonra öğrenciye ver.
Modern LLM pre-training tam bu. Veri seçimi öğretimi belirler.
Sade ders
Pre-training verisi hikâyesinden iki şey:
- LLM'in bilgi sınırı veri sınırıdır. Model algoritmik değil, veri kümülatif. Daha iyi veri = daha iyi model.
- Veri temizleme görünmez ama temeldir. Common Crawl ham %95 işe yaramaz. Modern AI'ın temel başarısı kaliteli veri pipeline mühendisliğindedir.
Bağlam
C4 için: [[t5-her-nlp-gorevini-metinden-metine-cevirmek]]. Chinchilla için: [[chinchilla-yasalari-veri-mi-parametre-mi]]. Self-Instruct için: [[self-instruct-modelin-kendi-egitim-verisini-uretmesi]]. Çok dilli NLP için: [[cok-dilli-nlp-ingilizce-disinda-bir-dunya-var]]. BPE ve tokenizasyon için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Modern LLM verisinin ana kaynağı nedir?
2. Llama 3 kaç token ile eğitildi?
3. FineWeb nedir?
4. Veri temizleme süreçleri neleri içerir?
5. Veri kıtlığı problemi nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?