Tüm yazılar
Matematik28 Mart 2025

Pre-Training Verisi: LLM'in Bilgisinin Tek Kaynağı

Modern LLM'in tüm bilgisi, bilinçli olmayan internet metinleridir. Bu veriyi temizleme ve seçme modern AI'ın gizli sanatıdır.

Matematik Karavanı 6 dk okuma 5 soru
Taş yığınları — pre-training verisi metaforu

"Model = veri"

Modern LLM'in tüm bilgisi pre-training verisinden gelir. Mimari mühendislik, optimizer matematik. Ama bilgi veri kaynaklıdır.

Bu yüzden Llama 3 8B Llama 2 7B'den çok daha iyi — temelde daha iyi veri. Mimari nesli aynı kaldı.

Modern LLM verisi — boyutlar

ModelPre-training tokenVeri ana kaynağı
GPT-3 (2020)300BCommon Crawl + kitap
GPT-4 (2023)Belli değil~13T tahmin
Llama 2 (2023)2TCommon Crawl + GitHub
Llama 3 (2024)15TÇok kaynak
Llama 3.1 (2024)15TAynı
DeepSeek V314.8TAynı

15 trilyon token = ~50 trilyon karakter = 400 milyon roman. Bir kişi okuması 4000 yıl sürer.

Common Crawl — ana kaynak

Modern LLM'lerin temel kaynağı: Common Crawl. Aylık 2.5+ milyar web sayfası tarayan açık arşiv. 2008'den beri.

Ham CC = ham kalabalık. Reklam, spam, kötü HTML, tekrarlar. Modern LLM'ler bunu temizleyerek kullanır.

Temizleme süreçleri

Modern pre-training veri pipeline:

1. URL filtreleme

  • Reklam siteleri.
  • Spam.
  • Kötü amaçlı.
  • Pornografi.

2. HTML temizleme

  • Reklam çıkar.
  • Header/footer çıkar.
  • JavaScript çıkar.
  • Sadece ana içerik.

3. Dil tespiti

  • Türkçe sayfa için Türkçe tespit.
  • Karışık dilli sayfalar zor.

4. Kalite filtreleme

  • Perplexity-based — anlamsız metni filtrele.
  • Heuristik — çok kısa, çok uzun, ortografi sıkıntılı.

5. Tekrar (deduplication)

  • Aynı içerik birden çok kez geçerse: birden tut.
  • Modern dedup MinHash veya semantik.

6. PII ve etik

  • Telefon, email, kişisel veri çıkar.
  • Toksik içerik filtrele.

Bu süreç muazzam mühendislik. Çoğu kapalı (OpenAI, Anthropic) ama bazı açık örnekler (FineWeb) var.

C4 (Google, 2019)

T5 ile birlikte yayımlandı. Common Crawl'dan temizlenmiş 750 GB İngilizce metin.

C4 modern LLM verisinin referans temizleme örneği. Llama 2 dahil pek çok modelde kullanıldı.

FineWeb (Hugging Face, 2024)

Hugging Face'in açık veri seti. 15T token, temizlenmiş Common Crawl. Llama 3 ile benzer kalite.

FineWeb modern açık LLM ekosisteminin veri temeli. Topluluk için açık, ücretsiz.

Türkçe için sınırlı (CC İngilizce yoğun). Ama büyük adım.

Kod verisi — GitHub

Modern LLM'lerin %5-15'i kod. GitHub açık repolardan toplanır.

Çoğu lisanslı kod: izin var mı? Tartışmalı. GitHub Copilot davasının kökeni bu.

Akademik makaleler ve kitaplar

Yüksek kaliteli veri:

  • arXiv: Bilimsel makaleler.
  • Books3: Korsan kitap veri seti (tartışmalı).
  • Wikipedia: Yüksek kalite, az hacim.

Akademik makaleler dezenfektan kaynağı. Llama 3'te belirgin etki — bilimsel sorularda iyi.

"Veri kıtlığı" problemi

Chinchilla yasası: 20 token/parametre. Modern modeller bunu aştı. Llama 3 8B 15T token = 1875 token/parametre. Çok fazla.

Sebep: kaliteli veri kıt. İnternette ~30-50T temiz token var. Modern modeller yaklaşıyor sınırlara.

Çözüm: sentetik veri. Self-Instruct, Constitutional AI, AI tarafından üretilmiş veri.

Türkçe için durum

Türkçe pre-training verisi:

  • Common Crawl ~1B sayfa Türkçe (İngilizce: 100B).
  • Wikipedia ~500K madde.
  • Akademik: az.

Sonuç: Türkçe LLM kalitesi İngilizce'den belirgin geride. Llama 3, GPT-4 Türkçe biliyor ama deyim, ironi, yerel kültür zayıf.

Türkçe NLP topluluğu (İTÜ, Hacettepe) yerel veri seti çabaları yürütüyor.

Klasik benzetme

Bir öğrenciye bütün insanlık tarihini okutmak istiyorsun. Önce kitapları topla, sonra temiz olanları seç (yanlış, zararlı, tekrarlı olanları at), sonra öğrenciye ver.

Modern LLM pre-training tam bu. Veri seçimi öğretimi belirler.

Sade ders

Pre-training verisi hikâyesinden iki şey:

  1. LLM'in bilgi sınırı veri sınırıdır. Model algoritmik değil, veri kümülatif. Daha iyi veri = daha iyi model.
  2. Veri temizleme görünmez ama temeldir. Common Crawl ham %95 işe yaramaz. Modern AI'ın temel başarısı kaliteli veri pipeline mühendisliğindedir.

Bağlam

C4 için: [[t5-her-nlp-gorevini-metinden-metine-cevirmek]]. Chinchilla için: [[chinchilla-yasalari-veri-mi-parametre-mi]]. Self-Instruct için: [[self-instruct-modelin-kendi-egitim-verisini-uretmesi]]. Çok dilli NLP için: [[cok-dilli-nlp-ingilizce-disinda-bir-dunya-var]]. BPE ve tokenizasyon için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]].

Etiketler

pre-trainingveriCommon CrawlFineWebC4

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Modern LLM verisinin ana kaynağı nedir?

2. Llama 3 kaç token ile eğitildi?

3. FineWeb nedir?

4. Veri temizleme süreçleri neleri içerir?

5. Veri kıtlığı problemi nedir?