Tüm yazılar
Matematik9 Nisan 2025

Self-Instruct: Modelin Kendi Eğitim Verisini Üretmesi

2022'de Washington Üniversitesi'nden çıkan, LLM'in kendi eğitim örneklerini üreterek hizalama paradigmasını ucuzlaştıran teknik.

Matematik Karavanı 5 dk okuma 5 soru
Ayna — Self-Instruct'in öz-üretim metaforu

Instruction tuning'in maliyeti

Modern LLM hizalama instruction tuning'le başlar:

Soru: "Şu paragrafı özetle: ..."
Cevap: "..."

10.000 soru-cevap çifti. Her biri insan tarafından yazılmış. Maliyet: $100K+. Birkaç ay.

OpenAI, Anthropic gibi şirketler bu yatırımı yapar. Akademisyenler için erişimsiz.

Self-Instruct çözüm

2022 Aralık. Washington Üniversitesi'nden Wang ve ark. "Self-Instruct: Aligning Language Models with Self-Generated Instructions" makalesi.

Tez: Model kendisi instruction üretsin. İnsan etiketleyici az gerek.

Akış:

  1. Seed: İnsan tarafından yazılmış ~175 örnek instruction.
  2. Modele "bu örneklere benzer 10 yeni instruction yaz" de.
  3. Üretilen instruction'lara modelle cevap üret.
  4. Filtreleme: tekrar, kalite kontrol.
  5. Bu (instruction, cevap) çiftleri ile modeli fine-tune.

Sonuç: 175 insan örneğinden 52.000 sentetik örnek. 300x çoğaltma.

Pratik etki

Self-Instruct ile GPT-3 fine-tune edildi. Sonuç: InstructGPT seviyesinde performans, çok daha az insan etiketleyici.

Bu, Alpaca'nın (Stanford, 2023) temel tekniği. Llama 7B + Self-Instruct = Alpaca. $600'a ChatGPT seviyesi.

Sonraki tüm açık modelin temeli: Vicuna, Koala, Llama 2 Chat — hepsi Self-Instruct türevi.

Distillation ile birleşim

Self-Instruct'in modern versiyonu: GPT-4'ten distile. Yani:

  • GPT-4'e "10000 farklı instruction yaz" de.
  • GPT-4'e bunlara cevap ver dedirt.
  • Küçük modeli bu veriyle eğit.

Sonuç: Küçük model GPT-4 davranışını taklit eder. Akademik araştırma için yaygın yöntem.

OpenAI bu kullanımı zorla yasakladı (Terms of Service). Ama akademik camia "sentetik veri" diye yaygın kullanır.

Sorunlar

Self-Instruct'in zayıflıkları:

  1. Mod kollapsı: Model kendisini taklit eder; çeşitlilik kaybı.
  2. Distillation üst sınırı: Öğrenci modeli öğretmen modelden iyi olamaz.
  3. Halüsinasyon çoğalır: Yanlış cevaplar veride birikir.
  4. Etik: OpenAI ToS ihlali.

Modern eğitim bunları aşmak için insan + sentetik karma kullanır.

Modern varyantlar

Self-Instruct'tan sonra:

  • Evol-Instruct (2023): Karmaşıklığı artırarak instructionları evrimleştir.
  • OpenHermes (2024): Açık kaynak instruction veri seti.
  • UltraFeedback (2024): İnsan + AI karma feedback.

Bu çalışmalar modern açık kaynak LLM ekosisteminin temel altyapısıdır.

Klasik benzetme

Bir öğretmen 100 örnek soru yazıyor. Sonra bu soruların benzerlerini öğrenciler ürersin diyor. Öğrenciler 10000 soru üretiyor. Sonra başka öğrenciler bu sorulara cevap veriyor. Sonra başka öğrenciler bu (soru, cevap) çiftleriyle çalışıyor.

Bu otomasyonlu öğretim: öğrenciler hem üretici hem tüketici. Verimli ama kalite kontrolü zor.

Sade ders

Self-Instruct hikâyesinden iki şey:

  1. Sentetik veri akademik demokratikleştirir. OpenAI ölçeği yok, ama Self-Instruct ile küçük labaratuvarlar çalışan model üretebilir.
  2. Veri kalitesi çoğunlukla kantiteyi yener. 175 iyi seed + 52K sentetik, 1000 vasat insan örneğinden iyi olabilir. Veri mühendisliği akademik dünya için kritik.

Bağlam

Alpaca için: [[tatsunori-hashimoto-stanford-da-llm-ler-icin-istatistiksel-perspektif]]. RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Distillation için: [[knowledge-distillation-buyuk-modelin-bilgisini-kuck-modele-aktarma]]. Constitutional AI ile bağlantı: [[constitutional-ai-claude-un-arkasindaki-felsefi-hizalama-cercevesi]]. Veri programlama için: [[percy-liang-foundation-models-uzerine-akademik-dushe]] (Snorkel).

Etiketler

Self-Instructinstruction tuningdata augmentationLLM eğitimidistillation

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Self-Instruct ne yapar?

2. Alpaca ile bağlantısı nedir?

3. GPT-4'ten distillation neden tartışmalı?

4. Self-Instruct'in en büyük zayıflığı nedir?

5. Evol-Instruct ne yapar?