Self-Instruct ne yapar?

Model kendi instruction verisini üretir; az insan etiketleyici yeter

Alpaca ile bağlantısı nedir?

Alpaca'nın temel tekniği — $600'lık ChatGPT böyle mümkün oldu

GPT-4'ten distillation neden tartışmalı?

OpenAI Terms of Service yasaklar — "rakip model eğitmek için kullanma"

Self-Instruct'in en büyük zayıflığı nedir?

Mod kollapsı — model kendini taklit; çeşitlilik kaybı; halüsinasyon birikir

Evol-Instruct ne yapar?

Karmaşıklığı artırarak instructionları evrimleştir — daha zor görevler

Self-Instruct: Modelin Kendi Eğitim Verisini Üretmesi

Instruction tuning'in maliyeti

Modern LLM hizalama instruction tuning'le başlar:

Soru: "Şu paragrafı özetle: ..."
Cevap: "..."

10.000 soru-cevap çifti. Her biri insan tarafından yazılmış. Maliyet: $100K+. Birkaç ay.

OpenAI, Anthropic gibi şirketler bu yatırımı yapar. Akademisyenler için erişimsiz.

Self-Instruct çözüm

2022 Aralık. Washington Üniversitesi'nden Wang ve ark. "Self-Instruct: Aligning Language Models with Self-Generated Instructions" makalesi.

Tez: Model kendisi instruction üretsin. İnsan etiketleyici az gerek.

Akış:

Seed: İnsan tarafından yazılmış ~175 örnek instruction.
Modele "bu örneklere benzer 10 yeni instruction yaz" de.
Üretilen instruction'lara modelle cevap üret.
Filtreleme: tekrar, kalite kontrol.
Bu (instruction, cevap) çiftleri ile modeli fine-tune.

Sonuç: 175 insan örneğinden 52.000 sentetik örnek. 300x çoğaltma.

Pratik etki

Self-Instruct ile GPT-3 fine-tune edildi. Sonuç: InstructGPT seviyesinde performans, çok daha az insan etiketleyici.

Bu, Alpaca'nın (Stanford, 2023) temel tekniği. Llama 7B + Self-Instruct = Alpaca. $600'a ChatGPT seviyesi.

Sonraki tüm açık modelin temeli: Vicuna, Koala, Llama 2 Chat — hepsi Self-Instruct türevi.

Distillation ile birleşim

Self-Instruct'in modern versiyonu: GPT-4'ten distile. Yani:

GPT-4'e "10000 farklı instruction yaz" de.
GPT-4'e bunlara cevap ver dedirt.
Küçük modeli bu veriyle eğit.

Sonuç: Küçük model GPT-4 davranışını taklit eder. Akademik araştırma için yaygın yöntem.

OpenAI bu kullanımı zorla yasakladı (Terms of Service). Ama akademik camia "sentetik veri" diye yaygın kullanır.

Sorunlar

Self-Instruct'in zayıflıkları:

Mod kollapsı: Model kendisini taklit eder; çeşitlilik kaybı.
Distillation üst sınırı: Öğrenci modeli öğretmen modelden iyi olamaz.
Halüsinasyon çoğalır: Yanlış cevaplar veride birikir.
Etik: OpenAI ToS ihlali.

Modern eğitim bunları aşmak için insan + sentetik karma kullanır.

Modern varyantlar

Self-Instruct'tan sonra:

Evol-Instruct (2023): Karmaşıklığı artırarak instructionları evrimleştir.
OpenHermes (2024): Açık kaynak instruction veri seti.
UltraFeedback (2024): İnsan + AI karma feedback.

Bu çalışmalar modern açık kaynak LLM ekosisteminin temel altyapısıdır.

Klasik benzetme

Bir öğretmen 100 örnek soru yazıyor. Sonra bu soruların benzerlerini öğrenciler ürersin diyor. Öğrenciler 10000 soru üretiyor. Sonra başka öğrenciler bu sorulara cevap veriyor. Sonra başka öğrenciler bu (soru, cevap) çiftleriyle çalışıyor.

Bu otomasyonlu öğretim: öğrenciler hem üretici hem tüketici. Verimli ama kalite kontrolü zor.

Sade ders

Self-Instruct hikâyesinden iki şey:

Sentetik veri akademik demokratikleştirir. OpenAI ölçeği yok, ama Self-Instruct ile küçük labaratuvarlar çalışan model üretebilir.
Veri kalitesi çoğunlukla kantiteyi yener. 175 iyi seed + 52K sentetik, 1000 vasat insan örneğinden iyi olabilir. Veri mühendisliği akademik dünya için kritik.

Bağlam

Alpaca için: [[tatsunori-hashimoto-stanford-da-llm-ler-icin-istatistiksel-perspektif]]. RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Distillation için: [[knowledge-distillation-buyuk-modelin-bilgisini-kuck-modele-aktarma]]. Constitutional AI ile bağlantı: [[constitutional-ai-claude-un-arkasindaki-felsefi-hizalama-cercevesi]]. Veri programlama için: [[percy-liang-foundation-models-uzerine-akademik-dushe]] (Snorkel).

Self-Instruct: Modelin Kendi Eğitim Verisini Üretmesi

Instruction tuning'in maliyeti

Self-Instruct çözüm

Pratik etki

Distillation ile birleşim

Sorunlar

Modern varyantlar

Klasik benzetme

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü