Self-Instruct: Modelin Kendi Eğitim Verisini Üretmesi
2022'de Washington Üniversitesi'nden çıkan, LLM'in kendi eğitim örneklerini üreterek hizalama paradigmasını ucuzlaştıran teknik.

Instruction tuning'in maliyeti
Modern LLM hizalama instruction tuning'le başlar:
Soru: "Şu paragrafı özetle: ..."
Cevap: "..."
10.000 soru-cevap çifti. Her biri insan tarafından yazılmış. Maliyet: $100K+. Birkaç ay.
OpenAI, Anthropic gibi şirketler bu yatırımı yapar. Akademisyenler için erişimsiz.
Self-Instruct çözüm
2022 Aralık. Washington Üniversitesi'nden Wang ve ark. "Self-Instruct: Aligning Language Models with Self-Generated Instructions" makalesi.
Tez: Model kendisi instruction üretsin. İnsan etiketleyici az gerek.
Akış:
- Seed: İnsan tarafından yazılmış ~175 örnek instruction.
- Modele "bu örneklere benzer 10 yeni instruction yaz" de.
- Üretilen instruction'lara modelle cevap üret.
- Filtreleme: tekrar, kalite kontrol.
- Bu (instruction, cevap) çiftleri ile modeli fine-tune.
Sonuç: 175 insan örneğinden 52.000 sentetik örnek. 300x çoğaltma.
Pratik etki
Self-Instruct ile GPT-3 fine-tune edildi. Sonuç: InstructGPT seviyesinde performans, çok daha az insan etiketleyici.
Bu, Alpaca'nın (Stanford, 2023) temel tekniği. Llama 7B + Self-Instruct = Alpaca. $600'a ChatGPT seviyesi.
Sonraki tüm açık modelin temeli: Vicuna, Koala, Llama 2 Chat — hepsi Self-Instruct türevi.
Distillation ile birleşim
Self-Instruct'in modern versiyonu: GPT-4'ten distile. Yani:
- GPT-4'e "10000 farklı instruction yaz" de.
- GPT-4'e bunlara cevap ver dedirt.
- Küçük modeli bu veriyle eğit.
Sonuç: Küçük model GPT-4 davranışını taklit eder. Akademik araştırma için yaygın yöntem.
OpenAI bu kullanımı zorla yasakladı (Terms of Service). Ama akademik camia "sentetik veri" diye yaygın kullanır.
Sorunlar
Self-Instruct'in zayıflıkları:
- Mod kollapsı: Model kendisini taklit eder; çeşitlilik kaybı.
- Distillation üst sınırı: Öğrenci modeli öğretmen modelden iyi olamaz.
- Halüsinasyon çoğalır: Yanlış cevaplar veride birikir.
- Etik: OpenAI ToS ihlali.
Modern eğitim bunları aşmak için insan + sentetik karma kullanır.
Modern varyantlar
Self-Instruct'tan sonra:
- Evol-Instruct (2023): Karmaşıklığı artırarak instructionları evrimleştir.
- OpenHermes (2024): Açık kaynak instruction veri seti.
- UltraFeedback (2024): İnsan + AI karma feedback.
Bu çalışmalar modern açık kaynak LLM ekosisteminin temel altyapısıdır.
Klasik benzetme
Bir öğretmen 100 örnek soru yazıyor. Sonra bu soruların benzerlerini öğrenciler ürersin diyor. Öğrenciler 10000 soru üretiyor. Sonra başka öğrenciler bu sorulara cevap veriyor. Sonra başka öğrenciler bu (soru, cevap) çiftleriyle çalışıyor.
Bu otomasyonlu öğretim: öğrenciler hem üretici hem tüketici. Verimli ama kalite kontrolü zor.
Sade ders
Self-Instruct hikâyesinden iki şey:
- Sentetik veri akademik demokratikleştirir. OpenAI ölçeği yok, ama Self-Instruct ile küçük labaratuvarlar çalışan model üretebilir.
- Veri kalitesi çoğunlukla kantiteyi yener. 175 iyi seed + 52K sentetik, 1000 vasat insan örneğinden iyi olabilir. Veri mühendisliği akademik dünya için kritik.
Bağlam
Alpaca için: [[tatsunori-hashimoto-stanford-da-llm-ler-icin-istatistiksel-perspektif]]. RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Distillation için: [[knowledge-distillation-buyuk-modelin-bilgisini-kuck-modele-aktarma]]. Constitutional AI ile bağlantı: [[constitutional-ai-claude-un-arkasindaki-felsefi-hizalama-cercevesi]]. Veri programlama için: [[percy-liang-foundation-models-uzerine-akademik-dushe]] (Snorkel).
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Self-Instruct ne yapar?
2. Alpaca ile bağlantısı nedir?
3. GPT-4'ten distillation neden tartışmalı?
4. Self-Instruct'in en büyük zayıflığı nedir?
5. Evol-Instruct ne yapar?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?