Self-Play: AI'nın Kendi Kendine Öğrenmesi
AlphaGo Zero, AlphaZero, DeepSeek-R1 — modern AI'ın "insan deneyimi olmadan" öğrenme paradigması.

"Kendinle satranç oyna"
Bir satranç ustası iyileşmek istiyor. Strateji:
- Daha güçlü rakiplerle oyna.
- Yenilgileri analiz et.
- Hataları öğren.
Ama eğer dünyanın en iyisi isen? Daha iyi rakip yok.
Çözüm: kendinle oyna. Her oyunda hem beyaz hem siyah kendin. Hatalarını öğren.
Bu self-play. Modern AI öğrenmesinin güçlü paradigmasıdır.
AlphaGo Zero (2017)
İlk büyük self-play başarısı. DeepMind:
- AlphaGo Zero hiç insan oyunu görmedi.
- Sıfırdan başladı.
- Sadece kendi kendine oynadı.
- 3 günde dünyanın en iyi insan oyuncusu geçti.
Bu, insan deneyimi gerek değil demesi. Self-play yeter.
AlphaZero (2018)
Bir yıl sonra: AlphaZero. Aynı algoritma, üç oyun:
- Go: Dünya en iyisi.
- Satranç: Dünya en iyisi Stockfish'i yendi.
- Shogi: Japon satrancı, en iyisi.
Tek algoritma, üç farklı oyun. Genel öğrenme.
MuZero (2019)
Daha radikal: MuZero kuralları bile bilmiyor. Sadece oynayarak öğreniyor — kurallar, strateji, değer.
Bu, dünya modelini öğrenme + RL birleşimi. Modern AI'ın temel paradigmalarından.
OpenAI Five (Dota 2)
Self-play sadece oyun değil. OpenAI Five Dota 2'de profesyonel takımları yendi:
- Çok ajanlı self-play.
- Karmaşık 5v5 oyun.
- Saniyede 1000+ karar.
Bu, gerçek dünya benzeri problem için self-play başarısı.
Self-play matematiği
Akademik olarak self-play:
- Politika ile başla.
- Yeni veri oluştur: kendisiyle oynar.
- Bu veriden politikayı iyileştir: daha iyi.
- Tekrar et.
Bu, gerçek bir Nash dengesine yakınsama olabilir. Oyun teorisi temeli vardır.
Modern LLM'ye uygulanması
2024-2025'te self-play LLM'lere taşınıyor:
DeepSeek-R1
GRPO ile self-play benzeri eğitim. Model kendi cevaplarından öğrenir. "Aha moment" yaratıcılığı bu yöntemden.
Constitutional AI
Anthropic Claude AI cevaplarını kendisi eleştirir. Self-play'in alignment versiyonu.
Synthetic data generation
Model kendi eğitim verisini üretir (Self-Instruct). Modern instruction tuning paradigması.
AlphaProof
Lean'de self-play ile matematik ispatları öğrenir.
Sınırlamalar
Self-play mükemmel değil:
- Tek ajanlı görevler: Self-play iki ajan gerek. Tek ajanlı görevler (NLP) farklı paradigma.
- Mod kollapsı: Aynı stratejilere yakınsama riski.
- Hesap maliyeti: Trilyonlarca oyun simülasyonu pahalı.
- Doğru ödül: Subjektif görevlerde "kazanma" tanımı zor.
Modern AI bu sorunları farklı yöntemlerle çözüyor.
Klasik benzetme
Bir öğretmen iki yöntem arasında seçiyor:
- Klasik: Tarihsel ders kitabı ile öğret.
- Self-play: Öğrencilere kendi aralarında oyun oyna; başarı sonucunda dersi belirleyin.
İkincisi daha dinamik, yaratıcı, ama kontrolsüz. Modern AI bu ikisini birleştiriyor.
Sade ders
Self-play hikâyesinden iki şey:
- Veri yaratıcılığı algoritma kadar önemli. Self-play modelin kendi verisini yaratmasıdır. Bu, eğitim verisi kıtlığının modern çözümü.
- Sıfırdan öğrenmek mümkün. AlphaGo Zero "insan rehberi gerek değil" gösterdi. Bu fikir modern AI'ın bağımsızlığa giden yolunun temeli.
Bağlam
David Silver için: [[david-silver-alphago-nun-akademik-mimari-ve-deepmind-rl-baba-figuru]]. MCTS için: [[monte-carlo-tree-search-mcts-alphagonun-zekasinin-kalbi]]. GRPO için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]]. Constitutional AI için: [[constitutional-ai-claude-un-arkasindaki-felsefi-hizalama-cercevesi]]. Self-Instruct için: [[self-instruct-modelin-kendi-egitim-verisini-uretmesi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Self-play nedir?
2. AlphaGo Zero ne yaptı?
3. AlphaZero kaç oyun çalışır?
4. MuZero ne ekledi?
5. Self-play modern LLM'lerde nerede?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?