AI kendi kendine oynayarak öğrenir — insan veri gerek değil

AlphaGo Zero ne yaptı?

İnsan oyunu görmeden 3 günde dünya en iyisi seviyesine — sıfırdan self-play

AlphaZero kaç oyun çalışır?

Üç: Go, satranç, shogi — tek algoritma genel öğrenme

Kuralları bile bilmez — sadece oynayarak öğrenir, dünya modeli + RL

Self-play modern LLM'lerde nerede?

DeepSeek-R1, Constitutional AI, AlphaProof, Self-Instruct

Self-Play: AI'nın Kendi Kendine Öğrenmesi

"Kendinle satranç oyna"

Bir satranç ustası iyileşmek istiyor. Strateji:

Daha güçlü rakiplerle oyna.
Yenilgileri analiz et.
Hataları öğren.

Ama eğer dünyanın en iyisi isen? Daha iyi rakip yok.

Çözüm: kendinle oyna. Her oyunda hem beyaz hem siyah kendin. Hatalarını öğren.

Bu self-play. Modern AI öğrenmesinin güçlü paradigmasıdır.

AlphaGo Zero (2017)

İlk büyük self-play başarısı. DeepMind:

AlphaGo Zero hiç insan oyunu görmedi.
Sıfırdan başladı.
Sadece kendi kendine oynadı.
3 günde dünyanın en iyi insan oyuncusu geçti.

Bu, insan deneyimi gerek değil demesi. Self-play yeter.

AlphaZero (2018)

Bir yıl sonra: AlphaZero. Aynı algoritma, üç oyun:

Go: Dünya en iyisi.
Satranç: Dünya en iyisi Stockfish'i yendi.
Shogi: Japon satrancı, en iyisi.

Tek algoritma, üç farklı oyun. Genel öğrenme.

MuZero (2019)

Daha radikal: MuZero kuralları bile bilmiyor. Sadece oynayarak öğreniyor — kurallar, strateji, değer.

Bu, dünya modelini öğrenme + RL birleşimi. Modern AI'ın temel paradigmalarından.

OpenAI Five (Dota 2)

Self-play sadece oyun değil. OpenAI Five Dota 2'de profesyonel takımları yendi:

Çok ajanlı self-play.
Karmaşık 5v5 oyun.
Saniyede 1000+ karar.

Bu, gerçek dünya benzeri problem için self-play başarısı.

Self-play matematiği

Akademik olarak self-play:

Politika $\pi$ ile başla.
Yeni veri oluştur: $\pi$ kendisiyle oynar.
Bu veriden politikayı iyileştir: $\pi'$ daha iyi.
Tekrar et.

Bu, gerçek bir Nash dengesine yakınsama olabilir. Oyun teorisi temeli vardır.

Modern LLM'ye uygulanması

2024-2025'te self-play LLM'lere taşınıyor:

DeepSeek-R1

GRPO ile self-play benzeri eğitim. Model kendi cevaplarından öğrenir. "Aha moment" yaratıcılığı bu yöntemden.

Constitutional AI

Anthropic Claude AI cevaplarını kendisi eleştirir. Self-play'in alignment versiyonu.

Synthetic data generation

Model kendi eğitim verisini üretir (Self-Instruct). Modern instruction tuning paradigması.

AlphaProof

Lean'de self-play ile matematik ispatları öğrenir.

Sınırlamalar

Self-play mükemmel değil:

Tek ajanlı görevler: Self-play iki ajan gerek. Tek ajanlı görevler (NLP) farklı paradigma.
Mod kollapsı: Aynı stratejilere yakınsama riski.
Hesap maliyeti: Trilyonlarca oyun simülasyonu pahalı.
Doğru ödül: Subjektif görevlerde "kazanma" tanımı zor.

Modern AI bu sorunları farklı yöntemlerle çözüyor.

Klasik benzetme

Bir öğretmen iki yöntem arasında seçiyor:

Klasik: Tarihsel ders kitabı ile öğret.
Self-play: Öğrencilere kendi aralarında oyun oyna; başarı sonucunda dersi belirleyin.

İkincisi daha dinamik, yaratıcı, ama kontrolsüz. Modern AI bu ikisini birleştiriyor.

Sade ders

Self-play hikâyesinden iki şey:

Veri yaratıcılığı algoritma kadar önemli. Self-play modelin kendi verisini yaratmasıdır. Bu, eğitim verisi kıtlığının modern çözümü.
Sıfırdan öğrenmek mümkün. AlphaGo Zero "insan rehberi gerek değil" gösterdi. Bu fikir modern AI'ın bağımsızlığa giden yolunun temeli.

Bağlam

David Silver için: [[david-silver-alphago-nun-akademik-mimari-ve-deepmind-rl-baba-figuru]]. MCTS için: [[monte-carlo-tree-search-mcts-alphagonun-zekasinin-kalbi]]. GRPO için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]]. Constitutional AI için: [[constitutional-ai-claude-un-arkasindaki-felsefi-hizalama-cercevesi]]. Self-Instruct için: [[self-instruct-modelin-kendi-egitim-verisini-uretmesi]].