Monte Carlo Tree Search (MCTS): AlphaGo'nun Zekasının Kalbi
Bir oyunda **olası tüm hamleler** çok fazla — Go'da $10^{170}$. Brute force imkansız. MCTS, **rastgele simülasyon + akıllı ağaç araması** ile bu uzayı yönetiyor. AlphaGo'yu mümkün kılan algoritma.

"Olası bir trilyon hamle"
Bir Go tahtası: pozisyon. Tüm oyun ağacı: yaklaşık olası durum.
Evrendeki atom sayısı: yaklaşık .
Brute force imkansız. Mini-max + alpha-beta kesme bile yetmez.
2006'da bir yeni algoritma: Monte Carlo Tree Search (MCTS).
Temel fikir
İki güçlü teknik birleştir:
- Monte Carlo simülasyonu: rastgele oyunlar.
- Ağaç araması: en umut verici hareketlere odaklan.
Dört adım
Her MCTS iterasyonu:
1. Selection
Ağaç kökünden başla. UCB1 formülü ile çocuk seç:
= düğümünün kazanma sayısı, = ziyaret, = parent ziyaret, = exploration sabiti.
İlk terim: exploitation (iyi bilinene git).
İkinci terim: exploration (az denenmişe git).
2. Expansion
Yaprak düğümde yeni çocuk ekle.
3. Simulation (rollout)
Yeni düğümden başlayarak rastgele oyun sonuna kadar oyna. Sonucu kaydet.
4. Backpropagation
Sonucu kökten o düğüme kadar tüm yola yay. İstatistikleri güncelle.
Bu dört adımı milyonlarca kez tekrarla. En çok ziyaret edilen kök çocuk = en iyi hamle.
Niçin işe yarar?
MCTS'in sihri:
- Brute force yok: tüm ağacı incelemeye gerek yok.
- Adaptif: önemli yerlerde derin, önemsiz yerlerde sığ.
- Rastgelelik yardımı: dar bir uzayda da iyi sonuç.
- Heuristic gerekmez: domain bilgisi sıfırla bile iyi.
UCB1'in zarafeti
UCB1 = Upper Confidence Bound. Olasılık teorisinden:
"Bilinmeyen bir bandit içinde, en iyi olanı bulmak için exploration vs exploitation dengesi."
UCB1 bu dengeyi matematik olarak optimal yapar (logaritmik regret).
Tarihsel köken
- 2006: Rémi Coulom Go AI için MCTS'yi tanıttı.
- 2007-09: MoGo, Crazy Stone — ilk Go programları.
- 2016: AlphaGo (Google DeepMind) MCTS + derin sinir ağları = dünya şampiyonunu yendi.
- 2017: AlphaZero — sıfır insan bilgisi ile satranç, Go, shogi.
- 2020: MuZero — kurallar bile öğrenildi.
AlphaGo'nun yapısı
MCTS + iki sinir ağı:
- Policy network: hangi hamleler muhtemelen iyi?
- Value network: bu pozisyon kazanma olasılığı?
MCTS bu iki ağdan yardım alır:
- Policy → expansion için hareket önerisi.
- Value → simulation yerine değer tahmini.
Sonuç: çok daha az iterasyonda insan-üstü oyun.
Modern uygulamalar
1. Oyun AI
Go, satranç, shogi, poker, StarCraft.
2. Planlama
Robot manevra planlaması.
3. Otomatik yazılım sentezi
Kod yazan AI sistemler.
4. İlaç keşfi
Molekül uzayında arama.
5. Optimizasyon
Karmaşık karar uzayları.
6. LLM "düşünme"
Modern büyük dil modellerinde "test-time compute" — MCTS-tipi arama. GPT-o1, DeepSeek R1.
Sınırlamalar
- Hesap pahalı: milyonlarca simülasyon.
- Doğru değer fonksiyonu gerek: AlphaGo öncesi MCTS ortalama performans.
- Sürekli aksiyon uzayı: standartı zor.
AlphaGo etkisi
Mart 2016: AlphaGo, Lee Sedol (dünya şampiyonu) ile 4-1 mağlup etti.
Tarihte bir an: 2500 yıllık Go matematiği, makine öğrenmesine teslim oldu.
Bu, modern AI'nın kamuoyu uyanışıydı.
Sonuç
Monte Carlo Tree Search:
- Rastgele simülasyon + akıllı ağaç araması birleşimi.
- UCB1 ile exploration-exploitation dengesi.
- AlphaGo (2016) ile dünyaya ışıldadı.
- Modern oyun AI ve planlama'nın standardı.
- Modern LLM'lerin "düşünme" tekniği.
Bir matematik algoritma — astronomik karar uzaylarını navigasyon edilebilir yapar. Modern yapay zeka çağının önemli ara basamağı.
"Rastgelelik akıllıca kullanılırsa, dehadan farksız." MCTS'nin paradigması.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. MCTS'nin dört adımı nedir?
2. UCB1 formülü nedir?
3. MCTS ne zaman ve neyle dünyaya tanıtıldı?
4. AlphaGo MCTS'yi nasıl güçlendirdi?
5. Modern LLM'lerde MCTS-tipi arama nerede kullanılıyor?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?