Multi-Armed Bandit: "Keşfetmek mi, Kazanmak mı?"
Kollardan birine basacaksınız. Hangisi en çok kazandırır bilmiyorsunuz. Dene/öğren ya da bildiğine yatır? Modern online karar verme teorisi.

"Bilmediğine yatır mı, bildiğini sürdür mü?"
Kumarhanedeyim. 10 slot makina var:
- Hangisi en çok kazandırır bilmiyorum.
- Sınırlı param var.
- Strateji ne?
Bu multi-armed bandit problemi.
Tradeoff
- Keşif: yeni kollara dene (öğren).
- Sömürü: en iyi bilinene yatır (kazan).
İkisi arasında doğru denge ana mesele.
Modern bağlam
Bandit problemleri modern AI'da her yerde:
Recommender systems
Hangi ürünü göstereyim? Yeniyi mi, başarılıyı mı?
Online ads
Hangi reklam tıklanır?
A/B testing
Klasik vs adaptive.
Klinik denemeler
Hangi tedavi etkili?
Game AI
AlphaGo MCTS.
Hyperparameter tuning
Hangi config dene?
Klasik algoritmalar
Epsilon-greedy
- Olasılık ile: rastgele kol.
- ile: en iyi kol.
Basit ama çoğu zaman yeterli.
UCB (Upper Confidence Bound)
Her kolun tahmini ortalama + belirsizlik sınırı:
Yüksek UCB seç.
Optimism in the face of uncertainty: az denenmiş kollara bonus.
Thompson sampling
Bayesçi yaklaşım:
- Her kol için posterior tut.
- Posterior'dan örnek al.
- Örnek en yüksekse o kolu seç.
Genelde en iyi performans.
Exp3
Adversarial bandit için: rakip ödülleri istediği gibi ayarlar.
Teorik sonuçlar
Regret bound
Optimal kola göre toplam kayıp:
İyi algoritmalar: .
Lai & Robbins (1985): teorik alt sınır.
Contextual bandit
Klasik: kollar statik.
Contextual: her adımda context var.
Örnek:
- Kullanıcı yaşı + tıklama geçmişi.
- Hangi reklam göster?
LinUCB, Thompson sampling contextual versiyonları.
Modern uygulamalar
Netflix
"Sizin için seçildi" — bandit tabanlı.
Spotify
"Discover Weekly" — keşif vs bildiğin.
Yelp
Restoran sıralama.
Microsoft Bing
Reklam yerleşimi.
Klinik denemeler
2024+ adaptive trials.
RLHF ile bağlantı
RLHF reward model:
- Hangi cevap iyi?
- Bandit benzeri seçim.
- Thompson sampling reward modelleme.
Türkçe e-ticaret için
- Trendyol öneri: bandit.
- Hepsiburada arama: bandit reranking.
- Yemeksepeti kampanya: bandit.
Reinforcement Learning farkı
| Bandit | RL | |
|---|---|---|
| State | Yok (contextless) | Var |
| Aksiyon | Sadece kol seçimi | Karmaşık |
| Reward | Anlık | Gecikmeli olabilir |
| Karmaşıklık | Düşük | Yüksek |
Bandit = RL'in basitleştirilmiş hâli.
Modern challenge: Multi-stage
Birden çok bandit kararı zincirli:
- Kullanıcıya hangi reklamı göster?
- Tıkladıysa hangi sayfaya yönlendir?
- Satın aldıysa hangi öneri göster?
Modern öneri sistemleri kombinasyon kullanır.
Bayesçi vs Frequentist
Bayesçi (Thompson)
- Önsel + güncellem.
- Doğal belirsizlik.
- Hesap pahası.
Frequentist (UCB)
- Confidence bound.
- Hızlı.
- Az parametre.
İkisi de iyi.
Pratik öneriler
Az veri başlangıç
- Epsilon-greedy basit.
Daha çok performans gerek
- Thompson sampling.
Çok kullanıcı + context
- LinUCB.
Production
- Implicit Bandit (Vowpal Wabbit, AWS Personalize).
Felsefe
Bandit temel mesajı: "Bilmemek kötü değil — bilmediğini kabul edip akıllıca dene".
Modern karar verme felsefesi.
Türk yatırımcı için
Yatırım kararları bandit problemi:
- Hangi hisseye yatır?
- Keşif (yeni) vs sömürü (denenmis).
- Risk-return dengeleme.
Sébastien Bubeck katkısı
Önceki yazımız Bubeck modern bandit teorisinin akademik mimarı:
- Bandit kitabı (2012) standart.
- Modern algoritma analizi.
Genç ML öğrencisi için ders
Bandit:
- RL'in basit hâli.
- Üretimde çok kullanışlı.
- A/B testing'in akıllı versiyonu.
- Karar verme matematik.
Kapanış
Multi-armed bandit, modern AI ve karar verme teorisinin temel taşı. Netflix öneriden klinik denemelere her yerde.
Bir mühendisin olgunluk işareti: A/B testing yerine bandit kullanmayı bilmek.
Keşif ve sömürü dengesi hayat felsefesi.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Bandit ana sorusu?
2. Thompson sampling?
3. UCB fikri?
4. Modern e-ticaret kullanımı?
5. RL ile fark?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?