Tüm yazılar
Matematik29 Ekim 2024

Multi-Armed Bandit: "Keşfetmek mi, Kazanmak mı?"

Kollardan birine basacaksınız. Hangisi en çok kazandırır bilmiyorsunuz. Dene/öğren ya da bildiğine yatır? Modern online karar verme teorisi.

Matematik Karavanı 6 dk okuma 5 soru
Casino slot makinaları — bandit metaforu

"Bilmediğine yatır mı, bildiğini sürdür mü?"

Kumarhanedeyim. 10 slot makina var:

  • Hangisi en çok kazandırır bilmiyorum.
  • Sınırlı param var.
  • Strateji ne?

Bu multi-armed bandit problemi.

Tradeoff

  • Keşif: yeni kollara dene (öğren).
  • Sömürü: en iyi bilinene yatır (kazan).

İkisi arasında doğru denge ana mesele.

Modern bağlam

Bandit problemleri modern AI'da her yerde:

Recommender systems

Hangi ürünü göstereyim? Yeniyi mi, başarılıyı mı?

Online ads

Hangi reklam tıklanır?

A/B testing

Klasik vs adaptive.

Klinik denemeler

Hangi tedavi etkili?

Game AI

AlphaGo MCTS.

Hyperparameter tuning

Hangi config dene?

Klasik algoritmalar

Epsilon-greedy

  • Olasılık ε\varepsilon ile: rastgele kol.
  • 1ε1-\varepsilon ile: en iyi kol.

Basit ama çoğu zaman yeterli.

UCB (Upper Confidence Bound)

Her kolun tahmini ortalama + belirsizlik sınırı:

UCBi=xˉi+2logtniUCB_i = \bar{x}_i + \sqrt{\frac{2 \log t}{n_i}}

Yüksek UCB seç.

Optimism in the face of uncertainty: az denenmiş kollara bonus.

Thompson sampling

Bayesçi yaklaşım:

  • Her kol için posterior tut.
  • Posterior'dan örnek al.
  • Örnek en yüksekse o kolu seç.

Genelde en iyi performans.

Exp3

Adversarial bandit için: rakip ödülleri istediği gibi ayarlar.

Teorik sonuçlar

Regret bound

Optimal kola göre toplam kayıp:

RT=TμtrtR_T = T \cdot \mu^* - \sum_t r_t

İyi algoritmalar: RT=O(TlogT)R_T = O(\sqrt{T \log T}).

Lai & Robbins (1985): teorik alt sınır.

Contextual bandit

Klasik: kollar statik.
Contextual: her adımda context var.

Örnek:

  • Kullanıcı yaşı + tıklama geçmişi.
  • Hangi reklam göster?

LinUCB, Thompson sampling contextual versiyonları.

Modern uygulamalar

Netflix

"Sizin için seçildi" — bandit tabanlı.

Spotify

"Discover Weekly" — keşif vs bildiğin.

Yelp

Restoran sıralama.

Microsoft Bing

Reklam yerleşimi.

Klinik denemeler

2024+ adaptive trials.

RLHF ile bağlantı

RLHF reward model:

  • Hangi cevap iyi?
  • Bandit benzeri seçim.
  • Thompson sampling reward modelleme.

Türkçe e-ticaret için

  • Trendyol öneri: bandit.
  • Hepsiburada arama: bandit reranking.
  • Yemeksepeti kampanya: bandit.

Reinforcement Learning farkı

BanditRL
StateYok (contextless)Var
AksiyonSadece kol seçimiKarmaşık
RewardAnlıkGecikmeli olabilir
KarmaşıklıkDüşükYüksek

Bandit = RL'in basitleştirilmiş hâli.

Modern challenge: Multi-stage

Birden çok bandit kararı zincirli:

  • Kullanıcıya hangi reklamı göster?
  • Tıkladıysa hangi sayfaya yönlendir?
  • Satın aldıysa hangi öneri göster?

Modern öneri sistemleri kombinasyon kullanır.

Bayesçi vs Frequentist

Bayesçi (Thompson)

  • Önsel + güncellem.
  • Doğal belirsizlik.
  • Hesap pahası.

Frequentist (UCB)

  • Confidence bound.
  • Hızlı.
  • Az parametre.

İkisi de iyi.

Pratik öneriler

Az veri başlangıç

  • Epsilon-greedy basit.

Daha çok performans gerek

  • Thompson sampling.

Çok kullanıcı + context

  • LinUCB.

Production

  • Implicit Bandit (Vowpal Wabbit, AWS Personalize).

Felsefe

Bandit temel mesajı: "Bilmemek kötü değil — bilmediğini kabul edip akıllıca dene".

Modern karar verme felsefesi.

Türk yatırımcı için

Yatırım kararları bandit problemi:

  • Hangi hisseye yatır?
  • Keşif (yeni) vs sömürü (denenmis).
  • Risk-return dengeleme.

Sébastien Bubeck katkısı

Önceki yazımız Bubeck modern bandit teorisinin akademik mimarı:

  • Bandit kitabı (2012) standart.
  • Modern algoritma analizi.

Genç ML öğrencisi için ders

Bandit:

  • RL'in basit hâli.
  • Üretimde çok kullanışlı.
  • A/B testing'in akıllı versiyonu.
  • Karar verme matematik.

Kapanış

Multi-armed bandit, modern AI ve karar verme teorisinin temel taşı. Netflix öneriden klinik denemelere her yerde.

Bir mühendisin olgunluk işareti: A/B testing yerine bandit kullanmayı bilmek.

Keşif ve sömürü dengesi hayat felsefesi.

Etiketler

multi-armed banditkeşif sömürüThompson samplingUCBonline learning

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Bandit ana sorusu?

2. Thompson sampling?

3. UCB fikri?

4. Modern e-ticaret kullanımı?

5. RL ile fark?