Keşfet (yeni dene) vs Sömür (bildiğine yatır)

Bayesçi — posterior'dan örnek al, en yükseği seç

Ortalama + belirsizlik bonusu — az denenmişe değer ver

Modern e-ticaret kullanımı?

Öneri sistemleri, reklam yerleşim, arama sıralama — bandit standart

Bandit state'siz, anlık reward — RL'in basitleştirilmiş hâli

Multi-Armed Bandit: "Keşfetmek mi, Kazanmak mı?"

"Bilmediğine yatır mı, bildiğini sürdür mü?"

Kumarhanedeyim. 10 slot makina var:

Hangisi en çok kazandırır bilmiyorum.
Sınırlı param var.
Strateji ne?

Bu multi-armed bandit problemi.

Tradeoff

Keşif: yeni kollara dene (öğren).
Sömürü: en iyi bilinene yatır (kazan).

İkisi arasında doğru denge ana mesele.

Modern bağlam

Bandit problemleri modern AI'da her yerde:

Recommender systems

Hangi ürünü göstereyim? Yeniyi mi, başarılıyı mı?

Online ads

Hangi reklam tıklanır?

A/B testing

Klasik vs adaptive.

Klinik denemeler

Hangi tedavi etkili?

Game AI

AlphaGo MCTS.

Hyperparameter tuning

Hangi config dene?

Klasik algoritmalar

Epsilon-greedy

Olasılık $\varepsilon$ ile: rastgele kol.
$1-\varepsilon$ ile: en iyi kol.

Basit ama çoğu zaman yeterli.

UCB (Upper Confidence Bound)

Her kolun tahmini ortalama + belirsizlik sınırı:

$UCB_i = \bar{x}_i + \sqrt{\frac{2 \log t}{n_i}}$

Yüksek UCB seç.

Optimism in the face of uncertainty: az denenmiş kollara bonus.

Thompson sampling

Bayesçi yaklaşım:

Her kol için posterior tut.
Posterior'dan örnek al.
Örnek en yüksekse o kolu seç.

Genelde en iyi performans.

Exp3

Adversarial bandit için: rakip ödülleri istediği gibi ayarlar.

Teorik sonuçlar

Regret bound

Optimal kola göre toplam kayıp:

$R_T = T \cdot \mu^* - \sum_t r_t$

İyi algoritmalar: $R_T = O(\sqrt{T \log T})$ .

Lai & Robbins (1985): teorik alt sınır.

Contextual bandit

Klasik: kollar statik.
Contextual: her adımda context var.

Örnek:

Kullanıcı yaşı + tıklama geçmişi.
Hangi reklam göster?

LinUCB, Thompson sampling contextual versiyonları.

Modern uygulamalar

Netflix

"Sizin için seçildi" — bandit tabanlı.

Spotify

"Discover Weekly" — keşif vs bildiğin.

Yelp

Restoran sıralama.

Microsoft Bing

Reklam yerleşimi.

Klinik denemeler

2024+ adaptive trials.

RLHF ile bağlantı

RLHF reward model:

Hangi cevap iyi?
Bandit benzeri seçim.
Thompson sampling reward modelleme.

Türkçe e-ticaret için

Trendyol öneri: bandit.
Hepsiburada arama: bandit reranking.
Yemeksepeti kampanya: bandit.

Reinforcement Learning farkı

	Bandit	RL
State	Yok (contextless)	Var
Aksiyon	Sadece kol seçimi	Karmaşık
Reward	Anlık	Gecikmeli olabilir
Karmaşıklık	Düşük	Yüksek

Bandit = RL'in basitleştirilmiş hâli.

Modern challenge: Multi-stage

Birden çok bandit kararı zincirli:

Kullanıcıya hangi reklamı göster?
Tıkladıysa hangi sayfaya yönlendir?
Satın aldıysa hangi öneri göster?

Modern öneri sistemleri kombinasyon kullanır.

Bayesçi vs Frequentist

Bayesçi (Thompson)

Önsel + güncellem.
Doğal belirsizlik.
Hesap pahası.

Frequentist (UCB)

Confidence bound.
Hızlı.
Az parametre.

İkisi de iyi.

Pratik öneriler

Az veri başlangıç

Epsilon-greedy basit.

Daha çok performans gerek

Thompson sampling.

Çok kullanıcı + context

LinUCB.

Production

Implicit Bandit (Vowpal Wabbit, AWS Personalize).

Felsefe

Bandit temel mesajı: "Bilmemek kötü değil — bilmediğini kabul edip akıllıca dene".

Modern karar verme felsefesi.

Türk yatırımcı için

Yatırım kararları bandit problemi:

Hangi hisseye yatır?
Keşif (yeni) vs sömürü (denenmis).
Risk-return dengeleme.

Sébastien Bubeck katkısı

Önceki yazımız Bubeck modern bandit teorisinin akademik mimarı:

Bandit kitabı (2012) standart.
Modern algoritma analizi.

Genç ML öğrencisi için ders

Bandit:

RL'in basit hâli.
Üretimde çok kullanışlı.
A/B testing'in akıllı versiyonu.
Karar verme matematik.

Kapanış

Multi-armed bandit, modern AI ve karar verme teorisinin temel taşı. Netflix öneriden klinik denemelere her yerde.

Bir mühendisin olgunluk işareti: A/B testing yerine bandit kullanmayı bilmek.

Keşif ve sömürü dengesi hayat felsefesi.

Multi-Armed Bandit: "Keşfetmek mi, Kazanmak mı?"

"Bilmediğine yatır mı, bildiğini sürdür mü?"

Tradeoff

Modern bağlam

Recommender systems

Online ads

A/B testing

Klinik denemeler

Game AI

Hyperparameter tuning

Klasik algoritmalar

Epsilon-greedy

UCB (Upper Confidence Bound)

Thompson sampling

Exp3

Teorik sonuçlar

Regret bound

Contextual bandit

Modern uygulamalar

Netflix

Spotify

Yelp

Microsoft Bing

Klinik denemeler

RLHF ile bağlantı

Türkçe e-ticaret için

Reinforcement Learning farkı

Modern challenge: Multi-stage

Bayesçi vs Frequentist

Bayesçi (Thompson)

Frequentist (UCB)

Pratik öneriler

Az veri başlangıç

Daha çok performans gerek

Çok kullanıcı + context

Production

Felsefe

Türk yatırımcı için

Sébastien Bubeck katkısı

Genç ML öğrencisi için ders

Kapanış

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü