Rastgele atama ile A (kontrol) ve B (tedavi) gruplarının karşılaştırılması — RCT

Test bitmeden p-değerine sürekli bakıp anlamlı olunca durmak → yanlış pozitif patlaması

Multi-armed bandit'in farkı?

Adaptif: iyi performanslı arm'a daha çok trafik (regret minimization)

Modern Türk şirketinde örnek?

Trendyol, Hepsiburada, Getir gibi şirketler günde yüzlerce A/B testi yapar

Test bittiğinde minimum kontrol etmen gereken?

Power analizi, çoklu test düzeltmesi, SUTVA ihlali kontrolü

A/B Testi: İnternet Çağı için Modernleştirilmiş Rastgele Deney

"Hangi tasarım daha çok satıyor?"

Yeni bir buton rengi denediniz. Mavi mi yeşil mi daha çok tıklanır?

Yöntem: ziyaretçilerin yarısına mavi, yarısına yeşil göster. Tıklama oranlarını karşılaştır.

Bu A/B testi — modern internet şirketlerinin standart karar yöntemi. Klasik istatistiğin rastgele kontrollü deney (RCT) kavramının ürünü.

Temel mantık

Rastgele atama: kullanıcıları bağımsız ve rastgele A ve B gruplarına ayır.
Tedaviyi uygula: A grubuna eski (kontrol), B grubuna yeni (tedavi).
Sonuçları ölç: tıklama, satın alma, vs.
İstatistiksel test: fark anlamlı mı?

Rastgelelik neden önemli?

Rastgele atama sayesinde A ve B grupları benzer karıştırıcılara sahip olur:

Yaş dağılımı.
Trafik kaynağı.
Cihaz türü.
Saat dilimi.

Tek kontrollü değişken tedavidir. Görülen fark → nedensel etki (Rubin causal model).

İstatistik

Hipotezler:

$H_0$ : A ve B aynı (tedavi etkisi yok).
$H_1$ : B daha iyi (veya farklı).

Test istatistiği: tıklama oranı farkı / standart hata.

$z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})(1/n_A + 1/n_B)}}$

p-değeri hesapla. Çoğu şirket $p < 0.05$ eşiği kullanır.

Örneklem boyutu

Önceden hesaplanır. Power analysis:

Minimum tespit edilebilir etki (MDE): %1'lik fark görmek istiyoruz.
Güç: %80 (gerçek varsa bulma olasılığı).
Sonuç: gerekli kullanıcı sayısı (örn. her grupta 20.000).

Yetersiz örneklem → belirsiz sonuç.

Modern endüstri uygulamaları

Google

Arama sıralama: her küçük algoritma değişikliği A/B test.
Reklam yerleşimi: tıklama oranları.
Yıllık 100.000+ test.

Netflix

Önizleme thumbnail: hangi görsel daha ilgi çekici?
Öneri algoritması: yeni vs. eski.
Otomatik oynatma.

Facebook (Meta)

News feed sıralaması.
Bildirim tasarımı.

Booking.com

Sayfa düzeni.
Fiyat sunumu.
1000+ paralel test çalışıyor.

Yaygın hatalar

1. Peeking (sürekli kontrol)

Test bitmeden p-değerine bakıp anlamlı olunca dur. Bu yanlış pozitifleri patlatır.

Çözüm: sequential testing (Wald, Bayesian).

2. Çoklu test

Aynı anda 10 metrik bakarsanız, biri şans eseri anlamlı görünür.

Çözüm: Bonferroni düzeltmesi, false discovery rate.

3. SUTVA ihlali

Bir kullanıcının davranışı diğerini etkiler (örn. sosyal ağ).

Çözüm: cluster randomization, geo-experiments.

4. Novelty effect

Yeni şey daha çok tıklanır — sonra normale döner.

Çözüm: uzun süreli test.

5. Mevsimsellik

Kara Cuma süresince test → sonuçlar genellenemez.

Çözüm: kontrol + tedavi paralel, aynı dönem.

Multi-armed Bandit alternatifi

Klasik A/B: sabit trafiği A ve B'ye böler.

Bandit: adaptif olarak iyi performanslı arm'a daha çok trafik yönlendirir (Thompson sampling, UCB).

Avantaj: kayıp az (regret minimization).
Dezavantaj: istatistik daha karmaşık.
Tercih: kısa dönem optimizasyon için bandit, uzun dönem nedensel sonuç için A/B.

Bayesçi A/B testi

Klasik p-değeri yerine posterior dağılım:

$P(B > A \mid \text{veri})$ .
"B'nin daha iyi olma olasılığı %92".

Daha sezgisel; çok dağılımlı testler kolay.

Türk endüstrisi

Trendyol, Hepsiburada, Getir: her gün yüzlerce A/B testi.
Yemeksepeti: önemli özelliklerin lansmanı öncesi test.
Bankacılık: dijital kanal değişiklikleri A/B.
TRT, Yandex.Türkiye: kullanıcı arayüzü testleri.

Felsefe

A/B testi bir kültür meselesidir. Şirketler "yöneticinin sezgisi" değil veri üzerinden karar vermeyi öğrenir.

Jeff Bezos: "İyi karar verici tahmininin %70'i doğru. Bu yüzden test edin."

Sınırlamalar

Davranış değişimi ölçer, bilinç veya niyet değil.
Etik: bazı testler rıza alınmadan yapılır.
Uzun vadeli etkiler kaybolur (kısa odaklılık).
Yenilik A/B'den çıkmaz — sadece mevcut alternatiflerin seçimi.

Kapanış

A/B testi, Fisher'in 1925 deney metodolojisinin modern internet çağına aktarılmış halidir. Klasik istatistiğin en pragmatik uygulaması. Her gün milyarlarca dolarlık karar bu temelde alınıyor.

Ders: rastgelelik bilimseldir, sezgi değildir.