Tüm yazılar
Matematik13 Ocak 2025

A/B Testi: İnternet Çağı için Modernleştirilmiş Rastgele Deney

Google, Netflix, Facebook her gün binlerce A/B testi yapıyor. Ronald Fisher'in 1925'teki fikrini modern şirketler endüstri haline getirdi.

Matematik Karavanı 6 dk okuma 5 soru
Karar büyüteci — A/B test metaforu

"Hangi tasarım daha çok satıyor?"

Yeni bir buton rengi denediniz. Mavi mi yeşil mi daha çok tıklanır?

Yöntem: ziyaretçilerin yarısına mavi, yarısına yeşil göster. Tıklama oranlarını karşılaştır.

Bu A/B testi — modern internet şirketlerinin standart karar yöntemi. Klasik istatistiğin rastgele kontrollü deney (RCT) kavramının ürünü.

Temel mantık

  1. Rastgele atama: kullanıcıları bağımsız ve rastgele A ve B gruplarına ayır.
  2. Tedaviyi uygula: A grubuna eski (kontrol), B grubuna yeni (tedavi).
  3. Sonuçları ölç: tıklama, satın alma, vs.
  4. İstatistiksel test: fark anlamlı mı?

Rastgelelik neden önemli?

Rastgele atama sayesinde A ve B grupları benzer karıştırıcılara sahip olur:

  • Yaş dağılımı.
  • Trafik kaynağı.
  • Cihaz türü.
  • Saat dilimi.

Tek kontrollü değişken tedavidir. Görülen fark → nedensel etki (Rubin causal model).

İstatistik

Hipotezler:

  • H0H_0: A ve B aynı (tedavi etkisi yok).
  • H1H_1: B daha iyi (veya farklı).

Test istatistiği: tıklama oranı farkı / standart hata.

z=p^Bp^Ap^(1p^)(1/nA+1/nB)z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})(1/n_A + 1/n_B)}}

p-değeri hesapla. Çoğu şirket p<0.05p < 0.05 eşiği kullanır.

Örneklem boyutu

Önceden hesaplanır. Power analysis:

  • Minimum tespit edilebilir etki (MDE): %1'lik fark görmek istiyoruz.
  • Güç: %80 (gerçek varsa bulma olasılığı).
  • Sonuç: gerekli kullanıcı sayısı (örn. her grupta 20.000).

Yetersiz örneklem → belirsiz sonuç.

Modern endüstri uygulamaları

Google

  • Arama sıralama: her küçük algoritma değişikliği A/B test.
  • Reklam yerleşimi: tıklama oranları.
  • Yıllık 100.000+ test.

Netflix

  • Önizleme thumbnail: hangi görsel daha ilgi çekici?
  • Öneri algoritması: yeni vs. eski.
  • Otomatik oynatma.

Facebook (Meta)

  • News feed sıralaması.
  • Bildirim tasarımı.

Booking.com

  • Sayfa düzeni.
  • Fiyat sunumu.
  • 1000+ paralel test çalışıyor.

Yaygın hatalar

1. Peeking (sürekli kontrol)

Test bitmeden p-değerine bakıp anlamlı olunca dur. Bu yanlış pozitifleri patlatır.

Çözüm: sequential testing (Wald, Bayesian).

2. Çoklu test

Aynı anda 10 metrik bakarsanız, biri şans eseri anlamlı görünür.

Çözüm: Bonferroni düzeltmesi, false discovery rate.

3. SUTVA ihlali

Bir kullanıcının davranışı diğerini etkiler (örn. sosyal ağ).

Çözüm: cluster randomization, geo-experiments.

4. Novelty effect

Yeni şey daha çok tıklanır — sonra normale döner.

Çözüm: uzun süreli test.

5. Mevsimsellik

Kara Cuma süresince test → sonuçlar genellenemez.

Çözüm: kontrol + tedavi paralel, aynı dönem.

Multi-armed Bandit alternatifi

Klasik A/B: sabit trafiği A ve B'ye böler.

Bandit: adaptif olarak iyi performanslı arm'a daha çok trafik yönlendirir (Thompson sampling, UCB).

  • Avantaj: kayıp az (regret minimization).
  • Dezavantaj: istatistik daha karmaşık.
  • Tercih: kısa dönem optimizasyon için bandit, uzun dönem nedensel sonuç için A/B.

Bayesçi A/B testi

Klasik p-değeri yerine posterior dağılım:

  • P(B>Averi)P(B > A \mid \text{veri}).
  • "B'nin daha iyi olma olasılığı %92".

Daha sezgisel; çok dağılımlı testler kolay.

Türk endüstrisi

  • Trendyol, Hepsiburada, Getir: her gün yüzlerce A/B testi.
  • Yemeksepeti: önemli özelliklerin lansmanı öncesi test.
  • Bankacılık: dijital kanal değişiklikleri A/B.
  • TRT, Yandex.Türkiye: kullanıcı arayüzü testleri.

Felsefe

A/B testi bir kültür meselesidir. Şirketler "yöneticinin sezgisi" değil veri üzerinden karar vermeyi öğrenir.

Jeff Bezos: "İyi karar verici tahmininin %70'i doğru. Bu yüzden test edin."

Sınırlamalar

  • Davranış değişimi ölçer, bilinç veya niyet değil.
  • Etik: bazı testler rıza alınmadan yapılır.
  • Uzun vadeli etkiler kaybolur (kısa odaklılık).
  • Yenilik A/B'den çıkmaz — sadece mevcut alternatiflerin seçimi.

Kapanış

A/B testi, Fisher'in 1925 deney metodolojisinin modern internet çağına aktarılmış halidir. Klasik istatistiğin en pragmatik uygulaması. Her gün milyarlarca dolarlık karar bu temelde alınıyor.

Ders: rastgelelik bilimseldir, sezgi değildir.

Etiketler

A/B testirastgele deneyistatistikweb analitiğikontrol grubu

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. A/B testinin temeli?

2. Peeking sorunu?

3. Multi-armed bandit'in farkı?

4. Modern Türk şirketinde örnek?

5. Test bittiğinde minimum kontrol etmen gereken?