A/B Testi: İnternet Çağı için Modernleştirilmiş Rastgele Deney
Google, Netflix, Facebook her gün binlerce A/B testi yapıyor. Ronald Fisher'in 1925'teki fikrini modern şirketler endüstri haline getirdi.

"Hangi tasarım daha çok satıyor?"
Yeni bir buton rengi denediniz. Mavi mi yeşil mi daha çok tıklanır?
Yöntem: ziyaretçilerin yarısına mavi, yarısına yeşil göster. Tıklama oranlarını karşılaştır.
Bu A/B testi — modern internet şirketlerinin standart karar yöntemi. Klasik istatistiğin rastgele kontrollü deney (RCT) kavramının ürünü.
Temel mantık
- Rastgele atama: kullanıcıları bağımsız ve rastgele A ve B gruplarına ayır.
- Tedaviyi uygula: A grubuna eski (kontrol), B grubuna yeni (tedavi).
- Sonuçları ölç: tıklama, satın alma, vs.
- İstatistiksel test: fark anlamlı mı?
Rastgelelik neden önemli?
Rastgele atama sayesinde A ve B grupları benzer karıştırıcılara sahip olur:
- Yaş dağılımı.
- Trafik kaynağı.
- Cihaz türü.
- Saat dilimi.
Tek kontrollü değişken tedavidir. Görülen fark → nedensel etki (Rubin causal model).
İstatistik
Hipotezler:
- : A ve B aynı (tedavi etkisi yok).
- : B daha iyi (veya farklı).
Test istatistiği: tıklama oranı farkı / standart hata.
p-değeri hesapla. Çoğu şirket eşiği kullanır.
Örneklem boyutu
Önceden hesaplanır. Power analysis:
- Minimum tespit edilebilir etki (MDE): %1'lik fark görmek istiyoruz.
- Güç: %80 (gerçek varsa bulma olasılığı).
- Sonuç: gerekli kullanıcı sayısı (örn. her grupta 20.000).
Yetersiz örneklem → belirsiz sonuç.
Modern endüstri uygulamaları
- Arama sıralama: her küçük algoritma değişikliği A/B test.
- Reklam yerleşimi: tıklama oranları.
- Yıllık 100.000+ test.
Netflix
- Önizleme thumbnail: hangi görsel daha ilgi çekici?
- Öneri algoritması: yeni vs. eski.
- Otomatik oynatma.
Facebook (Meta)
- News feed sıralaması.
- Bildirim tasarımı.
Booking.com
- Sayfa düzeni.
- Fiyat sunumu.
- 1000+ paralel test çalışıyor.
Yaygın hatalar
1. Peeking (sürekli kontrol)
Test bitmeden p-değerine bakıp anlamlı olunca dur. Bu yanlış pozitifleri patlatır.
Çözüm: sequential testing (Wald, Bayesian).
2. Çoklu test
Aynı anda 10 metrik bakarsanız, biri şans eseri anlamlı görünür.
Çözüm: Bonferroni düzeltmesi, false discovery rate.
3. SUTVA ihlali
Bir kullanıcının davranışı diğerini etkiler (örn. sosyal ağ).
Çözüm: cluster randomization, geo-experiments.
4. Novelty effect
Yeni şey daha çok tıklanır — sonra normale döner.
Çözüm: uzun süreli test.
5. Mevsimsellik
Kara Cuma süresince test → sonuçlar genellenemez.
Çözüm: kontrol + tedavi paralel, aynı dönem.
Multi-armed Bandit alternatifi
Klasik A/B: sabit trafiği A ve B'ye böler.
Bandit: adaptif olarak iyi performanslı arm'a daha çok trafik yönlendirir (Thompson sampling, UCB).
- Avantaj: kayıp az (regret minimization).
- Dezavantaj: istatistik daha karmaşık.
- Tercih: kısa dönem optimizasyon için bandit, uzun dönem nedensel sonuç için A/B.
Bayesçi A/B testi
Klasik p-değeri yerine posterior dağılım:
- .
- "B'nin daha iyi olma olasılığı %92".
Daha sezgisel; çok dağılımlı testler kolay.
Türk endüstrisi
- Trendyol, Hepsiburada, Getir: her gün yüzlerce A/B testi.
- Yemeksepeti: önemli özelliklerin lansmanı öncesi test.
- Bankacılık: dijital kanal değişiklikleri A/B.
- TRT, Yandex.Türkiye: kullanıcı arayüzü testleri.
Felsefe
A/B testi bir kültür meselesidir. Şirketler "yöneticinin sezgisi" değil veri üzerinden karar vermeyi öğrenir.
Jeff Bezos: "İyi karar verici tahmininin %70'i doğru. Bu yüzden test edin."
Sınırlamalar
- Davranış değişimi ölçer, bilinç veya niyet değil.
- Etik: bazı testler rıza alınmadan yapılır.
- Uzun vadeli etkiler kaybolur (kısa odaklılık).
- Yenilik A/B'den çıkmaz — sadece mevcut alternatiflerin seçimi.
Kapanış
A/B testi, Fisher'in 1925 deney metodolojisinin modern internet çağına aktarılmış halidir. Klasik istatistiğin en pragmatik uygulaması. Her gün milyarlarca dolarlık karar bu temelde alınıyor.
Ders: rastgelelik bilimseldir, sezgi değildir.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. A/B testinin temeli?
2. Peeking sorunu?
3. Multi-armed bandit'in farkı?
4. Modern Türk şirketinde örnek?
5. Test bittiğinde minimum kontrol etmen gereken?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?