Tüm yazılar
Matematik10 Eylül 2025

Bootstrap Yöntemi: Veriden Kendi Kendine Belirsizlik Çıkartmak

Sahip olduğunuz tek bir veri kümesinden binlerce "alternatif evren" yaratıp istatistiksel güven ölçmenin yolu. 1979'da Bradley Efron icat etti. Modern istatistiğin en pratik araçlarından biri.

Matematik Karavanı Editörü 7 dk okuma 5 soru
Bağcıklı yürüyüş botları yakın çekim

"Bir veri kümem var; güveniyor muyum?"

Bir araştırmacı 100 hastanın tansiyonunu ölçmüş. Ortalama: 130 mmHg. Bu ortalama ne kadar güvenilir? Eğer 100 farklı hasta seçseydi, ortalama 125 mi 135 mi olurdu? Belirsizlik ne kadar?

Klasik cevap: standart hata formülü (σ/n\sigma / \sqrt{n}). Ama bu, dağılım hakkında varsayım yapar (normallik). Gerçek dünya verisi her zaman normalden değildir.

Bootstrap yöntemi: dağılım varsayımı yapmadan, mevcut veriden kendi kendine belirsizlik tahmini.

Yöntem: tek bir veriden bin alt-örnek

Sezgisel olarak:

  1. Orijinal veri kümesi: 100 gözlem.
  2. Bir bootstrap örneği oluştur: orijinal 100 gözlemden yerine koyarak rastgele 100 gözlem seç. Bazıları tekrar olur, bazıları hiç olmayabilir.
  3. Bu örnekten istatistik hesapla (örn. ortalama).
  4. Adımları 10,000 kez tekrarla: 10,000 farklı bootstrap örneği, 10,000 farklı ortalama.
  5. Bu 10,000 ortalamanın dağılımı, gerçek belirsizliği yansıtır.

%95 güven aralığı: bootstrap dağılımının 2.5. ve 97.5. yüzdelikleri.

Niye "bootstrap"?

İsim, "pull yourself up by your bootstraps" (kendi bağcıklarınızdan kendinizi yukarı çekmek) deyiminden gelir — imkânsız ama yaratıcı bir görsel.

Bootstrap yöntemi de imkânsız görünür: mevcut veriden, ek veri olmadan, yeni bilgi çıkarmak. Ama matematiksel olarak çalışır.

Bradley Efron (1979)

Bradley Efron Stanford'da istatistik profesörü, 1979'da yayımladığı "Bootstrap Methods: Another Look at the Jackknife" makalesinde bu yöntemi sistematik biçimde tanıttı.

Efron'un öncüleri jackknife (kesme yöntemi, Quenouille 1949, Tukey 1958), ama bootstrap çok daha genel ve güçlü'dür.

Niye işe yarıyor?

Bootstrap'ın teorik temeli: Empirical Distribution Function (EDF). Veriniz, gerçek dağılımın bir örneği'dir. EDF (her gözleme 1/n1/n olasılık) gerçek dağılımın bir tahminidir.

Bootstrap örneklemesi = EDF'den örnekleme. Modern istatistiğin asimptotik teorisine göre, bu, gerçek dağılımdan örneklemeye yakınsar (büyük nn için).

Bu, Glivenko-Cantelli teoremi'nin sezgisel uygulamasıdır.

Pratik uygulamalar

Bootstrap modern istatistik ve makine öğrenmesinin her yerinde:

1) Güven aralıkları

Karmaşık istatistikler (medyan, korelasyon, regresyon parametreleri) için dağılım varsayımsız güven aralıkları.

2) Hipotez testi

Permutation testleri ile birlikte, normallik varsayımsız hipotez testi.

3) Bias düzeltme

Bir tahmincinin bias'ını bootstrap ile tahmin edip düzeltme.

4) Makine öğrenmesinde

  • Bagging (Bootstrap Aggregating): birden çok model bootstrap örneklerinde eğit, sonuçlarını ortalama. Random Forest algoritmasının temelidir.
  • Ensemble methods: çoğu kuvvetli ML yöntemi bootstrap kullanır.
  • Cross-validation alternative: model performansı ölçümü.

5) Tıp araştırmaları

Klinik denemelerde az örnekli durumda güvenilir aralıklar.

6) Finans

Risk ölçümü, Value at Risk (VaR) hesabı, portföy belirsizliği.

7) Spor analitiği

Stat hesapları, oyuncu/takım performansının belirsizliği.

Bootstrap çeşitleri

Tek tip bootstrap değil; farklı durumlar için varyantlar:

Non-parametric bootstrap

En klasik form. Orijinal veriden rastgele örnekleme.

Parametric bootstrap

Dağılım modelini varsayıp o modelden örnekler üret.

Block bootstrap

Zaman serileri için: ardışık veri bloklarını örnekler.

Smoothed bootstrap

Veriye gürültü ekleyerek pürüzsüz alt-örnekler.

Bayesian bootstrap

Bayesçi yorumla bağlantılı varyant.

Hesaplama gücü ile birleşim

Bootstrap çok sayıda alt-örnek gerektirir (genellikle 1000-10000). 1979'da bu bilgisayar gerektiriyordu; modern hesaplama gücü ile trivial hale geldi.

Bu yüzden bootstrap modern hesaplamalı istatistiğin simgesi: insan başına imkânsız hesapları, bilgisayar pratik hale getirdi.

Sınırlamalar

Bootstrap mucize değil:

  • Çok küçük örnek'te güvenilmez (n<30n < 30).
  • Bazı istatistikler için tutarlı değil (örn. uç değerler).
  • Bağımsızlık varsayımı önemli (zaman serileri için block bootstrap gerekir).
  • Hesaplama maliyeti: 10,000 yeniden örnekleme yavaş olabilir büyük modellerde.

"İmkânsızı pratiğe dönüştürme"

Bootstrap, modern istatistiğin pragmatik felsefesinin simgesidir: matematiksel kesinlikten vazgeçip hesaplama gücünü kullanarak yararlı sonuçlar üretmek.

Bradley Efron'un 1979'daki makalesi, istatistik pratiğini dönüştürdü. Bugün R, Python (scipy.stats.bootstrap), Stata, SAS — tüm modern istatistik araçlarında bootstrap standart fonksiyondur.

Modern bilimsel araştırmanın hemen her makalesinde "95% bootstrap confidence interval" gibi bir cümle yer alır. Bu, Efron'un sezgisinin sessiz bir saygısıdır.

Kendi bağcıklarınızdan kendinizi çekmek — pratikte imkânsız, ama matematikte oldukça mümkün. Mevcut verinin gücü, çoğu zaman düşündüğünüzden daha büyüktür.

Etiketler

bootstrapistatistikmonte carlogüven aralıklarıefron

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Bootstrap yöntemi nasıl çalışır?

2. Bootstrap yöntemini sistematik biçimde tanıtan kişi kimdir?

3. Bootstrap'ın klasik istatistik formüllerinden avantajı nedir?

4. Modern makine öğrenmesinde bootstrap nerede kullanılır?

5. "Bootstrap" ismi nereden gelir?