p-değeri tam olarak hangi olasılığı verir?

$P(D | H_0)$ — boş hipotez doğruysa bu veriyi (veya daha uç bir veriyi) görme olasılığı

$P(H_0 | D)$ — boş hipotezin doğru olma olasılığı

$P(D | H_0)$ — boş hipotez doğruysa bu veriyi (veya daha uç bir veriyi) görme olasılığı

"p < 0.05" eşiğini ilk öneren kişi kimdir?

Ronald Fisher (1925) — keyfî bir kestirme yol olarak

p-değeri etkinin büyüklüğü hakkında ne söyler?

Hiçbir şey söylemez; sadece "var" olduğuna dair kanıtın gücünü ölçer

Etki büyüklüğünü tahmin eder

Aynı veri üzerinde defalarca farklı analiz yapıp $p < 0.05$ bulana kadar denemek

2010'larda yapılan tekrarlanabilirlik çalışmaları ne gösterdi?

Yayımlanmış çalışmaların yarıdan fazlası tekrar denendiğinde aynı sonucu vermedi

Tüm sonuçlar tekrar üretildi

Yayımlanmış çalışmaların yarıdan fazlası tekrar denendiğinde aynı sonucu vermedi

Tüm yazılar

Matematik3 Kasım 2025

p-Değeri: Modern Bilimin En Çok Yanlış Anlaşılan Sayısı

Her gün milyonlarca bilim makalesinde geçer. Ama gerçek anlamı, kullanım sınırları ve trajik biçimde yanlış yorumlanması modern bilimin bir krizine dönüştü.

Matematik Karavanı Editörü 8 dk okuma 5 soru

Yaygın bir sayı, az anlaşılan bir kavram

Modern bilim makalelerinin ortalama her sayfasında bir p-değeri geçer:

"Yeni ilaç X tedavi grubunda anlamlı bir iyileşme sağladı (p < 0.05)."

Gazete manşetlerine taşınan, FDA onayı için kullanılan, doktora tezlerinin kabulünde belirleyici olan bu küçük sayı, gerçek anlamı itibarıyla çoğu bilimci tarafından bile yanlış yorumlanır. Niye?

Tanım: p-değeri tam olarak ne der?

Boş hipotez ( $H_0$ ): Bir etki yoktur; gözlem tesadüfen olabilir.

p-değeri: $H_0$ doğru olsaydı, gözlemlediğimiz en az bu kadar uç bir sonucu görme olasılığı.

Matematiksel olarak: $p = P(\text{data} \;|\; H_0)$ . Yani "boş hipotez gerçekse, bu kadar veya daha çarpıcı bir sonuç ne sıklıkla beklenir?"

Örnek: Bir madeni para 100 kez atıldı, 65 yazı geldi. Boş hipotez "para adil" derse, bu durumda $p \approx 0.0035$ . Yani "para adil olsaydı, 65 veya daha aşırı bir sonuç görme şansımız sadece %0.35."

"p < 0.05" eşiği nereden geldi?

Ronald Fisher 1925'te "Statistical Methods for Research Workers" kitabında yazdı: "0.05 eşiği keyfîdir ama pratik bir kestirme yol olarak kullanılabilir." Fisher'in niyeti mutlak bir eşik değil, dikkat çekme rehberi idi.

Ama 100 yıl sonra p < 0.05 bilimsel kabul için otomatik bir filtreye dönüştü. Akademik dergiler genellikle sadece $p < 0.05$ olan sonuçları yayımlar. Bu, tekrarlanabilirlik krizi'nin en büyük kaynağı oldu.

Sıkça yapılan 4 büyük hata

Hata 1: "p = 0.01 demek, hipotezimin %99 doğru olma olasılığı"

Yanlış. p-değeri tersini söyler: "boş hipotez doğruysa bu veriyi görme olasılığı" — yani $P(D|H_0)$ . Sizin sorduğunuz $P(H|D)$ — Bayesçi olarak çok farklı bir şey. İki olasılık birbirine eşit değildir.

Hata 2: "p > 0.05 demek, hipotez yanlış"

Yanlış. p-değeri yüksek olduğunda sadece "boş hipotezi reddetmek için yeterince kanıt yok" deriz; bu, alternatif hipotezin yanlış olduğu anlamına gelmez. Az veri varsa veya etki küçükse, gerçek bir etki olsa bile yüksek p-değeri çıkar.

Hata 3: "p = 0.04 'anlamlı', p = 0.06 'anlamsız'"

Saçma. Eşik keyfîdir. 0.04 ile 0.06 arasındaki fark istatistiksel olarak ihmal edilebilir. Yine de pek çok dergi bu sınıra dayanır.

Hata 4: "p = 0.01 demek etki büyük"

Yanlış. p-değeri etkinin büyüklüğünü değil, var olma kanıtının gücünü ölçer. Bir ilaç tansiyonu 0.5 mmHg düşürse de, çok büyük örneklemle p < 0.001 olabilir — istatistiksel olarak anlamlı, klinik olarak değersiz.

P-hacking ve "garden of forking paths"

P-hacking: Araştırmacılar bir hipotez için $p < 0.05$ bulamadığında, farklı analizler dener: değişkenleri farklı gruplara bölmek, aykırı değerleri çıkarmak, alt-grup analizleri yapmak. Yeterince denerseniz tesadüfen $p < 0.05$ bulursunuz.

Bu pratik tekrarlanabilirlik krizi'nin başlıca sebebidir. 2010'larda psikoloji, biyomedical, ekonomi gibi alanlarda yapılan büyük tekrarlanabilirlik çalışmaları, yayımlanmış çalışmaların yarıdan fazlasının tekrar yapıldığında aynı sonucu vermediğini gösterdi.

"Garden of forking paths": Veriyle karşılaşan bir araştırmacı, analiz boyunca çok sayıda küçük karar alır (hangi modeli kullanacağım, hangi değişkenleri içereceğim, hangi alt-grupları analiz edeceğim). Her karar veriye bakarak verildiğinde, sonuçta bulunan p-değerinin gerçek anlamı değişir.

Modern öneriler

Sorunun farkına varan istatistikçi camiası reform önerdi:

1) Etki büyüklüğü (effect size) raporlanmalı

p-değerinin yanı sıra etkinin gerçek büyüklüğü belirtilmeli. Sadece "anlamlı" demek yetmez; "iyileşme 5 puan" demek lazım.

2) Güven aralıkları

Tek bir nokta tahmin yerine "etki muhtemelen 3 ile 7 arasında" demek daha bilgi vericidir.

3) Pre-registration

Araştırmacı veriyi toplamadan önce hangi analizleri yapacağını kayıt altına alır. Böylece sonradan değiştirme (p-hacking) önlenir.

4) Bayesçi çıkarım

Bayesian yaklaşım, p-değeri yerine "hipotezin posterior olasılığını" hesaplar. Daha sezgisel ama hesaplaması zor.

5) Daha sıkı eşik

2017'de Benjamin et al. önerdi: yeni keşifler için eşik 0.005 olsun, mevcut 0.05 sadece "ilgi çekici" diye etiketlensin. Tartışılıyor.

6) "İstatistiksel anlamlılığın bırakılması"

2019'da 800'den fazla istatistikçi imzalı bir manifesto: "istatistiksel anlamlılık kavramını terk edelim." Sadece p-değerini değil, etkinin büyüklüğünü, belirsizliğini ve bağlamı raporlayın.

"p < 0.05" hâlâ neden yaygın?

Çünkü pratik:

Editörler için filtre: Hangi makalelerin yayımlanacağına karar vermek için somut bir eşik gerek.
Hızlı iletişim: "p < 0.05" demek, "bu sonuç yayımlanabilir" demek.
Eğitim kalıbı: Doktora öğrencileri yıllarca "anlamlılık eşiği 0.05" diye yetiştirildi.
Müşteri talep: Sağlık otoriteleri, ilaç şirketleri, hukuki kanıtlar bu eşiğe alıştı.

Reform yavaş ilerliyor ama 2020'lerden itibaren büyük dergiler (Nature, JAMA) p-değeri standartlarını sıkılaştırıyor.

Sonuç: bir sayı, bir araç, bir uyarı

p-değeri kötü bir araç değil — yanlış kullanıldığında zararlı bir araç. Fisher'in deyimiyle bir "kestirme yol", kesin bir gerçeklik değil. İyi bilim:

Önceden hipotezi belirler.
Veriyi topladıktan sonra analizini değiştirmez.
p-değerini tek başına raporlamaz; etki büyüklüğü, güven aralığı, bağlamı verir.
Tekrarlanabilirliği öncelik yapar.

Modern istatistiğin önündeki en büyük sınav, p-değerini doğru kullanmayı öğrenmek değil; onun sınırlarını öğrenmektir. Bir küçük sayı, koca bilim makinesinin doğru çalışmasını engelleyebilir — eğer yanlış yorumlarsanız.

Etiketler

p-değeriistatistikhipotez testibilim metodolojisiolasılık

İlgili Yazılar

Matematik