p-Değeri: Modern Bilimin En Çok Yanlış Anlaşılan Sayısı
Her gün milyonlarca bilim makalesinde geçer. Ama gerçek anlamı, kullanım sınırları ve trajik biçimde yanlış yorumlanması modern bilimin bir krizine dönüştü.

Yaygın bir sayı, az anlaşılan bir kavram
Modern bilim makalelerinin ortalama her sayfasında bir p-değeri geçer:
"Yeni ilaç X tedavi grubunda anlamlı bir iyileşme sağladı (p < 0.05)."
Gazete manşetlerine taşınan, FDA onayı için kullanılan, doktora tezlerinin kabulünde belirleyici olan bu küçük sayı, gerçek anlamı itibarıyla çoğu bilimci tarafından bile yanlış yorumlanır. Niye?
Tanım: p-değeri tam olarak ne der?
Boş hipotez (): Bir etki yoktur; gözlem tesadüfen olabilir.
p-değeri: doğru olsaydı, gözlemlediğimiz en az bu kadar uç bir sonucu görme olasılığı.
Matematiksel olarak: . Yani "boş hipotez gerçekse, bu kadar veya daha çarpıcı bir sonuç ne sıklıkla beklenir?"
Örnek: Bir madeni para 100 kez atıldı, 65 yazı geldi. Boş hipotez "para adil" derse, bu durumda . Yani "para adil olsaydı, 65 veya daha aşırı bir sonuç görme şansımız sadece %0.35."
"p < 0.05" eşiği nereden geldi?
Ronald Fisher 1925'te "Statistical Methods for Research Workers" kitabında yazdı: "0.05 eşiği keyfîdir ama pratik bir kestirme yol olarak kullanılabilir." Fisher'in niyeti mutlak bir eşik değil, dikkat çekme rehberi idi.
Ama 100 yıl sonra p < 0.05 bilimsel kabul için otomatik bir filtreye dönüştü. Akademik dergiler genellikle sadece olan sonuçları yayımlar. Bu, tekrarlanabilirlik krizi'nin en büyük kaynağı oldu.
Sıkça yapılan 4 büyük hata
Hata 1: "p = 0.01 demek, hipotezimin %99 doğru olma olasılığı"
Yanlış. p-değeri tersini söyler: "boş hipotez doğruysa bu veriyi görme olasılığı" — yani . Sizin sorduğunuz — Bayesçi olarak çok farklı bir şey. İki olasılık birbirine eşit değildir.
Hata 2: "p > 0.05 demek, hipotez yanlış"
Yanlış. p-değeri yüksek olduğunda sadece "boş hipotezi reddetmek için yeterince kanıt yok" deriz; bu, alternatif hipotezin yanlış olduğu anlamına gelmez. Az veri varsa veya etki küçükse, gerçek bir etki olsa bile yüksek p-değeri çıkar.
Hata 3: "p = 0.04 'anlamlı', p = 0.06 'anlamsız'"
Saçma. Eşik keyfîdir. 0.04 ile 0.06 arasındaki fark istatistiksel olarak ihmal edilebilir. Yine de pek çok dergi bu sınıra dayanır.
Hata 4: "p = 0.01 demek etki büyük"
Yanlış. p-değeri etkinin büyüklüğünü değil, var olma kanıtının gücünü ölçer. Bir ilaç tansiyonu 0.5 mmHg düşürse de, çok büyük örneklemle p < 0.001 olabilir — istatistiksel olarak anlamlı, klinik olarak değersiz.
P-hacking ve "garden of forking paths"
P-hacking: Araştırmacılar bir hipotez için bulamadığında, farklı analizler dener: değişkenleri farklı gruplara bölmek, aykırı değerleri çıkarmak, alt-grup analizleri yapmak. Yeterince denerseniz tesadüfen bulursunuz.
Bu pratik tekrarlanabilirlik krizi'nin başlıca sebebidir. 2010'larda psikoloji, biyomedical, ekonomi gibi alanlarda yapılan büyük tekrarlanabilirlik çalışmaları, yayımlanmış çalışmaların yarıdan fazlasının tekrar yapıldığında aynı sonucu vermediğini gösterdi.
"Garden of forking paths": Veriyle karşılaşan bir araştırmacı, analiz boyunca çok sayıda küçük karar alır (hangi modeli kullanacağım, hangi değişkenleri içereceğim, hangi alt-grupları analiz edeceğim). Her karar veriye bakarak verildiğinde, sonuçta bulunan p-değerinin gerçek anlamı değişir.
Modern öneriler
Sorunun farkına varan istatistikçi camiası reform önerdi:
1) Etki büyüklüğü (effect size) raporlanmalı
p-değerinin yanı sıra etkinin gerçek büyüklüğü belirtilmeli. Sadece "anlamlı" demek yetmez; "iyileşme 5 puan" demek lazım.
2) Güven aralıkları
Tek bir nokta tahmin yerine "etki muhtemelen 3 ile 7 arasında" demek daha bilgi vericidir.
3) Pre-registration
Araştırmacı veriyi toplamadan önce hangi analizleri yapacağını kayıt altına alır. Böylece sonradan değiştirme (p-hacking) önlenir.
4) Bayesçi çıkarım
Bayesian yaklaşım, p-değeri yerine "hipotezin posterior olasılığını" hesaplar. Daha sezgisel ama hesaplaması zor.
5) Daha sıkı eşik
2017'de Benjamin et al. önerdi: yeni keşifler için eşik 0.005 olsun, mevcut 0.05 sadece "ilgi çekici" diye etiketlensin. Tartışılıyor.
6) "İstatistiksel anlamlılığın bırakılması"
2019'da 800'den fazla istatistikçi imzalı bir manifesto: "istatistiksel anlamlılık kavramını terk edelim." Sadece p-değerini değil, etkinin büyüklüğünü, belirsizliğini ve bağlamı raporlayın.
"p < 0.05" hâlâ neden yaygın?
Çünkü pratik:
- Editörler için filtre: Hangi makalelerin yayımlanacağına karar vermek için somut bir eşik gerek.
- Hızlı iletişim: "p < 0.05" demek, "bu sonuç yayımlanabilir" demek.
- Eğitim kalıbı: Doktora öğrencileri yıllarca "anlamlılık eşiği 0.05" diye yetiştirildi.
- Müşteri talep: Sağlık otoriteleri, ilaç şirketleri, hukuki kanıtlar bu eşiğe alıştı.
Reform yavaş ilerliyor ama 2020'lerden itibaren büyük dergiler (Nature, JAMA) p-değeri standartlarını sıkılaştırıyor.
Sonuç: bir sayı, bir araç, bir uyarı
p-değeri kötü bir araç değil — yanlış kullanıldığında zararlı bir araç. Fisher'in deyimiyle bir "kestirme yol", kesin bir gerçeklik değil. İyi bilim:
- Önceden hipotezi belirler.
- Veriyi topladıktan sonra analizini değiştirmez.
- p-değerini tek başına raporlamaz; etki büyüklüğü, güven aralığı, bağlamı verir.
- Tekrarlanabilirliği öncelik yapar.
Modern istatistiğin önündeki en büyük sınav, p-değerini doğru kullanmayı öğrenmek değil; onun sınırlarını öğrenmektir. Bir küçük sayı, koca bilim makinesinin doğru çalışmasını engelleyebilir — eğer yanlış yorumlarsanız.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. p-değeri tam olarak hangi olasılığı verir?
2. "p < 0.05" eşiğini ilk öneren kişi kimdir?
3. p-değeri etkinin büyüklüğü hakkında ne söyler?
4. "P-hacking" nedir?
5. 2010'larda yapılan tekrarlanabilirlik çalışmaları ne gösterdi?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?