Maksimum Olabilirlik (MLE): "Veriyi En Olası Yapan Parametreyi Seç" Prensibi
Gözlemlediğiniz veri verildiğinde, parametreyi öyle seçin ki **bu veri**'nin gözlenme olasılığı maksimum olsun. Fisher'ın 1922'de tanıttığı bu basit fikir, modern istatistik tahmininin altın standardı.

Bir bozuk para — adil mi?
Sokakta bir bozuk parayı buldunuz. 10 kere attınız, 8 tura, 2 yazı. Bu bozuk paranın tura olasılığı ne kadar?
İlk sezgi: . Ama bu niçin doğru cevap?
Cevap: bu, maksimum olabilirlik tahmini (Maximum Likelihood Estimation, MLE) ile elde edilir.
Fikir: "Bu veriyi gözlenmesi en olası yapan 'yi seç."
MLE'nin tanımı
Veri . Parametre . Olabilirlik fonksiyonu:
Bu, parametre verildiğinde, gözlenen verinin olasılığıdır.
MLE: .
Pratikte log-likelihood kullanılır:
(Bağımsızlık varsayımıyla)
Bozuk para örneğine geri dönelim
Bernoulli: tura ihtimali , yazı .
10 deneme, 8 tura: .
Log-likelihood: .
Türevi sıfır: .
Yani sezgisel cevap, matematik olarak doğru.
Niçin önemli?
1. Sezgisel
"En olası açıklama" yaklaşımı — felsefi olarak makul.
2. Asimptotik optimal
MLE, büyük örnek limitinde:
- Tutarlı (consistent): doğru değere yakınsar.
- Asimptotik normal: , = Fisher bilgisi.
- Asimptotik etkin: minimum varyans (Cramér-Rao alt sınırına ulaşır).
Bu, istatistiksel çıkarımın "en iyi" tahmincisi olduğunu söyler — asimptotik anlamda.
3. Hesap pratiği
Log-likelihood çoğunlukla konveks veya konkav — optimizasyon kolaylaşır.
Tarihsel köken
- Carl Friedrich Gauss (1809): hata teorisi bağlamında. Normal dağılım için MLE ⟺ en küçük kareler.
- Ronald A. Fisher (1912, 1922): modern formülasyonu. "Likelihood" terimi onun.
Fisher 1922'de "On the mathematical foundations of theoretical statistics" makalesi — modern istatistik teorisinin temel taşı. MLE'nin asimptotik özellikleri kanıtlandı.
Karl Pearson — Fisher'ın rakibi — MLE yerine method of moments (moment yöntemi) kullanıyordu. Pearson-Fisher tartışması (önceki yazımız) MLE'yi de içerir.
Klasik örnekler
Normal dağılım
.
(örnek ortalaması). (örnek varyansı, biased — ile bölünür, değil).
Poisson dağılımı
.
.
Üstel dağılım
.
.
Lineer regresyon
, .
MLE = en küçük kareler.
Gauss bunu 1809'da gösterdi: en küçük kareler = normal hata MLE. Aralarındaki bağlantı derin.
Modern uygulamalar
1. Makine öğrenmesi
Lojistik regresyon, sinir ağları, Gaussian Mixture Models — hepsi MLE ile eğitilir.
Kayıp fonksiyonu = negatif log-likelihood. Gradient descent ile minimize.
2. Bayesyen istatistik
MLE MAP (Maximum A Posteriori, prior eklemiş). Bayesyen yorumun "tepe nokta" karşılığı.
3. Hipotez testi
Likelihood ratio test: iki modelin olabilirlik oranı. Wilks teoremi: .
4. Sayısal optimizasyon
MLE bulmak için gradyan iniş, Newton metodu, EM algoritması (gizli değişkenlerle).
5. Bilim — fizik, biyoloji
Parçacık fiziği (Higgs bozonunun tespiti), genetik (polimerlerde), biyoinformatik (gen ifade) — hepsi MLE kullanır.
Sınırlamalar
MLE her zaman mükemmel değil:
Küçük örnek
Asimptotik özellikler küçük 'de geçersiz. Biased olabilir, varyans büyük olabilir.
Bozuk model
MLE modelin doğru olduğunu varsayar. Model yanlışsa, MLE de yanlış.
Hesap zorluğu
Log-likelihood non-konveks olabilir (sinir ağları). Yerel maksimuma takılabilir.
Genelleştirme
MLE veriye aşırı uyum (overfitting) yapabilir. Düzenleştirme (regularization) gerekir.
EM algoritması
Expectation-Maximization — MLE'nin gizli değişkenli modeller için iteratif çözümü.
Klasik örnek: Gaussian Mixture Model. Her veri noktası hangi Gauss'tan? Gizli. EM iteratif olarak:
- E-adım: olası gizli değişkenleri tahmin et.
- M-adım: parametreleri MLE ile güncelle.
Bu döngü log-likelihood'u artırır — kanıtlanmış teorem.
Bayesyen alternatif
Bayes: .
MAP = arg max bu posterior. Eğer prior uniform ise MAP = MLE.
Bayes vs MLE: felsefi seçim. Hem matematik temelleri var, hem pratik avantajları.
Sonuç
Maksimum olabilirlik tahmini:
- Sezgisel ve matematik olarak optimal (asimptotik).
- 1922 Fisher'ın icadı — modern istatistik temel taşı.
- Makine öğrenmesinin kayıp fonksiyonu temeli.
- Sınırları var (küçük örnek, model hatası, hesap zorluğu), ama bunlar bilinen sınırlar.
Bir tek prensip: "Veriyi en olası yapan parametreyi seç." Sade, etkili, evrensel.
Fisher 1922'de bu prensibi tanıttığında, modern istatistik öncesi karmaşaya bir net cevap verdi. 100 yıl sonra, her makine öğrenmesi modeli — Linear regression'dan büyük dil modellerine — temelinde MLE prensibi ile eğitiliyor.
"Veriyi en olası yap." Modern bilimin paradigma cümlelerinden biri.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Maksimum Olabilirlik Tahmini (MLE) ne yapar?
2. MLE'yi modern formuyla kim tanıttı?
3. MLE'nin büyük örnek limitinde önemli bir özelliği nedir?
4. Normal dağılım için MLE ne verir (regresyonda)?
5. EM algoritması neyi çözer?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?