Maksimum Olabilirlik Tahmini (MLE) ne yapar?

Veriyi en olası yapan parametreyi seçer: $\hat\theta = \arg\max P(\text{veri} \mid \theta)$

Veriye rastgele parametre verir

MLE'yi modern formuyla kim tanıttı?

Ronald A. Fisher (1922 makalesi)

MLE'nin büyük örnek limitinde önemli bir özelliği nedir?

Asimptotik normal: $\sqrt{n}(\hat\theta - \theta) \to \mathcal{N}(0, I(\theta)^{-1})$, Fisher bilgisi $I$ ile asimptotik etkin

Normal dağılım için MLE ne verir (regresyonda)?

En küçük kareler yöntemi (Gauss 1809 gösterdi: normal hata MLE = OLS)

EM algoritması neyi çözer?

Gizli değişkenli modeller için MLE: E-adım (gizli değişken tahmin) + M-adım (MLE güncelle); log-likelihood'u artırır

Tüm yazılar

Matematik28 Temmuz 2025

Maksimum Olabilirlik (MLE): "Veriyi En Olası Yapan Parametreyi Seç" Prensibi

Gözlemlediğiniz veri verildiğinde, parametreyi öyle seçin ki **bu veri**'nin gözlenme olasılığı maksimum olsun. Fisher'ın 1922'de tanıttığı bu basit fikir, modern istatistik tahmininin altın standardı.

Matematik Karavanı Editörü 6 dk okuma 5 soru

Büyüteçle inceleme — kanıttan en olası açıklamaya ulaşma metaforu

Bir bozuk para — adil mi?

Sokakta bir bozuk parayı buldunuz. 10 kere attınız, 8 tura, 2 yazı. Bu bozuk paranın tura olasılığı $p$ ne kadar?

İlk sezgi: $p = 8/10 = 0.8$ . Ama bu niçin doğru cevap?

Cevap: bu, maksimum olabilirlik tahmini (Maximum Likelihood Estimation, MLE) ile elde edilir.

Fikir: "Bu veriyi gözlenmesi en olası yapan $p$ 'yi seç."

MLE'nin tanımı

Veri $\mathbf{X} = (X_1, X_2, \ldots, X_n)$ . Parametre $\theta$ . Olabilirlik fonksiyonu:

$L(\theta \mid \mathbf{X}) = P(\mathbf{X} \mid \theta)$

Bu, parametre $\theta$ verildiğinde, gözlenen verinin olasılığıdır.

MLE: $\hat\theta = \arg\max_\theta L(\theta \mid \mathbf{X})$ .

Pratikte log-likelihood kullanılır:

$\ell(\theta) = \log L(\theta \mid \mathbf{X}) = \sum_{i=1}^n \log P(X_i \mid \theta)$

(Bağımsızlık varsayımıyla)

Bozuk para örneğine geri dönelim

Bernoulli: tura ihtimali $p$ , yazı $1-p$ .

10 deneme, 8 tura: $L(p) = p^8 (1-p)^2$ .

Log-likelihood: $\ell(p) = 8 \log p + 2 \log(1-p)$ .

Türevi sıfır: $\frac{8}{p} - \frac{2}{1-p} = 0 \Rightarrow p = 0.8$ .

Yani sezgisel cevap, matematik olarak doğru.

Niçin önemli?

1. Sezgisel

"En olası açıklama" yaklaşımı — felsefi olarak makul.

2. Asimptotik optimal

MLE, büyük örnek limitinde:

Tutarlı (consistent): doğru değere yakınsar.
Asimptotik normal: $\sqrt{n}(\hat\theta - \theta) \to \mathcal{N}(0, I(\theta)^{-1})$ , $I$ = Fisher bilgisi.
Asimptotik etkin: minimum varyans (Cramér-Rao alt sınırına ulaşır).

Bu, istatistiksel çıkarımın "en iyi" tahmincisi olduğunu söyler — asimptotik anlamda.

3. Hesap pratiği

Log-likelihood çoğunlukla konveks veya konkav — optimizasyon kolaylaşır.

Tarihsel köken

Carl Friedrich Gauss (1809): hata teorisi bağlamında. Normal dağılım için MLE ⟺ en küçük kareler.
Ronald A. Fisher (1912, 1922): modern formülasyonu. "Likelihood" terimi onun.

Fisher 1922'de "On the mathematical foundations of theoretical statistics" makalesi — modern istatistik teorisinin temel taşı. MLE'nin asimptotik özellikleri kanıtlandı.

Karl Pearson — Fisher'ın rakibi — MLE yerine method of moments (moment yöntemi) kullanıyordu. Pearson-Fisher tartışması (önceki yazımız) MLE'yi de içerir.

Klasik örnekler

Normal dağılım

$X_i \sim \mathcal{N}(\mu, \sigma^2)$ .

$\hat\mu = \bar X$ (örnek ortalaması). $\hat\sigma^2 = \frac{1}{n} \sum (X_i - \bar X)^2$ (örnek varyansı, biased — $n$ ile bölünür, $n-1$ değil).

Poisson dağılımı

$X_i \sim \mathrm{Poisson}(\lambda)$ .

$\hat\lambda = \bar X$ .

Üstel dağılım

$X_i \sim \mathrm{Exp}(\lambda)$ .

$\hat\lambda = 1/\bar X$ .

Lineer regresyon

$Y_i = \beta_0 + \beta_1 X_i + \epsilon_i$ , $\epsilon \sim \mathcal{N}(0, \sigma^2)$ .

MLE = en küçük kareler.

Gauss bunu 1809'da gösterdi: en küçük kareler = normal hata MLE. Aralarındaki bağlantı derin.

Modern uygulamalar

1. Makine öğrenmesi

Lojistik regresyon, sinir ağları, Gaussian Mixture Models — hepsi MLE ile eğitilir.

Kayıp fonksiyonu = negatif log-likelihood. Gradient descent ile minimize.

2. Bayesyen istatistik

MLE $\to$ MAP (Maximum A Posteriori, prior eklemiş). Bayesyen yorumun "tepe nokta" karşılığı.

3. Hipotez testi

Likelihood ratio test: iki modelin olabilirlik oranı. Wilks teoremi: $-2 \log \Lambda \to \chi^2$ .

4. Sayısal optimizasyon

MLE bulmak için gradyan iniş, Newton metodu, EM algoritması (gizli değişkenlerle).

5. Bilim — fizik, biyoloji

Parçacık fiziği (Higgs bozonunun tespiti), genetik (polimerlerde), biyoinformatik (gen ifade) — hepsi MLE kullanır.

Sınırlamalar

MLE her zaman mükemmel değil:

Küçük örnek

Asimptotik özellikler küçük $n$ 'de geçersiz. Biased olabilir, varyans büyük olabilir.

Bozuk model

MLE modelin doğru olduğunu varsayar. Model yanlışsa, MLE de yanlış.

Hesap zorluğu

Log-likelihood non-konveks olabilir (sinir ağları). Yerel maksimuma takılabilir.

Genelleştirme

MLE veriye aşırı uyum (overfitting) yapabilir. Düzenleştirme (regularization) gerekir.

EM algoritması

Expectation-Maximization — MLE'nin gizli değişkenli modeller için iteratif çözümü.

Klasik örnek: Gaussian Mixture Model. Her veri noktası hangi Gauss'tan? Gizli. EM iteratif olarak:

E-adım: olası gizli değişkenleri tahmin et.
M-adım: parametreleri MLE ile güncelle.

Bu döngü log-likelihood'u artırır — kanıtlanmış teorem.

Bayesyen alternatif

Bayes: $P(\theta \mid \mathbf{X}) \propto P(\mathbf{X} \mid \theta) \cdot P(\theta)$ .

MAP = arg max bu posterior. Eğer prior uniform ise MAP = MLE.

Bayes vs MLE: felsefi seçim. Hem matematik temelleri var, hem pratik avantajları.

Sonuç

Maksimum olabilirlik tahmini:

Sezgisel ve matematik olarak optimal (asimptotik).
1922 Fisher'ın icadı — modern istatistik temel taşı.
Makine öğrenmesinin kayıp fonksiyonu temeli.
Sınırları var (küçük örnek, model hatası, hesap zorluğu), ama bunlar bilinen sınırlar.

Bir tek prensip: "Veriyi en olası yapan parametreyi seç." Sade, etkili, evrensel.

Fisher 1922'de bu prensibi tanıttığında, modern istatistik öncesi karmaşaya bir net cevap verdi. 100 yıl sonra, her makine öğrenmesi modeli — Linear regression'dan büyük dil modellerine — temelinde MLE prensibi ile eğitiliyor.

"Veriyi en olası yap." Modern bilimin paradigma cümlelerinden biri.

Etiketler

maksimum olabilirlikMLEistatistik tahminiFisherparametre tahmini

İlgili Yazılar

Matematik