Tüm yazılar
Matematik28 Temmuz 2025

Maksimum Olabilirlik (MLE): "Veriyi En Olası Yapan Parametreyi Seç" Prensibi

Gözlemlediğiniz veri verildiğinde, parametreyi öyle seçin ki **bu veri**'nin gözlenme olasılığı maksimum olsun. Fisher'ın 1922'de tanıttığı bu basit fikir, modern istatistik tahmininin altın standardı.

Matematik Karavanı Editörü 6 dk okuma 5 soru
Büyüteçle inceleme — kanıttan en olası açıklamaya ulaşma metaforu

Bir bozuk para — adil mi?

Sokakta bir bozuk parayı buldunuz. 10 kere attınız, 8 tura, 2 yazı. Bu bozuk paranın tura olasılığı pp ne kadar?

İlk sezgi: p=8/10=0.8p = 8/10 = 0.8. Ama bu niçin doğru cevap?

Cevap: bu, maksimum olabilirlik tahmini (Maximum Likelihood Estimation, MLE) ile elde edilir.

Fikir: "Bu veriyi gözlenmesi en olası yapan pp'yi seç."

MLE'nin tanımı

Veri X=(X1,X2,,Xn)\mathbf{X} = (X_1, X_2, \ldots, X_n). Parametre θ\theta. Olabilirlik fonksiyonu:

L(θX)=P(Xθ)L(\theta \mid \mathbf{X}) = P(\mathbf{X} \mid \theta)

Bu, parametre θ\theta verildiğinde, gözlenen verinin olasılığıdır.

MLE: θ^=argmaxθL(θX)\hat\theta = \arg\max_\theta L(\theta \mid \mathbf{X}).

Pratikte log-likelihood kullanılır:

(θ)=logL(θX)=i=1nlogP(Xiθ)\ell(\theta) = \log L(\theta \mid \mathbf{X}) = \sum_{i=1}^n \log P(X_i \mid \theta)

(Bağımsızlık varsayımıyla)

Bozuk para örneğine geri dönelim

Bernoulli: tura ihtimali pp, yazı 1p1-p.

10 deneme, 8 tura: L(p)=p8(1p)2L(p) = p^8 (1-p)^2.

Log-likelihood: (p)=8logp+2log(1p)\ell(p) = 8 \log p + 2 \log(1-p).

Türevi sıfır: 8p21p=0p=0.8\frac{8}{p} - \frac{2}{1-p} = 0 \Rightarrow p = 0.8.

Yani sezgisel cevap, matematik olarak doğru.

Niçin önemli?

1. Sezgisel

"En olası açıklama" yaklaşımı — felsefi olarak makul.

2. Asimptotik optimal

MLE, büyük örnek limitinde:

  • Tutarlı (consistent): doğru değere yakınsar.
  • Asimptotik normal: n(θ^θ)N(0,I(θ)1)\sqrt{n}(\hat\theta - \theta) \to \mathcal{N}(0, I(\theta)^{-1}), II = Fisher bilgisi.
  • Asimptotik etkin: minimum varyans (Cramér-Rao alt sınırına ulaşır).

Bu, istatistiksel çıkarımın "en iyi" tahmincisi olduğunu söyler — asimptotik anlamda.

3. Hesap pratiği

Log-likelihood çoğunlukla konveks veya konkav — optimizasyon kolaylaşır.

Tarihsel köken

  • Carl Friedrich Gauss (1809): hata teorisi bağlamında. Normal dağılım için MLE ⟺ en küçük kareler.
  • Ronald A. Fisher (1912, 1922): modern formülasyonu. "Likelihood" terimi onun.

Fisher 1922'de "On the mathematical foundations of theoretical statistics" makalesi — modern istatistik teorisinin temel taşı. MLE'nin asimptotik özellikleri kanıtlandı.

Karl Pearson — Fisher'ın rakibi — MLE yerine method of moments (moment yöntemi) kullanıyordu. Pearson-Fisher tartışması (önceki yazımız) MLE'yi de içerir.

Klasik örnekler

Normal dağılım

XiN(μ,σ2)X_i \sim \mathcal{N}(\mu, \sigma^2).

μ^=Xˉ\hat\mu = \bar X (örnek ortalaması). σ^2=1n(XiXˉ)2\hat\sigma^2 = \frac{1}{n} \sum (X_i - \bar X)^2 (örnek varyansı, biasednn ile bölünür, n1n-1 değil).

Poisson dağılımı

XiPoisson(λ)X_i \sim \mathrm{Poisson}(\lambda).

λ^=Xˉ\hat\lambda = \bar X.

Üstel dağılım

XiExp(λ)X_i \sim \mathrm{Exp}(\lambda).

λ^=1/Xˉ\hat\lambda = 1/\bar X.

Lineer regresyon

Yi=β0+β1Xi+ϵiY_i = \beta_0 + \beta_1 X_i + \epsilon_i, ϵN(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2).

MLE = en küçük kareler.

Gauss bunu 1809'da gösterdi: en küçük kareler = normal hata MLE. Aralarındaki bağlantı derin.

Modern uygulamalar

1. Makine öğrenmesi

Lojistik regresyon, sinir ağları, Gaussian Mixture Models — hepsi MLE ile eğitilir.

Kayıp fonksiyonu = negatif log-likelihood. Gradient descent ile minimize.

2. Bayesyen istatistik

MLE \to MAP (Maximum A Posteriori, prior eklemiş). Bayesyen yorumun "tepe nokta" karşılığı.

3. Hipotez testi

Likelihood ratio test: iki modelin olabilirlik oranı. Wilks teoremi: 2logΛχ2-2 \log \Lambda \to \chi^2.

4. Sayısal optimizasyon

MLE bulmak için gradyan iniş, Newton metodu, EM algoritması (gizli değişkenlerle).

5. Bilim — fizik, biyoloji

Parçacık fiziği (Higgs bozonunun tespiti), genetik (polimerlerde), biyoinformatik (gen ifade) — hepsi MLE kullanır.

Sınırlamalar

MLE her zaman mükemmel değil:

Küçük örnek

Asimptotik özellikler küçük nn'de geçersiz. Biased olabilir, varyans büyük olabilir.

Bozuk model

MLE modelin doğru olduğunu varsayar. Model yanlışsa, MLE de yanlış.

Hesap zorluğu

Log-likelihood non-konveks olabilir (sinir ağları). Yerel maksimuma takılabilir.

Genelleştirme

MLE veriye aşırı uyum (overfitting) yapabilir. Düzenleştirme (regularization) gerekir.

EM algoritması

Expectation-Maximization — MLE'nin gizli değişkenli modeller için iteratif çözümü.

Klasik örnek: Gaussian Mixture Model. Her veri noktası hangi Gauss'tan? Gizli. EM iteratif olarak:

  • E-adım: olası gizli değişkenleri tahmin et.
  • M-adım: parametreleri MLE ile güncelle.

Bu döngü log-likelihood'u artırır — kanıtlanmış teorem.

Bayesyen alternatif

Bayes: P(θX)P(Xθ)P(θ)P(\theta \mid \mathbf{X}) \propto P(\mathbf{X} \mid \theta) \cdot P(\theta).

MAP = arg max bu posterior. Eğer prior uniform ise MAP = MLE.

Bayes vs MLE: felsefi seçim. Hem matematik temelleri var, hem pratik avantajları.

Sonuç

Maksimum olabilirlik tahmini:

  • Sezgisel ve matematik olarak optimal (asimptotik).
  • 1922 Fisher'ın icadı — modern istatistik temel taşı.
  • Makine öğrenmesinin kayıp fonksiyonu temeli.
  • Sınırları var (küçük örnek, model hatası, hesap zorluğu), ama bunlar bilinen sınırlar.

Bir tek prensip: "Veriyi en olası yapan parametreyi seç." Sade, etkili, evrensel.

Fisher 1922'de bu prensibi tanıttığında, modern istatistik öncesi karmaşaya bir net cevap verdi. 100 yıl sonra, her makine öğrenmesi modeli — Linear regression'dan büyük dil modellerine — temelinde MLE prensibi ile eğitiliyor.

"Veriyi en olası yap." Modern bilimin paradigma cümlelerinden biri.

Etiketler

maksimum olabilirlikMLEistatistik tahminiFisherparametre tahmini

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Maksimum Olabilirlik Tahmini (MLE) ne yapar?

2. MLE'yi modern formuyla kim tanıttı?

3. MLE'nin büyük örnek limitinde önemli bir özelliği nedir?

4. Normal dağılım için MLE ne verir (regresyonda)?

5. EM algoritması neyi çözer?