Zipf Yasası: Bir Dilin En Sık Kullanılan Kelimesi, İkincisinin İki Katı Sıklıkta Kullanılır
Bir kitabı açın, kelime sıklıklarını sayın. En çok geçen kelime, ikinci sıradakinin yaklaşık iki katı, üçüncü sıradakinin üç katı sıklıkta çıkar. Aynı örüntü şehir nüfuslarında, gelir dağılımında, internet sitesi tıklamalarında karşımıza çıkar — niçin?

Bir İngilizce romanı alın; içindeki tüm kelimeleri, görülme sıklıklarına göre azalan biçimde sıralayın. En çok kullanılanın "the" olduğunu görürsünüz. İkincisi muhtemelen "of", üçüncüsü "and", dördüncüsü "to". Şimdi sıralama (rank) ile sıklık (frequency) arasındaki ilişkiyi inceleyin:
| Sıra () | Kelime | Sıklık () |
|---|---|---|
| 1 | the | yaklaşık 6,9% |
| 2 | of | yaklaşık 3,6% |
| 3 | and | yaklaşık 2,9% |
| 4 | to | yaklaşık 2,7% |
| 10 | I | yaklaşık 0,9% |
| 100 | only | yaklaşık 0,07% |
| 1000 | family | yaklaşık 0,005% |
Sıklıkları birbirine bölün: , , , . Genel kural:
Sıra olan kelimenin sıklığı, en sık kelimenin sıklığının katıdır.
Yani .
Bu basit, karşı sezgisel örüntüye Zipf yasası denir. 1932 yılında Amerikalı dilbilimci George Kingsley Zipf, çok sayıda farklı dildeki metni inceleyerek bu kuralın evrensel olduğunu gösterdi. Sonradan Türkçe, Çince, Arapça, Latince… Hangi dili incelerseniz inceleyin, aynı kabaca örüntüsü çıkar.
Tek bir formül, derin bir örüntü
Zipf yasasının formal hâli şudur. Sıralama olan kelimenin sıklığı:
Burada bir normalleştirme sabiti, ise yasa için karakteristik üstür. İdeal Zipf için . Pratik metinlerde genelde civarındadır (örn. 0,9–1,1).
Sayısal anlam: alındığında ilk kelime tüm metnin yaklaşık %6-8'ini oluştururken, ilk 100 kelime tüm metnin yaklaşık yarısını oluşturur. Bu, "80–20 kuralı" gibi düşünülebilir; aslında "Pareto dağılımı" diye bilinen aynı tür güç yasasının özel bir hâlidir.
Sadece dil mi?
Zipf yasası sadece dile özgü değildir. Şaşırtıcı biçimde aynı örüntü pek çok başka yerde de görülür:
- Şehir nüfusları. Bir ülkede şehirleri nüfuslarına göre sıralayın; en büyük şehir, ikincinin yaklaşık iki katı; üçüncünün üç katı nüfusludur. ABD'de New York–Los Angeles–Chicago; Türkiye'de İstanbul–Ankara–İzmir; Almanya'da Berlin–Hamburg–Münih.
- Web sitesi trafiği. En çok ziyaret edilen siteler, ortalama bir siteye göre orantısız büyüklükte trafik alır.
- Müzik dinleme sayıları. Bir albümün en çok dinlenen şarkısı, ikinciden iki kat fazla dinlenir.
- Bilimsel makale atıfları. En çok atıf alan makale, ikinciden iki kat, üçüncüden üç kat fazla atıf alır.
- Şirket büyüklükleri (gelir / çalışan sayısı). Bir sektördeki en büyük firma, ikincinin yaklaşık iki katı büyüklüktedir.
Yani Zipf yasası, sosyal ve doğal sistemlerde sıralı dağılımların doğal bir formuymuş gibi karşımıza çıkar.
Neden işliyor?
Zipf yasasının neden bu kadar yaygın olduğu hâlâ tam açık değildir, ama birkaç akla yakın açıklama var:
Maymun-daktilo modeli (Mandelbrot)
Benoît Mandelbrot (1953) şu sade modeli önerdi: bir maymunun rastgele tuşlara bastığı bir daktilo düşünün. Boşluk tuşu da var; her tuşa basma olasılığı eşit. Aralarda kalan harf grupları bir "kelime" oluştursun. Sonuç: bu rastgele üretilen "dilde" de Zipf benzeri bir dağılım çıkar. Çünkü kısa "kelimeler" doğal olarak daha sık üretilir; uzun olanlar daha nadirdir; ve sıklık-uzunluk ilişkisi tam Zipf eğrisini verir.
Bu, dilin Zipf yasasına uymasının zorunlu olarak "anlamlı bir dil yapısının" sonucu olmadığını gösterir. Hatta tartışmalıdır: belki Zipf yasası dilde iletişim verimliliğinden çok istatistiksel kaçınılmazlıktan gelir.
Yoldnik (rich get richer) modeli
Şehir büyüklükleri için en sık önerilen model "zenginlik birikir" tipi süreçtir. Yeni göçmenler, zaten büyük şehirlere gitmeye eğilimlidir (iş, kültür, fırsat). Bu, büyük şehirleri daha hızlı büyütür ve uzun vadede güç yasası dağılımına yol açar. Aynı mekanizma web sitesi popülaritesi, makale atıfları için de geçerlidir.
Optimizasyon
Zipf'in kendi açıklaması farklıydı. Ona göre dil, konuşmacının çabası ile dinleyicinin anlama çabası arasındaki bir dengedir. En sık kelimeler kısa olmak ister (konuşan az çaba); ama az sayıda çok kısa kelime, anlam ayrımı için yetersiz olur (dinleyen zorlanır). İki kuvvetin dengesi, Zipf yasası benzeri bir dağılım üretir.
Pratik kullanımları
Zipf yasası bilim ve mühendislikte birden çok yerde işe yarar:
- Doğal dil işleme (NLP): Modern dil modelleri, kelime sıklığının Zipf dağılımına uyduğunu varsayarak veri ön işleme yapar. Az kullanılan kelimeler genellikle "bilinmeyen" olarak işlenir; çünkü Zipf yasası gereği seyrek kuyruk çok geniştir.
- Bilgi sıkıştırma: Huffman kodlaması ve diğer entropi tabanlı sıkıştırma algoritmaları, sık görülen sembolere kısa kodlar verir. Zipf yasalı bir kaynağı sıkıştırmak teorik olarak çok kazançlıdır.
- Web altyapısı: En çok istenen sayfaları önbelleğe almak (caching) — Zipf dağılımı sayesinde küçük bir önbellek bile trafiğin büyük kısmını karşılar.
- Anomali tespiti: Bir sistemdeki olay sıklıkları Zipf yasasına uymuyorsa, anormal bir durum (saldırı, bot trafiği) olabilir.
Zipf yasası her zaman geçerli mi?
Hayır. Zipf yasası bir gözlemdir; doğanın bir aksiyomu değil. Hata payları, en sık kuyrukta (üst 10) ve en seyrek kuyrukta (alt 10%) belirgin sapmalar gösterebilir. Bazı dillerde üs , 1'den belirgin biçimde sapar (örneğin yapışkan dillerde — Türkçe gibi — yaklaşık 0,9 civarında olabilir). Ayrıca çok kısa metinlerde Zipf yasası kararsızdır; istatistiksel olarak en az 10 bin kelimeli örnekler önerilir.
Yine de bir teorinin "her zaman" doğru olması gerekmiyor; çoğu durumda son derece iyi bir yaklaşım olması yeterli. Zipf yasası, bilim adamlarına "dağılım bekleniyorsa, güç yasasıyla başla" sezgisini veren önemli bir yıldız haritasıdır.
Bir hayat dersi
Zipf yasası, sosyal ve doğal sistemlerin ortak bir matematiksel imzasıdır: eşitsizlik, çoğu zaman tesadüf değil, doğal bir denge halidir. Dilin yapısından şehirlerin coğrafyasına, ekonomiden internet trafiğine kadar dünya, çoğu zaman birkaç büyük ve çok sayıda küçükten oluşur. Bu eşitsizliği "haksız" diye okumak felsefi bir tercihtir; ama matematiksel olarak çoğunlukla beklenmedik değildir.
Sözlüğünüzü açtığınızda en sık kullandığınız kelimeyi hatırlamadığınızı fark edebilirsiniz; ama Zipf yasası der ki "en çok kullanılan kelimeleri zaten farkına varmadan kullanıyorsunuz; çünkü onlar zaten dilde her yerdedir." Belki de dilin gizli matematiği, onu en çok konuşanlara bile en saklı kalandır.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Zipf yasası temelde ne der?
2. Aşağıdaki alanlardan hangisinde Zipf yasası benzeri bir güç yasası örüntüsü gözlenmez (tipik olarak)?
3. Mandelbrot'un Zipf yasasını açıklamak için önerdiği basit model nedir?
4. Zipf yasasının pratik uygulaması nedir?
5. Zipf yasasının üssü $s$ tipik bir dilde yaklaşık ne kadardır?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?