Tüm yazılar
Matematik18 Ağustos 2025

Diferansiyel Gizlilik: Veri Bilimine Matematik Bir Koruma Tabakası

Apple, Google, Microsoft, Çin nüfus sayımı — hepsi kullanıyor. Bir veritabanına matematik **gürültü** ekleyerek **istatistiksel sonuçlar** öğrenirken **bireysel mahremiyet**i koruyan zarif çerçeve. Cynthia Dwork'un 2006 icadı.

Matematik Karavanı Editörü 5 dk okuma 5 soru
Pikselli yüz — diferansiyel gizliliğin görsel metaforu

"Sizin verinizi paylaşmadan istatistikleri öğrenmek"

Bir araştırmacı sorar: "Şehirde ortalama gelir ne?" Eğer veritabanı doğrudan açılırsa, bireysel gelirler ifşa olur.

Klasik anonimleştirme: ad, TC kimlik no çıkar. Ama 2006'da Netflix Prize veri seti üzerinde bireyler kimliklendirildi — sadece film izleme alışkanlığı + IMDB karşılaştırmasıyla.

Sorun: anonimleştirme işe yaramıyor.

Çözüm: matematik olarak kanıtlı gizlilik garantisi — diferansiyel gizlilik.

Cynthia Dwork (2006)

Cynthia Dwork ve ekibi (Frank McSherry, Kobbi Nissim, Adam Smith): "Calibrating noise to sensitivity in private data analysis".

Kavram: bir mekanizma MM ϵ\epsilon-diferansiyel gizli, eğer veritabanından bir bireyin değiştirilmesi çıktının dağılımını çok az değiştirir.

Resmi:

Pr[M(D)S]eϵPr[M(D)S]\Pr[M(D) \in S] \leq e^\epsilon \Pr[M(D') \in S]

DD ve DD' tek bir bireyde farklı. ϵ\epsilon küçük → güçlü gizlilik.

Sezgi

Bir kişi veritabanından çıkartılırsa, çıktı istatistiksel olarak ayırt edilemez.

Yani birinin orada olup olmaması fark etmiyor. Bireysel gizlilik korunmuş olur — istatistiksel sonuç da değişmiyor.

Laplace mekanizması

En basit yöntem: gerçek sonuç + Laplace gürültü.

M(D)=f(D)+Laplace(Δf/ϵ)M(D) = f(D) + \text{Laplace}(\Delta f / \epsilon)

Δf\Delta f = sensitivity (fonksiyonun bir bireyin değişikliğinden ne kadar etkilendiği).

Örnek: 10000 kişilik popülasyonda gelir ortalaması. Bir kişinin gelirinin maksimum değişimi 10000\Delta f = 1$$ (10000/10000). Laplace gürültü ile mahremiyet korunur.

Gauss mekanizması

Laplace yerine normal dağılım. Bazı uygulamalar için daha pratik.

Modern uygulamalar

1. Apple iOS

Klavye otomatik tamamlama — milyonlarca kullanıcının verisi kullanılır, ama bireysel veri okunmaz.

2. Google

Chrome RAPPOR sistemleri.

3. ABD Nüfus Sayımı (2020)

İlk diferansiyel gizli nüfus sayımı tarihi. Tüm ABD veri sayımı veri özetleri DP ile yayımlandı.

4. Microsoft

Telemetri ve hata raporlama.

5. Çin nüfus sayımı

2020 sonrası.

6. Makine öğrenmesi

DP-SGD: diferansiyel gizli stokastik gradyan iniş — federe öğrenme sistemleri.

7. İlaç araştırması

Hastane verilerinin paylaşımında.

8. Vergi istatistikleri

IRS'in araştırmacılarla veri paylaşımı.

Trade-off

Gizlilik vs Doğruluk:

  • Küçük ϵ\epsilon: güçlü gizlilik, çok gürültü, az doğruluk.
  • Büyük ϵ\epsilon: zayıf gizlilik, az gürültü, yüksek doğruluk.

Pratikte: ϵ[0.1,10]\epsilon \in [0.1, 10].

Birleşim teoremi

Eğer bireysel sorgular ϵ1,ϵ2,\epsilon_1, \epsilon_2, \ldots DP ise, birleşik ϵi\sum \epsilon_i DP.

Gizlilik bütçesi: yıllık kullanılabilir ϵ\epsilon. Sınırı aşmamak için sorgu sayısı kısıtlı.

Genelleştirmeler

(ϵ,δ)(\epsilon, \delta)-DP

Çok küçük δ\delta olasılıkla "kötü olay" oluşabilir. Pratik uygulamalarda daha kullanışlı.

Rényi DP

Modern teorinin standart çerçevesi. Daha sıkı analiz.

Lokal DP

Veri kullanıcının cihazından çıkmadan korunur. Apple stilinde.

Federated learning + DP

Modern AI eğitiminin gizlilik versiyonu.

Sınırlamalar

  • Doğruluk maliyeti: hep bir gürültü var.
  • Karmaşık tasarım: doğru parametre seçimi zor.
  • Yan kanal saldırıları: ϵ\epsilon kullanım sayısı kontrolü zor.
  • Sertifikalama: matematik kanıt + uygulama hataları riski.

Modern alanlar

Synthetic data + DP

Gerçek veriden DP-uyumlu sentetik veri üretme.

Verifiable DP

Kullanıcılara gizlilik garantilerinin doğrulanması sağlanır.

Quantum DP

Kuantum hesaplamada gizlilik çerçevesi.

Sonuç

Diferansiyel gizlilik:

  • 2006 Dwork-McSherry-Nissim-Smith icadı.
  • "Bireyin verisi, toplam istatistikler için fark etmez" garantisi.
  • Apple, Google, ABD nüfus sayımı, Microsoft uygulamaları.
  • Modern veri gizliliğinin matematik temeli.

Bir matematik tanım — veriden öğrenme + bireysel mahremiyet uzlaşması. Modern dijital toplumun en zarif çözümlerinden biri.

"Verilerinizden öğrenmek istiyoruz; ama sizi bireysel olarak görmek istemiyoruz." Modern dijital etiğin paradigma cümlesi.

Etiketler

diferansiyel gizlilikveri bilimigizlilikistatistikCynthia Dwork

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Diferansiyel gizlilik ne sağlar?

2. Diferansiyel gizlilik kim ne zaman tanıttı?

3. Laplace mekanizması ne yapar?

4. ABD 2020 Nüfus Sayımı niçin tarihi?

5. Diferansiyel gizliliğin temel takası nedir?