Tüm yazılar
Matematik23 Nisan 2025

Differential Privacy: Veriyi Kullan ama Kimseyi Tehlikeye Atma

Cynthia Dwork'un 2006'da formalize ettiği, "bir kişi olmadan da aynı sonuç" garantisi sunan matematiksel privacy çerçevesi.

Matematik Karavanı 6 dk okuma 5 soru
Anonim maske — differential privacy'nin kimlik gizleme felsefesi

"Bir kişi olmadan da aynı"

2006'da Cynthia Dwork (Microsoft Research) differential privacy'i formalize etti. Tanım:

"Bir algoritma differential private'sa, veride bir kişi olsun olmasın çıktı (yaklaşık) aynı olmalı."

Bu, kimlik koruma için matematiksel garanti. Anonimleştirme gibi geleneksel yöntemler kırılır. Differential privacy ispatlı.

Matematik

Algoritma MM differential private (DP), eğer her komşu veri seti DD ve DD' (bir kişi eklendi/çıkarıldı) için:

P(M(D)S)eϵP(M(D)S)P(M(D) \in S) \leq e^\epsilon \cdot P(M(D') \in S)

ϵ\epsilon privacy budget. Küçük ϵ\epsilon: daha sıkı gizlilik, daha az faydalı veri. Büyük ϵ\epsilon: tersi.

Tipik ϵ=1\epsilon = 1 veya ϵ=0.5\epsilon = 0.5. Aşırı sıkı: ϵ=0.01\epsilon = 0.01.

Pratikteki anlam

Bir veri seti üzerinde sorgu yapıyorsun: "Ortalama maaş ne?" DP cevap:

cevap=gerc¸ek ortalama+gu¨ru¨ltu¨\text{cevap} = \text{gerçek ortalama} + \text{gürültü}

Gürültü genelde Laplace ya da Gauss dağılımından. Genlik ϵ\epsilon'a göre ayarlanır.

Sezgi: gerçek cevabı maskele. Tek bir kişinin eklenmesi/çıkarılması sonucu fark edilmesin.

Klasik vs DP yaklaşımı

Klasik anonimleştirme:

  • İsim sil, yaş yuvarla, posta kodu kısalt.
  • Sorun: birleşik bilgi → kimlik tespit (1990'lar Netflix Prize, AOL search logs).

Differential privacy:

  • Hesaba gürültü ekle.
  • İspatlı garanti: tek bir kayıt çıkışı belirlemiyor.
  • Sorgular biriktikçe privacy budget tükenir.

Composability

DP'nin güzelliği: bileşkenlik (composability). kk tane ϵ\epsilon-DP sorguyu birleştir:

Toplam DP=kϵ\text{Toplam DP} = k\epsilon

Bu, privacy budget'i yönetmemizi sağlar. Bir veri tabanına 100 sorgu yap = budget 100x harca. Bir noktada tükenir.

Endüstri benimsemesi

Differential privacy günümüzde geniş kullanımlı:

Apple (2016+)

iOS'ta emoji kullanım istatistikleri, kelime kullanımı — DP ile toplanır.

Google (2014+)

RAPPOR: Chrome'da telemetri.
Federated learning + DP: Gboard klavye öğrenme.

ABD Census Bureau (2020+)

2020 nüfus sayımı verisi DP ile yayınlandı. Tartışmalı (akademik fayda azaldı), ama hukuk gereği.

LinkedIn (2020+)

Reklam targeting verisi DP ile toplanır.

Deep Learning ile birleşim

DP-SGD (2016): Differentially private stochastic gradient descent. Her batch'te gradient'a Gauss gürültüsü ekle + clipping.

Bu, LLM eğitimini privacy-preserving yapar. Bazı hassas veri (sağlık, finans) için kullanılır.

Sorun: kalite kaybı. DP-SGD kalitesi standart SGD'den %5-15 düşük olabilir.

Federated Learning ile sinerji

Federated Learning (FL): veri merkezi sunucuya değil, kullanıcı cihazında kalır. Sunucuya sadece model güncellemeleri gönderilir.

FL + DP = güçlü kombinasyon: hem veri yerel hem güncellemeler özel. Apple, Google klavye öğrenmesinde standart.

Sınır — fayda vs gizlilik

DP'nin temel ödünleşimi: daha çok gizlilik = daha az fayda. Matematiksel olarak garanti.

ϵ\epsilon seçimi politik:

  • Akademik: ϵ<1\epsilon < 1 tercih.
  • Endüstri: ϵ=110\epsilon = 1-10 pratik.
  • Census Bureau: ϵ=19.6\epsilon = 19.6 (tartışmalı yüksek).

Bu seçim sayısal değil, demokratik karar. Kim ne kadar gizlilik istiyor?

Cynthia Dwork — fizik kökeni

DP'nin baş yazarı Cynthia Dwork (Microsoft Research, sonra Harvard). Akademik tarzı: matematiksel sıkı, pratik etkili. Modern privacy teorisinin kurucu figürü.

2017'de Turing Ödülü'ne aday gösterilmedi ama akademik camianın "kazanmalı" listesinde sık görülür.

Sade ders

Differential privacy hikâyesinden iki şey:

  1. Matematiksel garantiler değerlidir. "Şu kadar anonim" deyip kırılır. "ϵ\epsilon-DP" deyip ispatlanır. Modern privacy teknolojisi ispatlı olmalı.
  2. Privacy ile fayda gerçek bir ödünleşimdir. "Hem mahremiyet hem performans" bir illüzyon. Matematik bu gerçeği gösterir; politika dengeyi belirler.

Bağlam

Cynthia Dwork için: [[cynthia-dwork-modern-privacy-teorisinin-mucidi]] (varsa). AI güvenliği için: [[aleksander-madry-mit-de-ai-guvenligi-ve-robustness-uzmani]], [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]]. Federated learning için: [[federated-learning-merkezde-degil-cihazda]] (varsa). RLHF veri için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Quantization gibi diğer privacy teknikleri: [[quantization-buyuk-modelleri-cebinize-sigdirma-matematigi]].

Etiketler

differential privacyCynthia DworkprivacyAI etiğiveri koruma

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Differential privacy'nin temel tanımı nedir?

2. Epsilon nedir?

3. Composability ne sağlar?

4. DP nerede kullanılır?

5. DP-SGD ne yapar?