Differential privacy'nin temel tanımı nedir?

Bir kişi veride olsun olmasın algoritma çıkışı (yaklaşık) aynı olmalı

Privacy budget — küçük: sıkı gizlilik, az fayda; büyük: tersi

Composability ne sağlar?

$k$ tane $\epsilon$-DP sorgu = $k\epsilon$-DP; budget yönetimi

DP nerede kullanılır?

Apple iOS telemetri, Google Gboard, ABD Census 2020

Gradient'a Gauss gürültüsü + clipping ile privacy-preserving derin öğrenme

Differential Privacy: Veriyi Kullan ama Kimseyi Tehlikeye Atma

"Bir kişi olmadan da aynı"

2006'da Cynthia Dwork (Microsoft Research) differential privacy'i formalize etti. Tanım:

"Bir algoritma differential private'sa, veride bir kişi olsun olmasın çıktı (yaklaşık) aynı olmalı."

Bu, kimlik koruma için matematiksel garanti. Anonimleştirme gibi geleneksel yöntemler kırılır. Differential privacy ispatlı.

Matematik

Algoritma $M$ differential private (DP), eğer her komşu veri seti $D$ ve $D'$ (bir kişi eklendi/çıkarıldı) için:

P(M(D) \in S) \leq e^\epsilon \cdot P(M(D') \in S)

$\epsilon$ privacy budget. Küçük $\epsilon$ : daha sıkı gizlilik, daha az faydalı veri. Büyük $\epsilon$ : tersi.

Tipik $\epsilon = 1$ veya $\epsilon = 0.5$ . Aşırı sıkı: $\epsilon = 0.01$ .

Pratikteki anlam

Bir veri seti üzerinde sorgu yapıyorsun: "Ortalama maaş ne?" DP cevap:

\text{cevap} = \text{gerçek ortalama} + \text{gürültü}

Gürültü genelde Laplace ya da Gauss dağılımından. Genlik $\epsilon$ 'a göre ayarlanır.

Sezgi: gerçek cevabı maskele. Tek bir kişinin eklenmesi/çıkarılması sonucu fark edilmesin.

Klasik vs DP yaklaşımı

Klasik anonimleştirme:

İsim sil, yaş yuvarla, posta kodu kısalt.
Sorun: birleşik bilgi → kimlik tespit (1990'lar Netflix Prize, AOL search logs).

Differential privacy:

Hesaba gürültü ekle.
İspatlı garanti: tek bir kayıt çıkışı belirlemiyor.
Sorgular biriktikçe privacy budget tükenir.

Composability

DP'nin güzelliği: bileşkenlik (composability). $k$ tane $\epsilon$ -DP sorguyu birleştir:

\text{Toplam DP} = k\epsilon

Bu, privacy budget'i yönetmemizi sağlar. Bir veri tabanına 100 sorgu yap = budget 100x harca. Bir noktada tükenir.

Endüstri benimsemesi

Differential privacy günümüzde geniş kullanımlı:

Apple (2016+)

iOS'ta emoji kullanım istatistikleri, kelime kullanımı — DP ile toplanır.

Google (2014+)

RAPPOR: Chrome'da telemetri.
Federated learning + DP: Gboard klavye öğrenme.

ABD Census Bureau (2020+)

2020 nüfus sayımı verisi DP ile yayınlandı. Tartışmalı (akademik fayda azaldı), ama hukuk gereği.

LinkedIn (2020+)

Reklam targeting verisi DP ile toplanır.

Deep Learning ile birleşim

DP-SGD (2016): Differentially private stochastic gradient descent. Her batch'te gradient'a Gauss gürültüsü ekle + clipping.

Bu, LLM eğitimini privacy-preserving yapar. Bazı hassas veri (sağlık, finans) için kullanılır.

Sorun: kalite kaybı. DP-SGD kalitesi standart SGD'den %5-15 düşük olabilir.

Federated Learning ile sinerji

Federated Learning (FL): veri merkezi sunucuya değil, kullanıcı cihazında kalır. Sunucuya sadece model güncellemeleri gönderilir.

FL + DP = güçlü kombinasyon: hem veri yerel hem güncellemeler özel. Apple, Google klavye öğrenmesinde standart.

Sınır — fayda vs gizlilik

DP'nin temel ödünleşimi: daha çok gizlilik = daha az fayda. Matematiksel olarak garanti.

$\epsilon$ seçimi politik:

Akademik: $\epsilon < 1$ tercih.
Endüstri: $\epsilon = 1-10$ pratik.
Census Bureau: $\epsilon = 19.6$ (tartışmalı yüksek).

Bu seçim sayısal değil, demokratik karar. Kim ne kadar gizlilik istiyor?

Cynthia Dwork — fizik kökeni

DP'nin baş yazarı Cynthia Dwork (Microsoft Research, sonra Harvard). Akademik tarzı: matematiksel sıkı, pratik etkili. Modern privacy teorisinin kurucu figürü.

2017'de Turing Ödülü'ne aday gösterilmedi ama akademik camianın "kazanmalı" listesinde sık görülür.

Sade ders

Differential privacy hikâyesinden iki şey:

Matematiksel garantiler değerlidir. "Şu kadar anonim" deyip kırılır. " $\epsilon$ -DP" deyip ispatlanır. Modern privacy teknolojisi ispatlı olmalı.
Privacy ile fayda gerçek bir ödünleşimdir. "Hem mahremiyet hem performans" bir illüzyon. Matematik bu gerçeği gösterir; politika dengeyi belirler.

Bağlam

Cynthia Dwork için: [[cynthia-dwork-modern-privacy-teorisinin-mucidi]] (varsa). AI güvenliği için: [[aleksander-madry-mit-de-ai-guvenligi-ve-robustness-uzmani]], [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]]. Federated learning için: [[federated-learning-merkezde-degil-cihazda]] (varsa). RLHF veri için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Quantization gibi diğer privacy teknikleri: [[quantization-buyuk-modelleri-cebinize-sigdirma-matematigi]].