Diferansiyel Gizlilik: Veri Bilimine Matematik Bir Koruma Tabakası
Apple, Google, Microsoft, Çin nüfus sayımı — hepsi kullanıyor. Bir veritabanına matematik **gürültü** ekleyerek **istatistiksel sonuçlar** öğrenirken **bireysel mahremiyet**i koruyan zarif çerçeve. Cynthia Dwork'un 2006 icadı.
"Sizin verinizi paylaşmadan istatistikleri öğrenmek"
Bir araştırmacı sorar: "Şehirde ortalama gelir ne?" Eğer veritabanı doğrudan açılırsa, bireysel gelirler ifşa olur.
Klasik anonimleştirme: ad, TC kimlik no çıkar. Ama 2006'da Netflix Prize veri seti üzerinde bireyler kimliklendirildi — sadece film izleme alışkanlığı + IMDB karşılaştırmasıyla.
Sorun: anonimleştirme işe yaramıyor.
Çözüm: matematik olarak kanıtlı gizlilik garantisi — diferansiyel gizlilik.
Cynthia Dwork (2006)
Cynthia Dwork ve ekibi (Frank McSherry, Kobbi Nissim, Adam Smith): "Calibrating noise to sensitivity in private data analysis".
Kavram: bir mekanizma -diferansiyel gizli, eğer veritabanından bir bireyin değiştirilmesi çıktının dağılımını çok az değiştirir.
Resmi:
ve tek bir bireyde farklı. küçük → güçlü gizlilik.
Sezgi
Bir kişi veritabanından çıkartılırsa, çıktı istatistiksel olarak ayırt edilemez.
Yani birinin orada olup olmaması fark etmiyor. Bireysel gizlilik korunmuş olur — istatistiksel sonuç da değişmiyor.
Laplace mekanizması
En basit yöntem: gerçek sonuç + Laplace gürültü.
= sensitivity (fonksiyonun bir bireyin değişikliğinden ne kadar etkilendiği).
Örnek: 10000 kişilik popülasyonda gelir ortalaması. Bir kişinin gelirinin maksimum değişimi 10000\Delta f = 1$$ (10000/10000). Laplace gürültü ile mahremiyet korunur.
Gauss mekanizması
Laplace yerine normal dağılım. Bazı uygulamalar için daha pratik.
Modern uygulamalar
1. Apple iOS
Klavye otomatik tamamlama — milyonlarca kullanıcının verisi kullanılır, ama bireysel veri okunmaz.
2. Google
Chrome RAPPOR sistemleri.
3. ABD Nüfus Sayımı (2020)
İlk diferansiyel gizli nüfus sayımı tarihi. Tüm ABD veri sayımı veri özetleri DP ile yayımlandı.
4. Microsoft
Telemetri ve hata raporlama.
5. Çin nüfus sayımı
2020 sonrası.
6. Makine öğrenmesi
DP-SGD: diferansiyel gizli stokastik gradyan iniş — federe öğrenme sistemleri.
7. İlaç araştırması
Hastane verilerinin paylaşımında.
8. Vergi istatistikleri
IRS'in araştırmacılarla veri paylaşımı.
Trade-off
Gizlilik vs Doğruluk:
- Küçük : güçlü gizlilik, çok gürültü, az doğruluk.
- Büyük : zayıf gizlilik, az gürültü, yüksek doğruluk.
Pratikte: .
Birleşim teoremi
Eğer bireysel sorgular DP ise, birleşik DP.
Gizlilik bütçesi: yıllık kullanılabilir . Sınırı aşmamak için sorgu sayısı kısıtlı.
Genelleştirmeler
-DP
Çok küçük olasılıkla "kötü olay" oluşabilir. Pratik uygulamalarda daha kullanışlı.
Rényi DP
Modern teorinin standart çerçevesi. Daha sıkı analiz.
Lokal DP
Veri kullanıcının cihazından çıkmadan korunur. Apple stilinde.
Federated learning + DP
Modern AI eğitiminin gizlilik versiyonu.
Sınırlamalar
- Doğruluk maliyeti: hep bir gürültü var.
- Karmaşık tasarım: doğru parametre seçimi zor.
- Yan kanal saldırıları: kullanım sayısı kontrolü zor.
- Sertifikalama: matematik kanıt + uygulama hataları riski.
Modern alanlar
Synthetic data + DP
Gerçek veriden DP-uyumlu sentetik veri üretme.
Verifiable DP
Kullanıcılara gizlilik garantilerinin doğrulanması sağlanır.
Quantum DP
Kuantum hesaplamada gizlilik çerçevesi.
Sonuç
Diferansiyel gizlilik:
- 2006 Dwork-McSherry-Nissim-Smith icadı.
- "Bireyin verisi, toplam istatistikler için fark etmez" garantisi.
- Apple, Google, ABD nüfus sayımı, Microsoft uygulamaları.
- Modern veri gizliliğinin matematik temeli.
Bir matematik tanım — veriden öğrenme + bireysel mahremiyet uzlaşması. Modern dijital toplumun en zarif çözümlerinden biri.
"Verilerinizden öğrenmek istiyoruz; ama sizi bireysel olarak görmek istemiyoruz." Modern dijital etiğin paradigma cümlesi.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Diferansiyel gizlilik ne sağlar?
2. Diferansiyel gizlilik kim ne zaman tanıttı?
3. Laplace mekanizması ne yapar?
4. ABD 2020 Nüfus Sayımı niçin tarihi?
5. Diferansiyel gizliliğin temel takası nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?