Tüm yazılar
Matematik21 Nisan 2025

Federated Learning: Veriyi Yerinde Bırak, Modeli Getir

2017'de Google'ın önerdiği "veri merkezi yerine cihazda" derin öğrenme paradigması. Gboard, Apple klavye, sağlık AI'da yaygın.

Matematik Karavanı 6 dk okuma 5 soru
Telefon klavyesi — federated learning'in tipik kullanım yeri

Klasik problem

Telefonun klavyesi: kullanıcının yazma alışkanlıklarını öğrenmek, sonraki kelimeyi tahmin etmek istiyor.

Klasik yaklaşım: Kullanıcı verilerini Google sunucusuna gönder. Orada model eğit. Modeli telefonlara dağıt.

Sorun: gizlilik. Mesajlarınızın Google'a gitmesi mahsurlu. AB GDPR, ABD HIPAA, kullanıcı endişesi.

Federated learning — çözüm

2017'de Google'dan McMahan ve ark. Federated Learning'i yayımladı. Tez:

"Veriyi sunucuya getirmek yerine, modeli kullanıcıya götür."

Akış:

  1. Sunucu modeli her cihaza gönderir.
  2. Her cihaz kendi verisiyle modeli yerel olarak eğitir.
  3. Cihaz model güncellemelerini sunucuya geri gönderir.
  4. Sunucu güncellemeleri birleştirir (FedAvg).
  5. Yeni model tekrar dağıtılır.

Veri hiç cihazdan çıkmaz. Sadece model ağırlıkları dolaşır.

FedAvg — temel algoritma

Federated Averaging (FedAvg):

Her cihaz kk, gradient adımı atar ve yerel model güncellemesi wkt+1w_k^{t+1} üretir. Sunucu:

wt+1=knkNwkt+1w^{t+1} = \sum_k \frac{n_k}{N} w_k^{t+1}

nkn_k cihaz veri boyutu, NN toplam. Yani ağırlıklı ortalama. Daha çok veri olan cihazın güncellemesi daha çok etki yapar.

Bu sade ama etkili. Modern FL'in temelidir.

Gboard — gerçek dünya

Google'ın Gboard klavyesi 2018'den beri FL kullanır. 3 milyar+ kullanıcı:

  • Sonraki kelime tahmini
  • Emoji tahmini
  • Otomatik düzeltme

Her telefon yerel olarak öğrenir, sadece güncellemeleri Google'a gönderir. Mesajlarınız asla sunucuya gitmez.

Apple — paralel yol

Apple da benzer teknoloji kullanır:

  • Siri'nin öğrenmesi
  • iMessage emoji tahmini
  • Foto albümünde yüz tanıma

Apple'ın yaklaşımı: DP + FL karması. Hem yerel öğrenme, hem differential privacy garantisi.

Sağlık AI — büyük cephe

FL'in en güzel uygulamalarından biri sağlık:

  • Hastane A: Kalp hastalığı verisi.
  • Hastane B: Aynı, farklı popülasyon.
  • Hastane C, D, E...: Aynı.

Hiçbiri verisini paylaşamaz (HIPAA, hasta gizliliği). Ama FL ile birleşik model eğitebilirler. Her hastane yerel eğitir, sadece güncellemeleri merkezi sunucuya gönderir.

Bu yaklaşım radyoloji, kanser tanı, ilaç keşfi gibi alanlarda kullanılıyor.

Sorunlar

FL kolay değil:

1. Non-IID veri

Her cihazın verisi çok farklı. Genç bir kullanıcının klavyesi yaşlı bir kullanıcıdan çok farklı. Modelin birleşmesi zor.

2. Heterojen cihazlar

Eski telefon, yeni telefon — farklı hesap güçleri. Bazı cihazlar yavaş, bazıları offline.

3. İletişim maliyeti

Model ağırlıkları büyük. Telefonlar 5G yok, batarya ile çalışır. Sürekli model indirme/yükleme pahalı.

4. Güvenlik

Kötü niyetli cihazlar yanlış güncellemeler gönderebilir (poisoning attack). Sunucu tespit etmeli.

Modern varyantlar

FL alanı hızla genişledi:

  • FedProx (2018): Non-IID için.
  • SCAFFOLD (2020): Gradient varyansını azaltır.
  • Personalized FL: Her kullanıcı için kişiselleştirilmiş model.
  • Cross-silo FL: Az sayıda kurumsal müşteri (hastaneler).
  • Cross-device FL: Milyonlarca telefon.

DP ile birleşim

FL + DP = güçlü mahremiyet:

  • FL: Veri yerel.
  • DP: Güncellemelerden bile birey çıkarılamaz.

Modern Google Gboard hem FL hem DP kullanır. Apple aynı. Bu birleşim modern privacy-preserving AI'ın altın standardı.

Klasik benzetme

Bir gazetenin gerçek zamanlı haberi öğrenmek istediğini düşün. Klasik: her muhabire "her şeyi raporla, ben yazarım" der. FL: her muhabir kendi haberi yazar, gazete sadece özetleri toplar. Detaylar muhabirin yanında kalır.

Bu, mahremiyet için doğal bir model. Verim açısından klasiktan biraz daha düşük, ama veri korunması için kazanılır.

Sade ders

Federated learning hikâyesinden iki şey:

  1. Bilgisayar mimarisi privacy çözümüdür. "Veri merkeze gitsin" varsayımı klasik. FL bu varsayımı değiştirir. Mimari kararlar etik kararları kolaylaştırır.
  2. Yaygın benimseme gizlidir. Gboard 3 milyar kullanıcıda FL kullanır. Çoğu kullanıcı bunu bilmiyor. Görünmez altyapı modern AI ekonomisinin temelidir.

Bağlam

Differential privacy için: [[differential-privacy-veriyi-kullan-ama-kimseyi-tehlikeye-atma]]. Dağıtık eğitim için: [[dagitik-egitim-ddp-fsdp-tensor-parallel-modern-llm-altyapisi]]. AI etiği için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]]. Apple bağlantısı için: [[mira-murati-arnavutluk-tan-openai-cto-luguna]]. McMahan ekibi için: [[jeff-dean-google-un-altyapi-dahisi]].

Etiketler

federated learninggizlilikdağıtık öğrenmeGooglecihaz AI

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Federated learning'in temel fikri nedir?

2. FedAvg ne yapar?

3. Gboard ne için FL kullanır?

4. FL'in en büyük teknik zorluğu nedir?

5. FL + DP birleşimi ne sağlar?