Tüm yazılar
Bilim Tarihi27 Aralık 2024

Matei Zaharia: Spark Mucidi, Databricks CTO Romen Akademisyen

Berkeley doktora tezi olarak başlayan Apache Spark bugün milyarlarca dolarlık şirket. Mucidi Romen asıllı Matei Zaharia hâlâ aktif.

Matematik Karavanı 5 dk okuma 5 soru
Kıvılcımlar — Spark metaforu

"Hadoop yetmez"

Matei Zaharia (d. 1985, Romanya) — Apache Spark'ın doktora tezi olarak yazıldığı kişi. Modern büyük veri ekosisteminin yıldız mühendisi.

Tek cümle: bir doktoradan dünyayı değiştiren açık kaynak.

Yol

  • Romanya doğumlu, Kanada'ya 9 yaşında göç.
  • University of Waterloo lisans (2007) — bilgisayar bilimi.
  • UC Berkeley doktora (2013) — Scott Shenker, Ion Stoica mentörlüğünde.
  • MIT asistan profesörü (2014-2016).
  • Stanford profesörü (2016-).
  • Databricks kurucu CTO (2013-).

Spark (2010)

Berkeley'de doktora tezi.

Problem: Hadoop MapReduce iteratif algoritmaları çok yavaş yapar (her adımda disk yazma).

Çözüm: RDD (Resilient Distributed Dataset) — belleğe sığan, hata toleranslı, paralel veri yapısı.

Sonuç: Hadoop'tan 10-100x hızlı. Iteratif ML, graf algoritmaları, streaming — hepsinde çığır.

Bugün Apache Spark dünya çapında milyonlarca kullanıcı.

Databricks (2013)

Berkeley doktora arkadaşları + Ion Stoica ile şirket kuruluş. Spark'ı bulut çözümü olarak satar.

  • 2021: 38 milyar dolar değerlemesi.
  • 2024: 62 milyar dolar.
  • Apple, Microsoft, Google'dan sonra en büyük özel veri şirketi.

Matei CTO olarak teknik liderlik.

Stanford profesörlüğü

Akademik kariyer paralel:

  • DAWN project: ML üretim çözümleri.
  • MLflow geliştirme.
  • Delta Lake, Delta Live Tables.
  • DSPy — LLM prompt programlama.

MLflow

Modern ML projelerinin en yaygın deneyim takip aracı. Matei kurucu yazar.

  • Experiment tracking.
  • Model registry.
  • Model serving.
  • Açık kaynak + Databricks ürünü.

Delta Lake

Veri gölü + tutarlı işlemler:

  • ACID garanti veri gölünde.
  • Schema evolution.
  • Time travel: geçmişe geri dön.

Parquet + transaction log birleşimi.

DSPy (2023)

Stanford ekibiyle: prompt programlama:

  • LLM çağrılarını fonksiyon olarak yaz.
  • Otomatik optimizasyon (few-shot example seçimi).
  • Modular, tekrar kullanılabilir.

LangChain'in akademik rakibi, hızla yayılıyor.

Akademik etki

  • 120.000+ Google Scholar atıf (Spark sayesinde).
  • SIGOPS Hall of Fame.
  • ACM Dissertation Award (2014).
  • Member, NAE (2023) — National Academy of Engineering.

Tarz

  • Mühendis-akademisyen: araştırma + ürün.
  • Açık kaynak öncelik: Spark + MLflow + Delta + DSPy hep açık.
  • Mütevazı: az röportaj, az tweet.
  • Romanyalı + Stanford: göçmen başarı hikayesi.

Türkiye etkisi

  • Garanti BBVA: Databricks platformu kullanıyor.
  • Trendyol, Hepsiburada: Spark + Delta Lake stack.
  • Türk Telekom: veri ambarı modernizasyonu.
  • TÜBİTAK BİLGEM: MLflow ile araştırma.

Romen göçmen vurgusu

Romanya'dan başlayan bir bilim adamının ABD'de 70+ milyar dolarlık şirket kurması — göç ve eğitim olanaklarının gücü.

Mesaj

Matei'nin tekrarladığı:

  • "Doktora konusu pratik olmalı" — gerçek problem çöz.
  • "Açık kaynak ticari başarı engeli değildir".
  • "Her teorinin endüstride karşılığı olmalı".

Kapanış

Matei Zaharia, akademiden milyarlarca dolarlık şirkete uzanan yolun modern örneği. Spark, MLflow, Delta Lake, DSPy — her biri tek başına bir kariyer. Genç Türk öğrenci için: doktora konunuz dünyayı değiştirebilir.

Romen kökenli bir akademisyenin yarattığı eko-sistem, göçün ve açık kaynağın zaferi.

Etiketler

Matei ZahariaApache SparkDatabricksBerkeleyRomanya

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Spark'ın doğuşu?

2. Databricks değerlemesi?

3. Stanford'da projesi?

4. Memleketi?

5. DSPy nedir?