MLOps DevOps'tan neden farklı?

ML'de kod + veri + model birlikte yönetilir, davranış stokastik, veri değişir

Özellik tanımları için tek merkezi depo — modellerde tekrar kullanım

Üretimde girdi dağılımının zamanla değişmesi — modelin performansı düşer

Yeni modeli önce trafiğin %1'ine, sorun yoksa kademeli yayma

En popüler experiment tracking aracı?

MLflow (Databricks) — open source standartı

MLOps: Makine Öğrenmesinin Üretim Disiplini

"Jupyter'dan üretime"

Bir veri bilimci notebook'ta harika bir model eğitir. Bunu üretime taşımak apayrı sorun:

Her gün yeni veri geliyor; model nasıl güncellenir?
Model dağıtım: API mi, batch mi?
Model versiyon takip nasıl?
Performance düşerse haber nasıl alınır?
Eski modele geri dönmek mümkün mü?

MLOps: DevOps'un ML'e uyarlanması.

ML'in farkı (DevOps'tan)

Yazılım:

Kod \to test \to deploy.
Davranış deterministik.

ML:

Kod + veri + model.
Davranış stokastik (eğitim seed'i).
Veri değişir, modelin performansı düşer.
Yeniden eğit: gerekirse.

Bu yüzden MLOps daha karmaşıktır.

Bileşenler

1. Feature Store

Sorun: aynı feature'ı (örn. "son 7 gün ortalama harcama") çoklu modellerde tekrar yazma.

Çözüm: tek bir feature store. Her özellik tanımı bir yerde, herkes kullanır.

Araçlar: Feast, Tecton, Databricks Feature Store.

2. Experiment Tracking

Her deneme: hyperparameters, kod versiyonu, metrikler, model checkpoint kayıtlı.

Araçlar: MLflow, Weights & Biases, Neptune.ai, ClearML.

3. Model Registry

Eğitilmiş modeller versiyonlu depolama. Production hangi versiyon? Önceki?

Araçlar: MLflow Model Registry, Vertex AI, SageMaker.

4. CI/CD for ML

CI: yeni kod → otomatik test, eğit.
CD: testleri geçen model otomatik deploy.

Araçlar: Jenkins + ML uzantısı, GitHub Actions, Argo Workflows.

5. Monitoring

Üretimde modelin performansı ve veri dağılımı izlenir.

Sorunlar:

Data drift: girdi dağılımı değişti.
Concept drift: girdi-çıktı ilişkisi değişti.
Performance drop: doğruluk düştü.

Araçlar: Evidently AI, WhyLabs, Arize, Fiddler.

6. Pipeline Orchestration

Veri çekme → ön işleme → eğitim → değerlendirme → deploy: otomatik akış.

Araçlar: Airflow, Kubeflow, Prefect, Dagster.

7. Data Versioning

Veri de versiyonlanmalı. "Bu modeli hangi veri ile eğittik?"

Araçlar: DVC, Pachyderm, lakeFS.

Olgunluk seviyeleri (Google)

Level 0: Manuel

Notebook'tan model kaydet, deploy.
Yeniden eğitim manuel.
Çoğu start-up'ın başlangıç hali.

Level 1: ML Pipeline Automation

Pipeline'lar otomatik.
Yeniden eğitim veri/zaman tetikli.
Model registry var.

Level 2: CI/CD Pipeline Automation

Yeni kod → pipeline otomatik testlenir, deploy edilir.
Model değişikliği koddan tetiklenir.
Tam DevOps olgunluğu.

Kritik patterns

Shadow deployment

Yeni model production trafiğini alır ama çıktısı kullanılmaz — sadece eski modelle karşılaştırılır.

Canary deployment

Yeni model trafiğin %1'ine çıkarılır. Sorun yoksa %10, %50, %100.

A/B testing

Eski + yeni model paralel; metrikler karşılaştırılır.

Champion-Challenger

Üretimde champion model. Sürekli challenger denenir. Daha iyiyse yer değiştirir.

Rollback

Sorun çıkarsa anında eski versiyona dön.

Veri sorunları

Schema değişikliği: yeni kolon eklendi, model bozuldu.
Üretim-eğitim farkı: training data temizlenmişti, production değil.
Eksik veri patterns: belirli müşteri grubu eksik veri.
Time leakage: feature engineering hatası.

MLOps bunları otomatik tespit eder.

Modern araç ekosistemi

MLflow (Databricks): experiment + registry + deploy.
Kubeflow (Google): Kubernetes üzerinde ML.
SageMaker (AWS): tam çözüm.
Vertex AI (Google Cloud): rakibi.
Hugging Face: model hub + spaces.
Weights & Biases: experiment + collaboration.
DVC: veri versiyonlama.
Great Expectations: veri kalite.

LLM çağında

LLMOps:

Prompt engineering sürüm yönetimi.
Chain of prompts monitor.
Hallucination tespit.
Token usage maliyet.
Fine-tuning otomasyon.
RAG vector store yönetimi.

Araçlar: LangSmith, Helicone, Arize LLM monitor.

Türk endüstri örnekleri

Garanti BBVA: SageMaker + MLflow ile yüzlerce model yönetimi.
Trendyol: kendi MLOps platformu (öneri sistemi için).
TÜRKSAT, Türk Telekom: Kubeflow + bulut.
TÜBİTAK BİLGEM: açık kaynak MLflow.

Felsefe

MLOps temel mesajı: "Notebook'ta çalışan model gerçek değildir."

Üretimde güvenilir çalışan + otomatik güncellenen + izlenebilen model gerçektir.

Kapanış

MLOps, ML'in endüstriyelleşmesinin zorunlu disiplini. Veri bilimci → ML mühendisi rolüne geçiş bu disiplinden geçer. 2025'te her ciddi şirketin MLOps yatırımı vardır.

Bir veri biliminin olgunluk işareti: notebook'tan üretime geçen modeli 6 ay sonra hâlâ izleyebilmek.