Tüm yazılar
Matematik24 Kasım 2024

Reranking: RAG Çıkışlarını İyileştiren İki Aşamalı Sihir

Önce hızlı arama 100 sonuç bul. Sonra ağır model bunları yeniden sırala. Bu basit fikir modern RAG'in kalitesini katladı.

Matematik Karavanı 5 dk okuma 5 soru
Birinci kupa — sıralama metaforu

"İki kademeli yaklaşım"

Modern arama:

  • Adım 1: hızlı retriever 100-1000 belge döndür.
  • Adım 2: yavaş reranker en iyi 5-20'yi seç.

Bu iki kademeli (two-stage) arama.

Sebep: ilk arama doğruluk için yetersiz, ama hızlı. İkinci aşama doğru ama yavaş. Birleştir → ikisinin avantajı.

Bi-encoder vs Cross-encoder

Bi-encoder

Sorgu ve belgeyi ayrı ayrı embedding'le, sonra cosine similarity.

sorgu_vec = E(sorgu)
belge_vec = E(belge)
skor = cos(sorgu_vec, belge_vec)

Avantaj: belge embedding'leri önceden hesaplanır.
Dezavantaj: sorgu ve belge birbirini görmüyor.

Cross-encoder

Sorgu ve belgeyi birlikte modele ver.

skor = M(sorgu, belge)

Avantaj: çok daha doğru — model interaksiyonu yakalar.
Dezavantaj: her sorgu için N belge ile N forward pass.

Modern reranker'lar

Cohere Rerank

Ticari, yönetilen. rerank-3 modeli en güçlü.

BGE Reranker

Açık kaynak, Çin (BAAI).

ColBERT

"Late interaction": bi-encoder hızı + cross-encoder doğruluğu.

Mxbai Rerank

Mixedbread AI açık kaynak.

Jina Reranker

Açık kaynak, multilingual.

LlamaIndex/LangChain

Reranker integrations.

Pipeline örneği

# Adım 1: vector search → top 100
candidates = vector_db.search(query_embedding, top_k=100)

# Adım 2: cross-encoder rerank → top 10
reranker = CohereRerank()
top_results = reranker.rerank(query, candidates, top_k=10)

10x boyutlu candidate set → 10 nihai sonuç.

Modern RAG mimarisi

Query
  ↓
[Hybrid Retrieval: BM25 + Vector] → 50-200 docs
  ↓
[Reranker: Cohere/BGE] → top 5-10
  ↓
[LLM Generation]

Her büyük RAG sistemi bu desene benzer.

Faydalar

  • Doğruluk: %20-40 iyileşme tipik.
  • Yanlış pozitif azaltma: alakasız belgeler düşer.
  • LLM bağlamı temiz: küçük ama ilgili.
  • Maliyet: LLM token tüketimi azalır.

Performans

YöntemLatencyDoğruluk
Sadece bi-encoder50msDüşük
+ Reranker+200msYüksek
Cross-encoder direktÇok yavaşEn yüksek

İki kademe = doğru denge.

Multi-stage retrieval

Bazı sistemler üç+ kademe:

  1. BM25: kelime eşleşme.
  2. Dense retrieval: semantik.
  3. Reranker: cross-encoder.
  4. LLM reranker (opsiyonel): LLM-as-a-judge.

Her kademe öncekini rafine eder.

Domain-specific reranker

Tıp, hukuk gibi domain'ler için özel reranker:

  • MedCPT: tıbbi makaleler.
  • Legal-BERT tabanlı.
  • Türkçe: BERTurk tabanlı reranker (sınırlı).

Çoklu dil

  • Cohere multilingual rerank: 100+ dil.
  • BGE multilingual: açık alternatif.
  • mxbai-rerank-base-v1: Avrupa dilleri.

Hyperparameter

  • Top-K (initial): 50-200 (daha çok = yavaş ama doğru).
  • Top-K (final): 5-20 (LLM bağlamına uygun).
  • Score threshold: minimum benzerlik.

Maliyet karşılaştırması

  • OpenAI embedding: $0.13 / 1M token.
  • Cohere Rerank: $1.0 / 1K rerank.
  • BGE reranker (self-hosted): GPU saati.

Rerank pahalı ama değer.

Türk endüstri için

  • Türk hukuki RAG: yargıtay kararı arama.
  • Tıbbi: medikal makale.
  • E-ticaret: ürün öneri ikinci aşama.
  • Bankalar: dahili belge.

Türkçe reranker eksikliği fırsat alanı.

Türkçe için pratik öneri

BGE multilingual reranker + BERTurk embedding kombinasyonu şu an en iyi açık çözüm.

Pratik tavsiyeler

Performans için

  • Hybrid retrieval kullan.
  • Top-K 100'den çok başlama, gerek olursa artır.

Kalite için

  • Cohere Rerank ile başla (en güçlü ticari).
  • Açık kaynak: BGE reranker.

Latency hassas

  • ColBERT denemeye değer.

Maliyet hassas

  • Sadece zor sorularda rerank.
  • Önce bi-encoder, sonra opsiyonel rerank.

Felsefe

Reranking temel mesajı: "Doğruluk ve hız arasında iyi denge — birden fazla aşama kullan".

Sadece RAG değil, modern arama, öneri, etc. hepsinde standart.

Kapanış

Reranking, modern RAG'in görünmez kalite katmanı. RAG'in başarılı vs. başarısız olmasının arasındaki ince ama önemli fark.

Bir AI mühendisinin olgunluk işareti: reranker eklemenin ne zaman değer kattığını bilmek.

İki kademeli yaklaşım = klasik bilgisayar bilimi prensibi: filter erken, refine geç.

Etiketler

rerankingcross-encoderCohere RerankRAGarama

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Reranking ne yapar?

2. Bi-encoder vs cross-encoder fark?

3. En popüler ticari reranker?

4. Açık kaynak alternatif?

5. Tipik doğruluk kazancı?