In-context learning ne sağlar?

Few-shot örneklerle LLM'in eğitim olmadan yeni görev öğrenmesi

ICL'i sistematik olarak ilk gösteren makale?

GPT-3 (Brown et al. 2020): "Language Models are Few-Shot Learners"

Chain-of-thought (CoT) nedir?

Modele "adım adım düşün" demek; matematik doğruluğu artırır

ICL'in temel sınırlaması nedir?

Bağlam penceresi (GPT-4 128K, Claude 200K, Gemini 2M token); sıralama duyarlılığı

ICL'in işleyiş mekanizması hakkında ne biliyoruz?

Birkaç hipotez (Bayesyen, implicit gradient, emergent ability); tam anlaşılamadı

In-Context Learning: LLM'lere Eğitim Yapmadan Yeni Görev Öğretmek

"Hiç eğitim yok, sadece örnekler"

GPT-3'e şunu gösterin:

Renk: Kırmızı → Yiyecek: Elma
Renk: Sarı → Yiyecek: Muz
Renk: Turuncu → Yiyecek: ?

GPT-3 cevap verir: "Portakal".

Eğitim yok. Model parametreleri değişmedi. Sadece örnekleri okuyarak kalıbı anladı.

Bu, in-context learning (ICL) — modern büyük dil modellerinin en şaşırtıcı ortaya çıkan davranışı.

Resmi tanım

Bir LLM'e:

Birkaç örnek ver (few-shot).
Yeni sorgu ver.
Model örneklerden çıkarımla cevap verir.

Hiçbir gradyan güncellemesi yok. Sadece forward pass.

Niçin şaşırtıcı?

Klasik makine öğrenmesi: eğitim ile model parametreleri değişir. ICL bu olmadan çalışıyor.

Soru: model nerede öğreniyor?

Cevap: bağlam penceresi içinde. Modelin "şu anki bilgisi" prompt + context.

Tarihsel köken

GPT-2 (2019): bazı ICL belirtileri.
GPT-3 (2020): Brown et al. "Language Models are Few-Shot Learners" — ICL'i sistematik gösterdi.
GPT-4 (2023): daha güçlü ICL.
Claude, Gemini: aynı yetenek.

Few-shot vs zero-shot

Zero-shot: "Bu cümleyi Türkçe'ye çevir."

Few-shot: "Örnek 1: İngilizce → Türkçe. Örnek 2: ... Şimdi sen çevir."

Few-shot genelde daha iyi. Örnekler görev tanımını netleştirir.

Chain-of-thought (CoT)

Wei et al. (2022): matematik sorularında, modele "adım adım düşün" demek doğruluğu artırır.

Q: 25 + 37 = ?
A: 25 + 37: 5 + 7 = 12, taşırma var. 2 + 3 + 1 = 6. Cevap: 62.

Modern LLM'lerin muhakeme yeteneği'nin temeli.

Niçin işe yarıyor?

Hipotezler:

1. Bayesyen perspektif

Model task dağılımına maruz kaldı eğitimde. Few-shot örnekler hangi task olduğunu çıkarır.

2. Implicit gradient descent

von Oswald et al. (2023): transformer'lar dikkat mekanizmasında gradient descent yapıyor olabilir.

3. Algorithm composition

Model eğitimde algoritmaları öğrendi; ICL ile uygun olanı seçiyor.

4. Emergent ability

Belli ölçek üzerinden aniden ortaya çıkar. Sebebi tam anlaşılamadı.

Modern uygulamalar

1. Prompt engineering

Modern AI mesleğinin temeli. İyi prompt = doğru cevap.

2. Specialized tasks

Sıfırdan model eğitmek yerine few-shot prompting + büyük model.

3. Code generation

GitHub Copilot — örnek koddan ICL.

4. Translation

Az kaynak dillerinde ICL ile çeviri.

5. Reasoning

Chain-of-thought + ICL = modern matematik problem çözme.

Sınırlamalar

Bağlam penceresi: GPT-4 128K, Claude 200K, Gemini 2M token.
Sıralama duyarlılığı: örnek sırası etkili.
Yetenek sınırı: gerçek genelleme zayıf.
Mantıksal akıl yürütme: zor matematik için yetersiz.

Modern alternatifler

Fine-tuning: küçük veri ile model güncelleme.
LoRA: hızlı parametre adaptasyonu.
RAG: harici belgelerle bağlam zenginleştirme.
Reasoning models (o1, R1): test-time compute.

Felsefi anlamı

ICL'in derin felsefi sorusu: model gerçekten "öğreniyor" mu, yoksa eğitimdeki kalıpları hatırlıyor mu?

Belki iki şey arasındaki sınır belirsiz. Modern AI bilinç-bilinçaltı tartışmasının matematik karşılığı.

Sonuç

In-context learning:

LLM'ler eğitim olmadan few-shot örneklerle yeni görev öğrenir.
GPT-3 (2020) ile sistematik gösterildi.
Chain-of-thought ile muhakeme yeteneği.
Bayesyen, implicit gradient, emergent ability hipotezleri.
Hâlâ tam anlaşılamayan ortaya çıkan davranış.

Modern AI'nın en derin gizemi. Belki gelecekteki AGI'nin matematik temeli buradan gelecek.

"Örnekler matematik dilidir." ICL'in paradigması.