Chain-of-Thought'un temel fikri nedir?

Prompt'ta "adım adım düşün" diyerek modeli ara adımları yazmaya zorlamak

Zero-shot CoT'nin tetikleyici cümlesi nedir?

"Let's think step by step" — few-shot örnek bile gereksiz

Self-Consistency ne yapar?

Birden fazla CoT üret, çoğunluk oylama; doğruluk artar

CoT küçük modellerde neden işe yaramaz?

Emergent capability — yetenek model boyutu eşiği geçince ortaya çıkar

o1 ve modern reasoning modelleri neye dayanır?

CoT + RL ile uzun düşünce zincirleri; test-time compute artırılır

Tüm yazılar

Matematik31 Mayıs 2025

Chain-of-Thought: LLM'leri Akıl Yürütmeye Zorlamak

"Adım adım düşün" cümlesi, Google'dan 2022'de çıkan ve modern reasoning model çağının fitilini ateşleyen sade prompt tekniği.

Matematik Karavanı 6 dk okuma 5 soru

Zincir baklaları — düşünce zinciri metaforu

Aritmetik problemi

GPT-3 (2020) yayımlandığında bir tuhaflık vardı: model çok büyük ama matematik bilmiyor. Basit kelime problemleri:

"Roger 5 top almıştı. 2 kutu daha aldı, her kutuda 3 top var. Şimdi kaç topu var?"

Beklenen cevap: 5 + 2 × 3 = 11. GPT-3 doğrudan "11" cevabını verirken %17 başarı. Yarısından az.

Aynı modeli adım adım düşünmeye zorla:

"Roger 5 top almıştı. 2 kutu × 3 top = 6 top daha. Toplam 5 + 6 = 11 top."

Başarı: %57. Aynı model, aynı veri, aynı parametreler. Sadece prompt değişti.

Wei et al. (2022) — keşif

Bu gözlemi Jason Wei ve ark. (Google Research) "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" makalesinde 2022 ocakta yayımladı.

Yöntem: prompt'a few-shot örnekler ekle. Her örnekte sadece cevap değil, çözüm adımları ver. Model bu kalıbı yakalar, kendi soruda da adımları üretir.

Örnek prompt:

S: 3 elma ve 5 portakal var. Toplam meyve sayısı?
Düşünelim: 3 elma + 5 portakal = 8 meyve.
C: 8

S: Bir sınıfta 12 öğrenci var. 4'ü tahtada. Kaç kişi oturuyor?

Model "Düşünelim:" tetiklemesini yakalar. 12 - 4 = 8 kişi oturuyor. doğru cevap.

Etki — emergent capabilities

CoT'nin şaşırtıcı yanı: küçük modellerde işe yaramaz. GPT-3 175B parametre düzeyinde belirginleşir.

Wei makalede şunu gösterdi: aritmetik ve sembolik akıl yürütme görevlerinde model boyutu büyüdükçe CoT etkisi logaritmik değil patlamalı olarak artar.

Bu, "emergent capabilities" tartışmasının başlatıcılarından biri oldu: bazı yetenekler model belirli bir eşiği aşana kadar görünmez, aniden ortaya çıkar.

(Sonradan bu eşik etkisinin metrik artefaktı olduğu tartışıldı — Schaeffer 2023. Ama tartışma sürüyor.)

Zero-shot CoT (2022)

Kojima ve ark. çok daha sade bir trick keşfetti: prompt'a sadece "Let's think step by step" ekle. Few-shot örnek bile gerekmez!

Bu 2022'nin viral cümlesi oldu. Sosyal medyada "AI'a 5 kelimeli sihirli formül" makaleleri.

Mekanizma şu: LLM eğitim verilerinde "step by step" cümlesi sonrasında çözüm adımları gören kalıplar yakalar. Bu cümle modelin "akıl yürütme modu"nu açar.

Self-Consistency (2022)

CoT'nin geliştirilmiş versiyonu: birden fazla CoT örneği üret ( $k=40$ tipik), her birinin cevabını kaydet, çoğunluk oylama.

Tek CoT %57 başarı veriyorsa, 40 örnek + oylama %78 verir. Hesap pahalı ama doğruluk önemli olduğunda kazanç büyük.

Bu yöntem test-time compute paradigmasının habercisidir.

Tree of Thoughts (2023)

Yao ve ark. CoT'yi ağaca genişletti. Sadece tek bir düşünce zinciri değil, birden fazla dal dene. Her düşüncede:

Birkaç olası ara adım üret.
Her birini değerlendir (ya model kendi ya ayrı değerlendirici).
En umut verici dalı genişlet.
Çıkmaz sokak ise geri dön.

Bu arama + reasoning kombinasyonu. Klasik AI'nın search'i ile modern LLM'in reasoning'i.

o1 ve modern reasoning models (2024)

Eylül 2024'te OpenAI o1'i tanıttı. Tez: model uzun süre düşünür (test-time compute), sonra cevap verir. Düşünce süresi prompt başına saniyelerden dakikalara kadar.

o1'in arkasındaki teknik tam açık değil ama temelde:

RL ile uzun CoT üretimini ödüllendir.
Model kendi düşüncelerini eleştirir, düzeltir.
Sonuçta çok daha uzun ama daha doğru cevap.

DeepSeek-R1 (2025), Anthropic'in Extended Thinking (2025) hep aynı paradigmayı izledi. GRPO ile yapısal RL bu yaklaşımın matematiksel temeli.

Niye işe yarar — açıklama

CoT'nin neden işe yaradığına dair birkaç teori:

Hesaplama bütçesi: Adım adım yazmak modelin daha çok token üzerinden hesap yapmasını sağlar. Tek token = sabit hesap; CoT bunu artırır.
Otoregressif yapı: Model her tokeni geçmiş tokenlerle eğitildi. Doğru ara adım yazınca sonraki adım daha kolay.
Distribution shift: Eğitim verisinde matematik problemlerinde çözümler genelde adım adım yazılır; "boş cevap" sıra dışı.

Sınırlar

CoT mükemmel değil:

Hesap maliyeti: Tek cevap yerine 10x token. Pahalı.
Hayalet adımlar: Model yanlış ara adım yazıp "doğru" cevaba ulaşabilir (kâğıt üstünde çözmüş gibi).
Sadakatsizlik: Modelin yazdığı düşüncesi, gerçekte iç hesabını yansıtmayabilir (Lanham 2023).
Adam adam çelişki: Model "1+1=3" yazıp sonraki adımda doğru kullanmaya devam edebilir.

Anthropic'in interpretability ekibi (Olah) bu "sadakatsizlik" sorununu yorumlanabilirliğin temel sorunu olarak inceliyor.

Klasik benzetme

Bir öğrenciye matematik problemi ver. Doğrudan cevap iste: zihinsel hesap, yanlışa açık. "Adım adım yaz" iste: kağıt üstünde hesaplama, hataları yakalar. Aynı öğrenci, farklı yöntem, çok farklı sonuç.

CoT bunu LLM'lere yapar. Aynı model, "ağzından düşünme" tekniği ile çok daha iyi.

Sade ders

CoT hikâyesinden iki şey:

Prompt tasarımı yetenek inşasıdır. Aynı modelin %17'den %57'ye çıkarılması, model değiştirmeden mümkün. Bu, "prompt engineering"in akademik geçerliliği için kanıt.
Düşünme süresi kalitedir. Modern AI'da kaynak yatırımı sadece eğitim değil, çıkarım zamanı da olabilir. o1 ve sonrası bu yönü merkeze koydu.

Bağlam

Test-time compute için: [[test-time-compute-aiya-dusunmek-icin-zaman-vermek]]. GRPO ve reasoning için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]]. Interpretability ile sadakatsizlik tartışması: [[chris-olah-sinir-aglarinin-mikroskopcusu]]. Prompt engineering için: [[in-context-learning-llm-icin-egitim-yapmadan-ogrenme]].

Etiketler

chain-of-thoughtreasoningprompt engineeringLLMo1

İlgili Yazılar

Matematik