Chain-of-Thought: LLM'leri Akıl Yürütmeye Zorlamak
"Adım adım düşün" cümlesi, Google'dan 2022'de çıkan ve modern reasoning model çağının fitilini ateşleyen sade prompt tekniği.

Aritmetik problemi
GPT-3 (2020) yayımlandığında bir tuhaflık vardı: model çok büyük ama matematik bilmiyor. Basit kelime problemleri:
"Roger 5 top almıştı. 2 kutu daha aldı, her kutuda 3 top var. Şimdi kaç topu var?"
Beklenen cevap: 5 + 2 × 3 = 11. GPT-3 doğrudan "11" cevabını verirken %17 başarı. Yarısından az.
Aynı modeli adım adım düşünmeye zorla:
"Roger 5 top almıştı. 2 kutu × 3 top = 6 top daha. Toplam 5 + 6 = 11 top."
Başarı: %57. Aynı model, aynı veri, aynı parametreler. Sadece prompt değişti.
Wei et al. (2022) — keşif
Bu gözlemi Jason Wei ve ark. (Google Research) "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" makalesinde 2022 ocakta yayımladı.
Yöntem: prompt'a few-shot örnekler ekle. Her örnekte sadece cevap değil, çözüm adımları ver. Model bu kalıbı yakalar, kendi soruda da adımları üretir.
Örnek prompt:
S: 3 elma ve 5 portakal var. Toplam meyve sayısı?
Düşünelim: 3 elma + 5 portakal = 8 meyve.
C: 8
S: Bir sınıfta 12 öğrenci var. 4'ü tahtada. Kaç kişi oturuyor?
Model "Düşünelim:" tetiklemesini yakalar. 12 - 4 = 8 kişi oturuyor. doğru cevap.
Etki — emergent capabilities
CoT'nin şaşırtıcı yanı: küçük modellerde işe yaramaz. GPT-3 175B parametre düzeyinde belirginleşir.
Wei makalede şunu gösterdi: aritmetik ve sembolik akıl yürütme görevlerinde model boyutu büyüdükçe CoT etkisi logaritmik değil patlamalı olarak artar.
Bu, "emergent capabilities" tartışmasının başlatıcılarından biri oldu: bazı yetenekler model belirli bir eşiği aşana kadar görünmez, aniden ortaya çıkar.
(Sonradan bu eşik etkisinin metrik artefaktı olduğu tartışıldı — Schaeffer 2023. Ama tartışma sürüyor.)
Zero-shot CoT (2022)
Kojima ve ark. çok daha sade bir trick keşfetti: prompt'a sadece "Let's think step by step" ekle. Few-shot örnek bile gerekmez!
Bu 2022'nin viral cümlesi oldu. Sosyal medyada "AI'a 5 kelimeli sihirli formül" makaleleri.
Mekanizma şu: LLM eğitim verilerinde "step by step" cümlesi sonrasında çözüm adımları gören kalıplar yakalar. Bu cümle modelin "akıl yürütme modu"nu açar.
Self-Consistency (2022)
CoT'nin geliştirilmiş versiyonu: birden fazla CoT örneği üret ( tipik), her birinin cevabını kaydet, çoğunluk oylama.
Tek CoT %57 başarı veriyorsa, 40 örnek + oylama %78 verir. Hesap pahalı ama doğruluk önemli olduğunda kazanç büyük.
Bu yöntem test-time compute paradigmasının habercisidir.
Tree of Thoughts (2023)
Yao ve ark. CoT'yi ağaca genişletti. Sadece tek bir düşünce zinciri değil, birden fazla dal dene. Her düşüncede:
- Birkaç olası ara adım üret.
- Her birini değerlendir (ya model kendi ya ayrı değerlendirici).
- En umut verici dalı genişlet.
- Çıkmaz sokak ise geri dön.
Bu arama + reasoning kombinasyonu. Klasik AI'nın search'i ile modern LLM'in reasoning'i.
o1 ve modern reasoning models (2024)
Eylül 2024'te OpenAI o1'i tanıttı. Tez: model uzun süre düşünür (test-time compute), sonra cevap verir. Düşünce süresi prompt başına saniyelerden dakikalara kadar.
o1'in arkasındaki teknik tam açık değil ama temelde:
- RL ile uzun CoT üretimini ödüllendir.
- Model kendi düşüncelerini eleştirir, düzeltir.
- Sonuçta çok daha uzun ama daha doğru cevap.
DeepSeek-R1 (2025), Anthropic'in Extended Thinking (2025) hep aynı paradigmayı izledi. GRPO ile yapısal RL bu yaklaşımın matematiksel temeli.
Niye işe yarar — açıklama
CoT'nin neden işe yaradığına dair birkaç teori:
- Hesaplama bütçesi: Adım adım yazmak modelin daha çok token üzerinden hesap yapmasını sağlar. Tek token = sabit hesap; CoT bunu artırır.
- Otoregressif yapı: Model her tokeni geçmiş tokenlerle eğitildi. Doğru ara adım yazınca sonraki adım daha kolay.
- Distribution shift: Eğitim verisinde matematik problemlerinde çözümler genelde adım adım yazılır; "boş cevap" sıra dışı.
Sınırlar
CoT mükemmel değil:
- Hesap maliyeti: Tek cevap yerine 10x token. Pahalı.
- Hayalet adımlar: Model yanlış ara adım yazıp "doğru" cevaba ulaşabilir (kâğıt üstünde çözmüş gibi).
- Sadakatsizlik: Modelin yazdığı düşüncesi, gerçekte iç hesabını yansıtmayabilir (Lanham 2023).
- Adam adam çelişki: Model "1+1=3" yazıp sonraki adımda doğru kullanmaya devam edebilir.
Anthropic'in interpretability ekibi (Olah) bu "sadakatsizlik" sorununu yorumlanabilirliğin temel sorunu olarak inceliyor.
Klasik benzetme
Bir öğrenciye matematik problemi ver. Doğrudan cevap iste: zihinsel hesap, yanlışa açık. "Adım adım yaz" iste: kağıt üstünde hesaplama, hataları yakalar. Aynı öğrenci, farklı yöntem, çok farklı sonuç.
CoT bunu LLM'lere yapar. Aynı model, "ağzından düşünme" tekniği ile çok daha iyi.
Sade ders
CoT hikâyesinden iki şey:
- Prompt tasarımı yetenek inşasıdır. Aynı modelin %17'den %57'ye çıkarılması, model değiştirmeden mümkün. Bu, "prompt engineering"in akademik geçerliliği için kanıt.
- Düşünme süresi kalitedir. Modern AI'da kaynak yatırımı sadece eğitim değil, çıkarım zamanı da olabilir. o1 ve sonrası bu yönü merkeze koydu.
Bağlam
Test-time compute için: [[test-time-compute-aiya-dusunmek-icin-zaman-vermek]]. GRPO ve reasoning için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]]. Interpretability ile sadakatsizlik tartışması: [[chris-olah-sinir-aglarinin-mikroskopcusu]]. Prompt engineering için: [[in-context-learning-llm-icin-egitim-yapmadan-ogrenme]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Chain-of-Thought'un temel fikri nedir?
2. Zero-shot CoT'nin tetikleyici cümlesi nedir?
3. Self-Consistency ne yapar?
4. CoT küçük modellerde neden işe yaramaz?
5. o1 ve modern reasoning modelleri neye dayanır?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?