Tüm yazılar
Matematik1 Eylül 2025

Test-Time Compute: AI'ya Düşünmek İçin Zaman Vermek

Klasik LLM bir saniyede cevap verir. Modern reasoning modelleri (o1, DeepSeek R1) **dakikalarca düşünür** — sonra çok daha iyi cevap verir. 2024 sonu - 2025 başı modern AI'nın ikinci ölçeklendirme paradigması.

Matematik Karavanı Editörü 4 dk okuma 5 soru
Düşünen kadın — test-time compute metaforu

"Birinci ölçeklendirme: eğitim. İkincisi: düşünme."

Modern AI'nın birinci ölçeklendirme paradigması (2018-23):

  • Daha çok parametre → daha iyi model.
  • Daha çok veri → daha iyi eğitim.
  • Daha çok hesap → daha iyi sonuç.

2023 sonu: bu paradigma yavaşlıyor sinyalleri.

2024 Eylül: OpenAI o1 — yeni paradigma:

  • Aynı model, ama daha çok düşünme zamanı.
  • Saniyede değil, dakikada cevap.
  • Önemli ölçüde daha iyi sonuç.

Bu, test-time compute paradigmasıdır.

Resmi tanım

Klasik LLM'de forward pass = bir token (cevap).

Test-time compute:

  • Model birden çok adım düşünür.
  • Chain of thought + arama + kendi kendini düzeltme.
  • Sonunda en iyi cevap.

Niçin işe yarar?

İnsan analojisi: Hızlı düşünme vs yavaş düşünme (Kahneman).

  • System 1: hızlı, sezgisel — klasik LLM.
  • System 2: yavaş, mantıklı — test-time compute.

Bazı problemler derin düşünme gerektirir. Matematik olimpiyatı, programlama, bilim.

OpenAI o1 (2024 Eylül)

o1 ilk büyük "reasoning model":

  • Cevap üretmeden önce uzun chain of thought.
  • Cevap kalitesi GPT-4o'dan çok daha iyi.
  • Matematik olimpiyatı, programlama yarışmaları.

o1-preview vs o1 vs o3

  • o1-preview (Sept 2024): ilk versiyon.
  • o1 (Aralık 2024): final.
  • o3 (Aralık 2024 duyuru, 2025 yayın): ARC-AGI yarışmasını 88% ile geçti.

ARC-AGI: insan benzeri muhakeme testi. o3'ün başarısı AGI sinyali olarak yorumlandı.

DeepSeek R1 (Ocak 2025)

Çinli AI başarısı:

  • o1 seviyesinde performans.
  • Açık kaynak.
  • Çok daha düşük maliyet (eğitim ~$5M).
  • Reinforcement learning ağırlıklı.

Modern AI rekabetinin denklem değiştirici anı.

Mekanizma

Test-time compute teknikleri:

1. Chain of thought (CoT)

Model "adım adım düşün" diye yönlendirilir.

2. Self-consistency

Birden fazla CoT, çoğunluk oyu.

3. Tree of thoughts

Düşünce ağacı, en iyi yolu ara.

4. Process reward models

Her adım için ödül modeli, MCTS-tipi arama.

5. Yansıma + düzeltme

Model kendi cevabını eleştirir, geliştirir.

Trade-off

  • Daha çok zaman = daha iyi cevap.
  • Maliyet artar: dakika başına maliyet.
  • Latency artar: kullanıcı bekler.

Modern AI hizmetleri tier sistemi: hızlı (klasik) + düşünen (premium).

Ölçeklendirme yasaları

Test-time compute scaling laws: hesap zamanı 10x → kalite şu kadar artar.

Modern AI araştırmasının yeni ölçeklendirme paradigması. Pre-training scaling ile çarpan etkisi.

Sınırlamalar

  • Maliyet: 100 token cevap için 10000 düşünme token.
  • Bekleme: kullanıcı sabırsız.
  • Doğrulanabilir görevler: matematik, programlama iyi; yaratıcı yazım için belirsiz.
  • Yanılsama: uzun CoT da hatalı olabilir.

Modern alanlar

  • Reasoning datasets: matematik, programlama, bilim.
  • RL with verifier: doğru cevap kontrolü.
  • Multi-step planning: uzun vadeli görevler.
  • Agentic AI: araç kullanımı + planlama.

Sonuç

Test-time compute:

  • "Düşünme = ölçeklendirme" paradigması.
  • OpenAI o1 (2024) ile başladı.
  • DeepSeek R1 (2025) ile demokratikleşti.
  • Matematik, programlama, bilim için devrim.
  • AGI yoluna yeni bir kapı.

Modern AI tarihinin ikinci ölçeklendirme paradigması. 2024-25 dönüm noktası.

"AI'ya zaman ver, kaliteyi al." Test-time compute'un paradigması.

Etiketler

test-time computereasoningo1DeepSeek R1modern AI

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Test-time compute ne sağlar?

2. OpenAI o1 ne zaman yayınlandı?

3. DeepSeek R1'in önemi nedir?

4. Test-time compute hangi insan analojisine benzer?

5. Test-time compute'un temel sınırlaması nedir?