Test-time compute ne sağlar?

AI modeline cevap üretmek için daha fazla düşünme zamanı; kalite artar

OpenAI o1 ne zaman yayınlandı?

2024 Eylül — modern reasoning modellerinin başlangıcı

DeepSeek R1'in önemi nedir?

o1 seviyesinde + açık kaynak + çok düşük maliyet (~$5M eğitim)

Test-time compute hangi insan analojisine benzer?

Kahneman'ın System 1 (hızlı, sezgisel) vs System 2 (yavaş, mantıklı) — test-time compute System 2

Test-time compute'un temel sınırlaması nedir?

Yüksek maliyet (100 token cevap için 10000 düşünme token) + uzun bekleme süresi

Test-Time Compute: AI'ya Düşünmek İçin Zaman Vermek

"Birinci ölçeklendirme: eğitim. İkincisi: düşünme."

Modern AI'nın birinci ölçeklendirme paradigması (2018-23):

Daha çok parametre → daha iyi model.
Daha çok veri → daha iyi eğitim.
Daha çok hesap → daha iyi sonuç.

2023 sonu: bu paradigma yavaşlıyor sinyalleri.

2024 Eylül: OpenAI o1 — yeni paradigma:

Aynı model, ama daha çok düşünme zamanı.
Saniyede değil, dakikada cevap.
Önemli ölçüde daha iyi sonuç.

Bu, test-time compute paradigmasıdır.

Resmi tanım

Klasik LLM'de forward pass = bir token (cevap).

Test-time compute:

Model birden çok adım düşünür.
Chain of thought + arama + kendi kendini düzeltme.
Sonunda en iyi cevap.

Niçin işe yarar?

İnsan analojisi: Hızlı düşünme vs yavaş düşünme (Kahneman).

System 1: hızlı, sezgisel — klasik LLM.
System 2: yavaş, mantıklı — test-time compute.

Bazı problemler derin düşünme gerektirir. Matematik olimpiyatı, programlama, bilim.

OpenAI o1 (2024 Eylül)

o1 ilk büyük "reasoning model":

Cevap üretmeden önce uzun chain of thought.
Cevap kalitesi GPT-4o'dan çok daha iyi.
Matematik olimpiyatı, programlama yarışmaları.

o1-preview vs o1 vs o3

o1-preview (Sept 2024): ilk versiyon.
o1 (Aralık 2024): final.
o3 (Aralık 2024 duyuru, 2025 yayın): ARC-AGI yarışmasını 88% ile geçti.

ARC-AGI: insan benzeri muhakeme testi. o3'ün başarısı AGI sinyali olarak yorumlandı.

DeepSeek R1 (Ocak 2025)

Çinli AI başarısı:

o1 seviyesinde performans.
Açık kaynak.
Çok daha düşük maliyet (eğitim ~$5M).
Reinforcement learning ağırlıklı.

Modern AI rekabetinin denklem değiştirici anı.

Mekanizma

Test-time compute teknikleri:

1. Chain of thought (CoT)

Model "adım adım düşün" diye yönlendirilir.

2. Self-consistency

Birden fazla CoT, çoğunluk oyu.

3. Tree of thoughts

Düşünce ağacı, en iyi yolu ara.

4. Process reward models

Her adım için ödül modeli, MCTS-tipi arama.

5. Yansıma + düzeltme

Model kendi cevabını eleştirir, geliştirir.

Trade-off

Daha çok zaman = daha iyi cevap.
Maliyet artar: dakika başına maliyet.
Latency artar: kullanıcı bekler.

Modern AI hizmetleri tier sistemi: hızlı (klasik) + düşünen (premium).

Ölçeklendirme yasaları

Test-time compute scaling laws: hesap zamanı 10x → kalite şu kadar artar.

Modern AI araştırmasının yeni ölçeklendirme paradigması. Pre-training scaling ile çarpan etkisi.

Sınırlamalar

Maliyet: 100 token cevap için 10000 düşünme token.
Bekleme: kullanıcı sabırsız.
Doğrulanabilir görevler: matematik, programlama iyi; yaratıcı yazım için belirsiz.
Yanılsama: uzun CoT da hatalı olabilir.

Modern alanlar

Reasoning datasets: matematik, programlama, bilim.
RL with verifier: doğru cevap kontrolü.
Multi-step planning: uzun vadeli görevler.
Agentic AI: araç kullanımı + planlama.

Sonuç