Test-Time Compute: AI'ya Düşünmek İçin Zaman Vermek
Klasik LLM bir saniyede cevap verir. Modern reasoning modelleri (o1, DeepSeek R1) **dakikalarca düşünür** — sonra çok daha iyi cevap verir. 2024 sonu - 2025 başı modern AI'nın ikinci ölçeklendirme paradigması.

"Birinci ölçeklendirme: eğitim. İkincisi: düşünme."
Modern AI'nın birinci ölçeklendirme paradigması (2018-23):
- Daha çok parametre → daha iyi model.
- Daha çok veri → daha iyi eğitim.
- Daha çok hesap → daha iyi sonuç.
2023 sonu: bu paradigma yavaşlıyor sinyalleri.
2024 Eylül: OpenAI o1 — yeni paradigma:
- Aynı model, ama daha çok düşünme zamanı.
- Saniyede değil, dakikada cevap.
- Önemli ölçüde daha iyi sonuç.
Bu, test-time compute paradigmasıdır.
Resmi tanım
Klasik LLM'de forward pass = bir token (cevap).
Test-time compute:
- Model birden çok adım düşünür.
- Chain of thought + arama + kendi kendini düzeltme.
- Sonunda en iyi cevap.
Niçin işe yarar?
İnsan analojisi: Hızlı düşünme vs yavaş düşünme (Kahneman).
- System 1: hızlı, sezgisel — klasik LLM.
- System 2: yavaş, mantıklı — test-time compute.
Bazı problemler derin düşünme gerektirir. Matematik olimpiyatı, programlama, bilim.
OpenAI o1 (2024 Eylül)
o1 ilk büyük "reasoning model":
- Cevap üretmeden önce uzun chain of thought.
- Cevap kalitesi GPT-4o'dan çok daha iyi.
- Matematik olimpiyatı, programlama yarışmaları.
o1-preview vs o1 vs o3
- o1-preview (Sept 2024): ilk versiyon.
- o1 (Aralık 2024): final.
- o3 (Aralık 2024 duyuru, 2025 yayın): ARC-AGI yarışmasını 88% ile geçti.
ARC-AGI: insan benzeri muhakeme testi. o3'ün başarısı AGI sinyali olarak yorumlandı.
DeepSeek R1 (Ocak 2025)
Çinli AI başarısı:
- o1 seviyesinde performans.
- Açık kaynak.
- Çok daha düşük maliyet (eğitim ~$5M).
- Reinforcement learning ağırlıklı.
Modern AI rekabetinin denklem değiştirici anı.
Mekanizma
Test-time compute teknikleri:
1. Chain of thought (CoT)
Model "adım adım düşün" diye yönlendirilir.
2. Self-consistency
Birden fazla CoT, çoğunluk oyu.
3. Tree of thoughts
Düşünce ağacı, en iyi yolu ara.
4. Process reward models
Her adım için ödül modeli, MCTS-tipi arama.
5. Yansıma + düzeltme
Model kendi cevabını eleştirir, geliştirir.
Trade-off
- Daha çok zaman = daha iyi cevap.
- Maliyet artar: dakika başına maliyet.
- Latency artar: kullanıcı bekler.
Modern AI hizmetleri tier sistemi: hızlı (klasik) + düşünen (premium).
Ölçeklendirme yasaları
Test-time compute scaling laws: hesap zamanı 10x → kalite şu kadar artar.
Modern AI araştırmasının yeni ölçeklendirme paradigması. Pre-training scaling ile çarpan etkisi.
Sınırlamalar
- Maliyet: 100 token cevap için 10000 düşünme token.
- Bekleme: kullanıcı sabırsız.
- Doğrulanabilir görevler: matematik, programlama iyi; yaratıcı yazım için belirsiz.
- Yanılsama: uzun CoT da hatalı olabilir.
Modern alanlar
- Reasoning datasets: matematik, programlama, bilim.
- RL with verifier: doğru cevap kontrolü.
- Multi-step planning: uzun vadeli görevler.
- Agentic AI: araç kullanımı + planlama.
Sonuç
Test-time compute:
- "Düşünme = ölçeklendirme" paradigması.
- OpenAI o1 (2024) ile başladı.
- DeepSeek R1 (2025) ile demokratikleşti.
- Matematik, programlama, bilim için devrim.
- AGI yoluna yeni bir kapı.
Modern AI tarihinin ikinci ölçeklendirme paradigması. 2024-25 dönüm noktası.
"AI'ya zaman ver, kaliteyi al." Test-time compute'un paradigması.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Test-time compute ne sağlar?
2. OpenAI o1 ne zaman yayınlandı?
3. DeepSeek R1'in önemi nedir?
4. Test-time compute hangi insan analojisine benzer?
5. Test-time compute'un temel sınırlaması nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?