ReAct paradigması nedir?

Reasoning + Acting — LLM thought, action, observation döngüsünde çalışır

Tool use nasıl çalışır?

JSON şemalı fonksiyonlar tanımlanır, model "call" üretir, sistem işletir, sonucu geri verir

Anthropic'in Computer Use'u ne yapar?

Claude ekran görüntüsü alır, fare/klavye kontrol eder → herhangi bir GUI'yi kullanır

Agentic AI'nın en büyük teknik problemi?

Hata birikimi: çok adımlı görevde her adımdaki küçük hata toplam başarıyı düşürür

SWE-bench ne ölçer?

Ajanın gerçek GitHub issue'larını otonom çözme başarısını

Agentic AI: Modellerin Araç Kullanıp Otonom İş Yapması

"Cevap veren" model → "iş yapan" model

2022 ChatGPT: soru sor, cevap al.
2024 GPT-4 ve Claude: soru sor, arama yap, kod çalıştır, dosya oluştur, e-posta gönder, web'de tıkla.

Fark: agentic (ajan benzeri) davranış.

Tanım: LLM bir hedef alır, otonom olarak araçlar kullanır, çok adımlı plan yapar, sonuçları gözlemler, gerekirse stratejisini değiştirir.

ReAct paradigması (Yao et al., 2022)

Temel desen: Reasoning + Acting döngüsü.

Thought: kullanıcı hava durumunu istiyor → web aramasına ihtiyacım var
Action: search("Istanbul weather today")
Observation: 14°C, parçalı bulutlu
Thought: yeterli bilgi → cevap ver
Final Answer: "Bugün İstanbul 14°C ve parçalı bulutlu."

LLM kendi adımlarını yazıyor, dış araçları çağırıyor.

Tool use (Araç kullanımı)

LLM, prompt'ta tanımlanan JSON şemalı fonksiyonları çağırır:

{
  "name": "get_weather",
  "parameters": { "city": "string" }
}

Model çıktısı: {"call": "get_weather", "args": {"city": "Istanbul"}}. Sistem işletir, sonucu modele geri verir.

OpenAI, Anthropic, Google — hepsi standart function calling API'leri sunar.

Çok adımlı ajanlar

AutoGPT (2023): tek hedef → LLM kendi alt görevlerini üretir → otonom çalışır.

İlk demonstrasyonlar büyük ses getirdi ama güvenilirlik düşük çıktı: ajan döngüye girer, mantıksız adımlar atar, hedefi kaybeder.

Modern çözümler: planlama + yürütme + doğrulama ayrımı, daha küçük "sub-agents".

Computer Use (Bilgisayar kullanımı)

Anthropic Claude Computer Use (Ekim 2024): model ekran görüntüsü alır, fareyi/klavyeyi kontrol eder → herhangi bir GUI'yi kullanır.

Demonstrasyon: form doldurma, web siteleri arasında geçiş, dosya yönetimi.

Risk: gerçek dünya aksiyonlarına doğrudan eriştiği için her hata gerçek. Sandboxing, izinler, insan onayı kritik.

Mimari

Çoğu agentic sistem şu parçalara sahip:

Planner: hedefi alt hedeflere böler.
Executor: araçları çağırır.
Memory: vector DB ile geçmişi sakla.
Reflector: ara sonuçları değerlendir, gerekirse planı değiştir.
Critic: çıktıyı doğrula.

LangChain, LlamaIndex, CrewAI, AutoGen gibi framework'ler standartlaşıyor.

Değerlendirme

Yeni benchmark'lar:

WebArena: ajan gerçek (kopyalanmış) web sitelerinde iş yapabiliyor mu?
SWE-bench: GitHub issue'larını ajan tek başına çözebiliyor mu? (Claude 3.5 Sonnet 2024: %49)
OSWorld: tam masaüstü görevleri.
τ-bench (Anthropic): müşteri hizmetleri senaryoları.

Zorluklar

Hata birikimi: 10 adımlı görevde her adımda %95 başarı → toplam %60.
Hedef kayması: uzun döngülerde model hedefi unutabilir.
Maliyet: her aksiyon LLM çağırır → pahalı.
Güvenlik: prompt injection ile ajan kötüye kullanılabilir (e-posta okuduğu için aldatıcı talimatlar alır).
Yetki: ajana ne kadar izin verilmeli? (insan onayı vs. otonom)

"Agentic" hilesi

Çoğu duyuru "agentic" der ama gerçekte tek-adımlı tool use yapar. Gerçek agentic davranış: çok adımlı, otonom, hatadan öğrenen sistem.

Geleceği

2025 trendi: özel "computer use" ajanları (ticari ürün halinde).
Reasoning + agent: o1/R1 gibi düşünen modeller ajanlık için daha iyi.
Multi-agent: birkaç model takım gibi çalışır (CrewAI, AutoGen).
Tarayıcıda native: Chrome, Edge kendi LLM ajanlarını entegre ediyor.

Kapanış

Agentic AI, LLM'i statik soru-cevap aracından iş yapan asistana dönüştürüyor. Daha çok hata yapıyor ama hızla iyileşiyor. 2025-2026 büyük olasılıkla ajan yılı olacak.