Tüm yazılar
Matematik8 Şubat 2025

Agentic AI: Modellerin Araç Kullanıp Otonom İş Yapması

2024-2025'in en sıcak konusu. LLM'ler artık sadece cevap vermiyor — araç kullanıp, kod yazıp, web'de aksiyon alıyor.

Matematik Karavanı 7 dk okuma 5 soru
Otomasyon metaforu — AI ajanları

"Cevap veren" model → "iş yapan" model

2022 ChatGPT: soru sor, cevap al.
2024 GPT-4 ve Claude: soru sor, arama yap, kod çalıştır, dosya oluştur, e-posta gönder, web'de tıkla.

Fark: agentic (ajan benzeri) davranış.

Tanım: LLM bir hedef alır, otonom olarak araçlar kullanır, çok adımlı plan yapar, sonuçları gözlemler, gerekirse stratejisini değiştirir.

ReAct paradigması (Yao et al., 2022)

Temel desen: Reasoning + Acting döngüsü.

Thought: kullanıcı hava durumunu istiyor → web aramasına ihtiyacım var
Action: search("Istanbul weather today")
Observation: 14°C, parçalı bulutlu
Thought: yeterli bilgi → cevap ver
Final Answer: "Bugün İstanbul 14°C ve parçalı bulutlu."

LLM kendi adımlarını yazıyor, dış araçları çağırıyor.

Tool use (Araç kullanımı)

LLM, prompt'ta tanımlanan JSON şemalı fonksiyonları çağırır:

{
  "name": "get_weather",
  "parameters": { "city": "string" }
}

Model çıktısı: {"call": "get_weather", "args": {"city": "Istanbul"}}. Sistem işletir, sonucu modele geri verir.

OpenAI, Anthropic, Google — hepsi standart function calling API'leri sunar.

Çok adımlı ajanlar

AutoGPT (2023): tek hedef → LLM kendi alt görevlerini üretir → otonom çalışır.

İlk demonstrasyonlar büyük ses getirdi ama güvenilirlik düşük çıktı: ajan döngüye girer, mantıksız adımlar atar, hedefi kaybeder.

Modern çözümler: planlama + yürütme + doğrulama ayrımı, daha küçük "sub-agents".

Computer Use (Bilgisayar kullanımı)

Anthropic Claude Computer Use (Ekim 2024): model ekran görüntüsü alır, fareyi/klavyeyi kontrol eder → herhangi bir GUI'yi kullanır.

Demonstrasyon: form doldurma, web siteleri arasında geçiş, dosya yönetimi.

Risk: gerçek dünya aksiyonlarına doğrudan eriştiği için her hata gerçek. Sandboxing, izinler, insan onayı kritik.

Mimari

Çoğu agentic sistem şu parçalara sahip:

  1. Planner: hedefi alt hedeflere böler.
  2. Executor: araçları çağırır.
  3. Memory: vector DB ile geçmişi sakla.
  4. Reflector: ara sonuçları değerlendir, gerekirse planı değiştir.
  5. Critic: çıktıyı doğrula.

LangChain, LlamaIndex, CrewAI, AutoGen gibi framework'ler standartlaşıyor.

Değerlendirme

Yeni benchmark'lar:

  • WebArena: ajan gerçek (kopyalanmış) web sitelerinde iş yapabiliyor mu?
  • SWE-bench: GitHub issue'larını ajan tek başına çözebiliyor mu? (Claude 3.5 Sonnet 2024: %49)
  • OSWorld: tam masaüstü görevleri.
  • τ-bench (Anthropic): müşteri hizmetleri senaryoları.

Zorluklar

  • Hata birikimi: 10 adımlı görevde her adımda %95 başarı → toplam %60.
  • Hedef kayması: uzun döngülerde model hedefi unutabilir.
  • Maliyet: her aksiyon LLM çağırır → pahalı.
  • Güvenlik: prompt injection ile ajan kötüye kullanılabilir (e-posta okuduğu için aldatıcı talimatlar alır).
  • Yetki: ajana ne kadar izin verilmeli? (insan onayı vs. otonom)

"Agentic" hilesi

Çoğu duyuru "agentic" der ama gerçekte tek-adımlı tool use yapar. Gerçek agentic davranış: çok adımlı, otonom, hatadan öğrenen sistem.

Geleceği

  • 2025 trendi: özel "computer use" ajanları (ticari ürün halinde).
  • Reasoning + agent: o1/R1 gibi düşünen modeller ajanlık için daha iyi.
  • Multi-agent: birkaç model takım gibi çalışır (CrewAI, AutoGen).
  • Tarayıcıda native: Chrome, Edge kendi LLM ajanlarını entegre ediyor.

Kapanış

Agentic AI, LLM'i statik soru-cevap aracından iş yapan asistana dönüştürüyor. Daha çok hata yapıyor ama hızla iyileşiyor. 2025-2026 büyük olasılıkla ajan yılı olacak.

Etiketler

Agentic AIAI ajanlarıtool useAutoGPTmodern AI

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. ReAct paradigması nedir?

2. Tool use nasıl çalışır?

3. Anthropic'in Computer Use'u ne yapar?

4. Agentic AI'nın en büyük teknik problemi?

5. SWE-bench ne ölçer?