Constitutional AI: Claude'un Arkasındaki Felsefi Hizalama Çerçevesi
Anthropic'in 2022'de tanıttığı, "kurallar listesi + AI öz-eleştirisi" formülü ile RLHF'in alternatifi.

RLHF'in sorunu
RLHF (Reinforcement Learning from Human Feedback) modern LLM hizalamasının standardıdır. Ama sorunları var:
- İnsan etiketleyici pahalı. Her tercih için 30 saniye + 10$ ödeme.
- Tutarlılık zayıf. Farklı insanlar farklı seçer.
- Kapsam dar. Sadece etiketlenen konularda.
- Toksik içerik vahsetiyor. İnsan değerlendirici psikolojik travma yaşar.
Aralık 2022. Anthropic Constitutional AI (CAI) makalesini yayımladı. Tez:
"İnsan etiketleyici yerine AI kendine etik kurallar uygula. Bir 'anayasa' yaz, model kendini ona göre eleştirsin."
"Anayasa" — ne içerir
Anayasa bir kurallar listesi. Anthropic'inki ~60 madde. Örnekler:
- Birleşmiş Milletler İnsan Hakları Bildirgesi ilkeleri.
- Apple ürün tasarım rehberleri (saygı, açıklık).
- DeepMind'in safety ilkeleri.
- Anthropic'in kendi etik tercihleri.
Bu ilkeler yaklaşıma ışık tutar. Mutlak değil — model bunları yorumlar.
İki aşamalı eğitim
CAI iki aşamadan oluşur:
1. SL-CAI (Supervised Learning CAI)
- Base LLM'den toksik prompt'lara cevap üret.
- Aynı modele anayasa ilkesini hatırla, cevabı kendisi eleştir.
- Düzeltilmiş cevap olarak yazsın.
- Bu (orijinal, düzeltilmiş) çiftleri eğitim verisi olarak kullan.
Model böylece "anayasaya göre cevap verme"yi öğrenir.
2. RL-CAI (RLHF benzeri)
- Bir cevap için iki versiyon üret.
- AI model (insan değil) anayasaya göre hangisi daha iyi karar verir.
- Bu tercih verisiyle ödül modeli eğit.
- Klasik RLHF gibi politika optimizasyonu.
Bu RLAIF (RL from AI Feedback) olarak adlandırılır. RLHF'in insan kısmını AI ile değiştirir.
Niye işe yarar
Şaşırtıcı bulgu: AI kendisini eleştirebilir. Modelin kendi cevaplarına bakıp "bu güvenli değil" demesi pratikte çalışır.
Sebep: model zaten "neyin güvensiz olduğunu" eğitim verisinde gördü. Sadece uygulanmasını öğrenmemiş. Anayasa, modelin kendi bilgisine başvurmasını tetikler.
Avantajları
CAI'nin RLHF'e göre avantajları:
- Ucuz. İnsan etiketleyici gerek değil.
- Tutarlı. Aynı anayasa her zaman aynı standart.
- Şeffaf. "Bu kural bu cevabı reddetti" denebilir.
- Ölçeklenebilir. Bilgisayar kapasitesi ile sınırlı.
- Güvenli. İnsan değerlendirici toksik içeriğe maruz kalmaz.
Sınırlamalar
CAI mükemmel değil:
- Model bias'ı. Eğer base model belli bir önyargılıysa, CAI bunu çoğaltır.
- Anayasa yazma zor. Hangi kurallar? Hangi sırada? Anthropic bu sorularla yıllarca uğraştı.
- Yorumlama esnek. "Saygılı ol" — ama saygı neyse o.
- Self-referential döngüsel. AI kendi cevabını değerlendiriyor, ama bias'ları da paylaşıyor.
RLAIF — yaygınlaşma
CAI'nin RLAIF kısmı (AI feedback ile RL) hızla yayıldı:
- Llama 2 Chat (2023): RLAIF dahil.
- Mistral, Gemma: RLAIF varyantları.
- DeepSeek R1: GRPO + AI evaluation karması.
Modern hizalama paradigması: insan + AI birlikte değerlendirir, RLHF + RLAIF karması.
Claude'un kişiliği
Anthropic'in Claude modelinin "kişiliği" CAI'nin somut sonucudur:
- Yardımcı ama mesafeli.
- Belirsizliği açıkça söyler.
- Şiddet veya zarara karşı tutarlı reddeder.
- Felsefi sorulara öz-bilinçle yaklaşır.
Bu özellikler anayasadan gelir. Claude diğer LLM'lerden bu çerçevede farklılaşır.
Recursive reward modeling ile bağlantı
CAI, Jan Leike'in recursive reward modeling (2018) fikrinin somut uygulamasıdır:
- İnsan yerine AI değerlendirir.
- AI değerlendirme insan kalitesini geçer (potansiyel olarak).
- Süper-akıllı AI için bu gerek olabilir.
Leike'in OpenAI'dan Anthropic'e geçişi de bu felsefe bağlamı.
Klasik benzetme
Bir gence "iyi adam olman gerekiyor" demek belirsiz. "Yalan söyleme, vurma, çalma" demek daha açık. Anayasa = kural listesi.
Ama kuralları öğreten kim olmalı? Klasik: ana-baba (RLHF, insan değerlendirici). CAI: çocuğun kendisi. Kuralları okur, kendi davranışını yargılar.
Bu "öz-kontrol" modeli daha ölçeklenebilir ama daha riskli — çocuk kuralları yanlış yorumlayabilir.
Sade ders
CAI hikâyesinden iki şey:
- AI kendisini denetleyebilir. "Modelin etik kararı insandan gelmeli" varsayımını kırdı. CAI gösterir: AI kendi etiğini uygulayabilir, sadece doğru rehber gerek.
- Açık kurallar gizli normlara üstündür. RLHF'in "iyi cevabı insan biliyor" varsayımı belirsiz. CAI anayasayı yazılı kılar. Bu, daha şeffaf ve denetlenebilir.
Bağlam
RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]], [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]]. Anthropic için: [[dario-amodei-anthropic-kurucu-ortagi-ve-ai-guvenliginin-onde-gelen-savunucusu]], [[chris-olah-sinir-aglarinin-mikroskopcusu]]. Jan Leike için: [[jan-leike-superalignment-tartismasinin-merkez-figuru]]. GRPO için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]]. Stuart Russell ile alignment için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Constitutional AI'nin temel fikri nedir?
2. CAI'nin iki aşaması nedir?
3. RLAIF nedir?
4. CAI'nin RLHF'e göre avantajları nedir?
5. CAI'nin en büyük zayıflığı nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?