Constitutional AI'nin temel fikri nedir?

AI kendisini yazılı kurallar (anayasa) listesine göre eleştirir

CAI'nin iki aşaması nedir?

SL-CAI (denetimli öz-eleştiri) + RL-CAI (AI feedback ile RLHF)

RL from AI Feedback — RLHF'in insan kısmı AI ile değiştirilmiş

CAI'nin RLHF'e göre avantajları nedir?

Ucuz, tutarlı, şeffaf, ölçeklenebilir, güvenli (insan toksik içerikten korunur)

CAI'nin en büyük zayıflığı nedir?

Self-referential — AI kendi bias'larını çoğaltabilir; anayasa yorumlaması esnek

Constitutional AI: Claude'un Arkasındaki Felsefi Hizalama Çerçevesi

RLHF'in sorunu

RLHF (Reinforcement Learning from Human Feedback) modern LLM hizalamasının standardıdır. Ama sorunları var:

İnsan etiketleyici pahalı. Her tercih için 30 saniye + 10$ ödeme.
Tutarlılık zayıf. Farklı insanlar farklı seçer.
Kapsam dar. Sadece etiketlenen konularda.
Toksik içerik vahsetiyor. İnsan değerlendirici psikolojik travma yaşar.

Aralık 2022. Anthropic Constitutional AI (CAI) makalesini yayımladı. Tez:

"İnsan etiketleyici yerine AI kendine etik kurallar uygula. Bir 'anayasa' yaz, model kendini ona göre eleştirsin."

"Anayasa" — ne içerir

Anayasa bir kurallar listesi. Anthropic'inki ~60 madde. Örnekler:

Birleşmiş Milletler İnsan Hakları Bildirgesi ilkeleri.
Apple ürün tasarım rehberleri (saygı, açıklık).
DeepMind'in safety ilkeleri.
Anthropic'in kendi etik tercihleri.

Bu ilkeler yaklaşıma ışık tutar. Mutlak değil — model bunları yorumlar.

İki aşamalı eğitim

CAI iki aşamadan oluşur:

1. SL-CAI (Supervised Learning CAI)

Base LLM'den toksik prompt'lara cevap üret.
Aynı modele anayasa ilkesini hatırla, cevabı kendisi eleştir.
Düzeltilmiş cevap olarak yazsın.
Bu (orijinal, düzeltilmiş) çiftleri eğitim verisi olarak kullan.

Model böylece "anayasaya göre cevap verme"yi öğrenir.

2. RL-CAI (RLHF benzeri)

Bir cevap için iki versiyon üret.
AI model (insan değil) anayasaya göre hangisi daha iyi karar verir.
Bu tercih verisiyle ödül modeli eğit.
Klasik RLHF gibi politika optimizasyonu.

Bu RLAIF (RL from AI Feedback) olarak adlandırılır. RLHF'in insan kısmını AI ile değiştirir.

Niye işe yarar

Şaşırtıcı bulgu: AI kendisini eleştirebilir. Modelin kendi cevaplarına bakıp "bu güvenli değil" demesi pratikte çalışır.

Sebep: model zaten "neyin güvensiz olduğunu" eğitim verisinde gördü. Sadece uygulanmasını öğrenmemiş. Anayasa, modelin kendi bilgisine başvurmasını tetikler.

Avantajları

CAI'nin RLHF'e göre avantajları:

Ucuz. İnsan etiketleyici gerek değil.
Tutarlı. Aynı anayasa her zaman aynı standart.
Şeffaf. "Bu kural bu cevabı reddetti" denebilir.
Ölçeklenebilir. Bilgisayar kapasitesi ile sınırlı.
Güvenli. İnsan değerlendirici toksik içeriğe maruz kalmaz.

Sınırlamalar

CAI mükemmel değil:

Model bias'ı. Eğer base model belli bir önyargılıysa, CAI bunu çoğaltır.
Anayasa yazma zor. Hangi kurallar? Hangi sırada? Anthropic bu sorularla yıllarca uğraştı.
Yorumlama esnek. "Saygılı ol" — ama saygı neyse o.
Self-referential döngüsel. AI kendi cevabını değerlendiriyor, ama bias'ları da paylaşıyor.

RLAIF — yaygınlaşma

CAI'nin RLAIF kısmı (AI feedback ile RL) hızla yayıldı:

Llama 2 Chat (2023): RLAIF dahil.
Mistral, Gemma: RLAIF varyantları.
DeepSeek R1: GRPO + AI evaluation karması.

Modern hizalama paradigması: insan + AI birlikte değerlendirir, RLHF + RLAIF karması.

Claude'un kişiliği

Anthropic'in Claude modelinin "kişiliği" CAI'nin somut sonucudur:

Yardımcı ama mesafeli.
Belirsizliği açıkça söyler.
Şiddet veya zarara karşı tutarlı reddeder.
Felsefi sorulara öz-bilinçle yaklaşır.

Bu özellikler anayasadan gelir. Claude diğer LLM'lerden bu çerçevede farklılaşır.

Recursive reward modeling ile bağlantı

CAI, Jan Leike'in recursive reward modeling (2018) fikrinin somut uygulamasıdır:

İnsan yerine AI değerlendirir.
AI değerlendirme insan kalitesini geçer (potansiyel olarak).
Süper-akıllı AI için bu gerek olabilir.

Leike'in OpenAI'dan Anthropic'e geçişi de bu felsefe bağlamı.

Klasik benzetme

Bir gence "iyi adam olman gerekiyor" demek belirsiz. "Yalan söyleme, vurma, çalma" demek daha açık. Anayasa = kural listesi.

Ama kuralları öğreten kim olmalı? Klasik: ana-baba (RLHF, insan değerlendirici). CAI: çocuğun kendisi. Kuralları okur, kendi davranışını yargılar.

Bu "öz-kontrol" modeli daha ölçeklenebilir ama daha riskli — çocuk kuralları yanlış yorumlayabilir.

Sade ders

CAI hikâyesinden iki şey:

AI kendisini denetleyebilir. "Modelin etik kararı insandan gelmeli" varsayımını kırdı. CAI gösterir: AI kendi etiğini uygulayabilir, sadece doğru rehber gerek.
Açık kurallar gizli normlara üstündür. RLHF'in "iyi cevabı insan biliyor" varsayımı belirsiz. CAI anayasayı yazılı kılar. Bu, daha şeffaf ve denetlenebilir.

Bağlam

RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]], [[john-schulman-ppo-nun-mucidi-rlhf-in-mimari]]. Anthropic için: [[dario-amodei-anthropic-kurucu-ortagi-ve-ai-guvenliginin-onde-gelen-savunucusu]], [[chris-olah-sinir-aglarinin-mikroskopcusu]]. Jan Leike için: [[jan-leike-superalignment-tartismasinin-merkez-figuru]]. GRPO için: [[grpo-deepseek-in-akil-yurutme-icin-rl-algoritmasi]]. Stuart Russell ile alignment için: [[stuart-russell-ai-guvenligi-nin-akademik-yuzu]].