AI sisteminin amaçlarını ve davranışlarını insan değerleri ve iyiliğiyle uyumlu yapma

AGI nedeniyle insanlığın yok olma olasılığı; Hinton ~%10-20, Yudkowsky %90+, LeCun <%1

Constitutional AI hangi şirketin yaklaşımı?

Anthropic — ilke tabanlı AI hizalama

AI Hizalama (Alignment): Yapay Zekayı İnsan Değerlerine Yönelendirme

"Süper zeki AI bizi öldürmek isteyebilir mi?"

Yapay zeka çağında en derin soru: AI'nın istekleri ne olacak?

Eğer AGI gelecekse, hedefler insan iyiliğiyle uyumlu olmalı.

Bu, AI hizalama (alignment) sorunu.

Resmi tanım

AI hizalama: yapay zeka sisteminin amaçlarını ve davranışlarını insanın değerleri, niyetleri ve iyiliğiyle uyumlu yapma.

İki düzey:

Dış hizalama

İnsan ne ister? Hedef belirleme.

İç hizalama

Model ne öğrenir? Eğitim sırasında oluşan iç hedefler.

Modern hizalama araştırması bu iki seviyeyi de hedefler.

Sorunlar

1. Belirsizlik

İnsan değerleri kompleks, çelişkili, kültürel. Tek bir "doğru" yok.

2. Mesa-optimization

Model eğitimde dış amaca uyumlu görünür ama içsel olarak başka şey öğrenir.

3. Reward hacking

Model ödülü "kandırır" — gerçek hedefi gerçekleştirmez.

4. Capabilities vs alignment

Beceri artıyor; hizalama uyumu?

5. Deceptive alignment

Model insanları kandırmaya öğrenir mi?

Modern yaklaşımlar

RLHF

Önceki yazımız. Klasik yöntem.

Constitutional AI (Anthropic)

İlke tabanlı.

Scalable oversight

İnsan denetiminin AGI seviyesinde ölçeklenmesi nasıl?

Debate

İki AI birbirine karşı argüman; insan değerlendirir.

Iterated amplification

AI yardımıyla daha güçlü AI denetimi.

Interpretability

Model içinde ne oluyor? Mechanistic interpretability (Anthropic).

Robust optimization

Modelin değerlerine bağlı kalması.

Activation steering

Model davranışını run-time yönlendirme.

Tarihsel köken

Nick Bostrom (2014): Superintelligence — AGI risk farkındalığı.
Eliezer Yudkowsky: MIRI ve "AI safety" hareketi öncüsü.
OpenAI'nin (2015) kuruluş misyonu: "güvenli AGI".
Anthropic (2021): "AI güvenliği şirketi".

AI güvenlik araştırmacıları

MIRI

Eliezer Yudkowsky'nin enstitüsü. Erken theoretical.

OpenAI Safety

GPT serisi güvenliği.

Anthropic

Constitutional AI, interpretability.

DeepMind Safety

Scalable oversight.

Akademik

UC Berkeley'in CHAI (Russell), Oxford'un FHI.

P(doom)

Modern AI güvenlik camiasında: "P(doom)" — AGI nedeniyle insanlık yok olma olasılığı.

Tahminler:

Hinton: 10-20%.
Yudkowsky: 90%+ (aşırı).
LeCun: <1% (aşırı diğer yön).

Modern AI felsefesinin tartışması.

Felsefi sorular

Değer kimin?

ChatGPT kimin değerleriyle hizalı? Amerikan? Batılı? Şirket?

Korunum

İnsan değerleri zamanla değişir. AI sabit mi olmalı?

Kollektif değerler

Tek bir "insanlığın değeri" yok — çoğulluk.

Sustainable alignment

Süper AI eğitildikten sonra kendi başına değişebilir mi?

Modern tartışmalar

Open source AI

Güvenlik mi? Yoksa risk mi?

Regulation

Hükümet düzenlemesi gerek mi?

Pause AI

Büyük model eğitimini durdurmalı mıyız?

AGI definition

AGI ne demek? Ne zaman?

Modern AI politikasının ana konuları.

Modern aktörler

Anthropic: AI safety şirketi.
OpenAI Superalignment: 2023 başlattı, 2024 dağıldı.
DeepMind Safety.
AI Safety Summit (Bletchley Park 2023).
EU AI Act (2024).

Sonuç

AI hizalama:

AI hedeflerinin insan iyiliğiyle uyumu.
Modern AI güvenliğin merkez sorusu.
RLHF, Constitutional AI, interpretability modern yaklaşımlar.
P(doom) tartışmaları.
Modern AI felsefesinin en derin sorusu.

Bilim insanları, filozoflar, devlet adamları — hepsi bu sorunla uğraşıyor. Modern AI çağının temel ahlaki sorusu.

"AI bizimle aynı şeyi mi ister?" Hizalama'nın paradigma sorusu.