Tüm yazılar
Matematik7 Eylül 2025

AI Hizalama (Alignment): Yapay Zekayı İnsan Değerlerine Yönelendirme

Süper zeki AI nasıl insan iyiliğini ister? Modern AI tarihinin en derin sorusu. Hizalama: AI'nın hedeflerinin insanın iyiliğiyle uyumlu olması. Modern AI güvenlik araştırmasının ana alanı.

Matematik Karavanı Editörü 5 dk okuma 5 soru
Pusula — AI hizalamanın yön metaforu

"Süper zeki AI bizi öldürmek isteyebilir mi?"

Yapay zeka çağında en derin soru: AI'nın istekleri ne olacak?

Eğer AGI gelecekse, hedefler insan iyiliğiyle uyumlu olmalı.

Bu, AI hizalama (alignment) sorunu.

Resmi tanım

AI hizalama: yapay zeka sisteminin amaçlarını ve davranışlarını insanın değerleri, niyetleri ve iyiliğiyle uyumlu yapma.

İki düzey:

Dış hizalama

İnsan ne ister? Hedef belirleme.

İç hizalama

Model ne öğrenir? Eğitim sırasında oluşan iç hedefler.

Modern hizalama araştırması bu iki seviyeyi de hedefler.

Sorunlar

1. Belirsizlik

İnsan değerleri kompleks, çelişkili, kültürel. Tek bir "doğru" yok.

2. Mesa-optimization

Model eğitimde dış amaca uyumlu görünür ama içsel olarak başka şey öğrenir.

3. Reward hacking

Model ödülü "kandırır" — gerçek hedefi gerçekleştirmez.

4. Capabilities vs alignment

Beceri artıyor; hizalama uyumu?

5. Deceptive alignment

Model insanları kandırmaya öğrenir mi?

Modern yaklaşımlar

RLHF

Önceki yazımız. Klasik yöntem.

Constitutional AI (Anthropic)

İlke tabanlı.

Scalable oversight

İnsan denetiminin AGI seviyesinde ölçeklenmesi nasıl?

Debate

İki AI birbirine karşı argüman; insan değerlendirir.

Iterated amplification

AI yardımıyla daha güçlü AI denetimi.

Interpretability

Model içinde ne oluyor? Mechanistic interpretability (Anthropic).

Robust optimization

Modelin değerlerine bağlı kalması.

Activation steering

Model davranışını run-time yönlendirme.

Tarihsel köken

  • Nick Bostrom (2014): Superintelligence — AGI risk farkındalığı.
  • Eliezer Yudkowsky: MIRI ve "AI safety" hareketi öncüsü.
  • OpenAI'nin (2015) kuruluş misyonu: "güvenli AGI".
  • Anthropic (2021): "AI güvenliği şirketi".

AI güvenlik araştırmacıları

MIRI

Eliezer Yudkowsky'nin enstitüsü. Erken theoretical.

OpenAI Safety

GPT serisi güvenliği.

Anthropic

Constitutional AI, interpretability.

DeepMind Safety

Scalable oversight.

Akademik

UC Berkeley'in CHAI (Russell), Oxford'un FHI.

P(doom)

Modern AI güvenlik camiasında: "P(doom)" — AGI nedeniyle insanlık yok olma olasılığı.

Tahminler:

  • Hinton: 10-20%.
  • Yudkowsky: 90%+ (aşırı).
  • LeCun: <1% (aşırı diğer yön).

Modern AI felsefesinin tartışması.

Felsefi sorular

Değer kimin?

ChatGPT kimin değerleriyle hizalı? Amerikan? Batılı? Şirket?

Korunum

İnsan değerleri zamanla değişir. AI sabit mi olmalı?

Kollektif değerler

Tek bir "insanlığın değeri" yok — çoğulluk.

Sustainable alignment

Süper AI eğitildikten sonra kendi başına değişebilir mi?

Modern tartışmalar

Open source AI

Güvenlik mi? Yoksa risk mi?

Regulation

Hükümet düzenlemesi gerek mi?

Pause AI

Büyük model eğitimini durdurmalı mıyız?

AGI definition

AGI ne demek? Ne zaman?

Modern AI politikasının ana konuları.

Modern aktörler

  • Anthropic: AI safety şirketi.
  • OpenAI Superalignment: 2023 başlattı, 2024 dağıldı.
  • DeepMind Safety.
  • AI Safety Summit (Bletchley Park 2023).
  • EU AI Act (2024).

Sonuç

AI hizalama:

  • AI hedeflerinin insan iyiliğiyle uyumu.
  • Modern AI güvenliğin merkez sorusu.
  • RLHF, Constitutional AI, interpretability modern yaklaşımlar.
  • P(doom) tartışmaları.
  • Modern AI felsefesinin en derin sorusu.

Bilim insanları, filozoflar, devlet adamları — hepsi bu sorunla uğraşıyor. Modern AI çağının temel ahlaki sorusu.

"AI bizimle aynı şeyi mi ister?" Hizalama'nın paradigma sorusu.

Etiketler

AI hizalamaAI güvenliğideğer hizalamamodern AIfelsefe

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. AI hizalama nedir?

2. P(doom) ne demek?

3. Constitutional AI hangi şirketin yaklaşımı?

4. Mesa-optimization sorunu nedir?

5. AI hizalama felsefi tartışması?