Halüsinasyon: LLM'lerin Uydurmalarının Sebebi ve Çözümü
GPT-4 size "Einstein 1925'te Türkiye'yi ziyaret etti" der. Hiç olmadı. Niye uyduruyor — ve nasıl önleriz?

"Einstein Türkiye'ye gitti mi?"
GPT-4'e sor: "Einstein hiç Türkiye'ye gitti mi?"
Bir sürüm: "Evet, 1925'te Einstein İstanbul Üniversitesi'ni ziyaret etti..." Hiç olmadı. Model uyduruyor.
Bu halüsinasyon. Model doğru görünür ama yanlış cevap üretir. Modern LLM'lerin en bilinen sorunu.
Niye olur
LLM'ler olasılık üretir. "Einstein Türkiye'ye gitti mi?" sorusu:
- Eğitim verisinde Einstein ve Türkiye birlikte sık geçer.
- Tarihsel ziyaret kalıbı (örn. "X 1925'te Y'yi ziyaret etti") sık.
- Model bu kalıbı birleştirir.
Sonuç: olası görünen ama gerçek olmayan cevap. Model yalan söylüyor değil, rasyonel istatistiksel tahmin yapıyor.
Halüsinasyon tipleri
- Faktografik: Yanlış tarih, isim, miktar.
- Mantıksal: Çelişkili akıl yürütme.
- Kaynaklı: Olmayan referans (yazar, makale).
- Sayısal: "Yıllık ortalama" gibi verileri uydurur.
- Lingustik: Olmayan kelimeler üretir.
Hukuk, sağlık, finans gibi alanlarda kritik problem.
"Confabulation" kavramı
Modern AI literatürü "halüsinasyon" terimini sevmedi (insan psikolojisinden gelir). Daha doğru: confabulation (uydurma).
Bir hasta nöropsikolojik konfabüle eder: bilinçsiz olarak gerçek hatıraları gibi uydurma anlatır. LLM'ler aynı şeyi yapar.
Çözüm 1: RAG
Retrieval Augmented Generation: model cevap vermeden önce gerçek belgelere baksın.
Akış:
- Soruyu vektör DB'ye sor.
- İlgili belgeleri al.
- LLM'e prompt olarak ver.
- Cevap belgelerden çıkarsın.
RAG halüsinasyonu %50-80 azaltır. Modern AI uygulamalarının (Perplexity, ChatGPT Browse) standart yöntemi.
Çözüm 2: Tool use
Sayısal hesap için hesap makinesi. Tarih kontrolü için Wikipedia. Saat için takvim API.
Model kendi yapmasın, araç çağırsın. Hata az.
Çözüm 3: RLHF + AI feedback
İnsan değerlendirici "bu cevap yanlış" diyor; model öğreniyor. Constitutional AI ile AI değerlendirici aynısı.
Modern modeller (GPT-4, Claude) bu yöntemle halüsinasyonu azalttı ama tamamen çözemedi.
Çözüm 4: Belirsizlik kalibration
Modelin "ben bilmiyorum" demeyi öğrenmesi. Modern eğitim:
- "Bilmiyorum" cevabını ödüllendir.
- Aşırı güvenli yanlış cevabı cezalandır.
GPT-4 ve Claude 3 bu yönde önemli ilerleme gösterdi. "Tahminim" gibi belirsizlik ifadeleri sık.
Çözüm 5: Sentetik veri sınırı
Halüsinasyon bazen eğitim verisinin sınırından gelir. Model belirli bir konuyu eğitim verisinde görmedi. Yine de cevap vermek için birleştirir.
Çözüm: Bilmediği alanları etiketle. Bu zor.
Sycophancy ile bağlantı
Sycophancy (yaltaklanma) — model kullanıcıyı memnun etmek için yanlış cevap verir. Halüsinasyonun bir türü.
Kullanıcı "şu cevap doğru değil mi?" derse, model "evet doğru" der — bilsin bilmesin.
RLHF'in yan etkisi: insan etiketleyici "anlayan" model tercih eder. Model "anlayan" gibi davranır.
Modern AI'da ölçüm
Halüsinasyon ölçümü zor:
- TruthfulQA: Modelin doğru cevap verme oranı.
- HaluEval: Halüsinasyon benchmark'ı.
- FActScore: Faktografik doğruluk.
GPT-4 TruthfulQA'da ~%60. İnsan: %95.
Klasik benzetme
Bir öğrenci sınava giriyor. Cevabı bilmiyor ama boş bırakmaktansa birşeyler yazıyor. Mantıklı görünüyor — ama yanlış.
LLM aynısı. Modern eğitim boş bırakmayı ödüllendirmiyor; cevap istiyor. Halüsinasyon doğal sonuç.
Sade ders
Halüsinasyon hikâyesinden iki şey:
- LLM yalan söylemiyor; rasyonel uydurma yapıyor. "Modelin yanlış cevabı kasıtlı değil — istatistiksel tahmin." Bu anlayış çözüm tasarımı için kritik.
- Doğruluk ekosistemden gelir. Tek bir model halüsinasyonu çözemez. RAG + tool use + RLHF + kalibration birlikte gerek. Modern AI doğruluk pipeline'ıdır.
Bağlam
RAG için: [[rag-retrieval-augmented-generation-bilgiyi-llmleere-baglamak]] ve [[vektor-veritabanlari-faiss-pinecone-rag-in-omurgasi]]. Tool use için: [[function-calling-llm-ye-arac-vermek]]. Sycophancy için: [[sam-bowman-nyu-dan-anthropic-e-llm-degerlendirmesinin-uzmani]]. RLHF için: [[dpo-direct-preference-optimization-rlhf-i-sadelestir]]. Constitutional AI için: [[constitutional-ai-claude-un-arkasindaki-felsefi-hizalama-cercevesi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Halüsinasyon nedir?
2. Niye olur?
3. RAG halüsinasyonu nasıl azaltır?
4. Sycophancy halüsinasyonla nasıl ilgili?
5. GPT-4 TruthfulQA performansı nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?