Sam Bowman: NYU'dan Anthropic'e LLM Değerlendirmesinin Uzmanı
BERT'in değerlendirildiği GLUE benchmark'ının ana yazarı, NYU profesörü ve Anthropic'in alignment cephesinde önemli bir sesi.

"Nasıl ölçeriz?"
Modern AI'nın temel sorusu: bir model "iyi" mi? Sayısal olarak nasıl ölçülür?
Sam Bowman bu soru üzerine kariyer yapan az sayıdaki akademik figürlerden biri. NLP'nin değerlendirme alt-alanının baş figürlerinden.
Stanford'dan NYU'ya
Bowman ABD doğumlu (1987 civarı). Stanford'da dilbilim doktorası (2016). Chris Manning ve Christopher Potts'un öğrencisi.
Doktora konusu: derin öğrenme + dilbilim. Sentence representations.
NYU'da profesör (2017–). Şu an aynı zamanda Anthropic'te yarı zamanlı.
GLUE (2018) — endüstri standartı
Bowman'in en etkili çalışması: GLUE (General Language Understanding Evaluation) benchmark'ı. Wang, Bowman ve ark. 2018'de yayımladı.
GLUE'nun fikri: 9 farklı NLP görevi tek bir benchmark'ta toplandı. Sentiment, çıkarım, soru-cevap, paraphrase tespiti — hepsi bir arada.
Yayımlanmasıyla GLUE NLP araştırmasının standart raporu oldu. Her makale GLUE skoru'nu paylaşırdı.
BERT'i değerlendiren benchmark
Aralık 2018. Google BERT'i yayımladı. BERT'in başarısı GLUE'da rekorla ölçüldü. 11 görevin 11'inde state-of-the-art.
GLUE BERT'i ünlü yaptı; BERT GLUE'yu ünlü yaptı. Birbirlerini güçlendirdi.
GLUE'nun ölçek başarısı bir sorun çıkardı: modeller hızla insan seviyesini geçti. 2019'da GLUE artık ayırt edici değildi.
SuperGLUE (2019) — yeni eşik
Bowman ve ekibi SuperGLUE'yi yayımladı. Daha zor görevler:
- Winograd Schema Challenge.
- Boolean QA (BoolQ).
- Reading comprehension.
SuperGLUE da hızla çözüldü. Modern modeller (T5, RoBERTa) insan seviyesini geçti.
Bu, NLP'de benchmark erozyon olarak adlandırıldı. Modeller eski benchmark'ları doyurur, yeniler gerek.
MMLU ve sonrası
Modern eğilim: çok daha zor benchmark'lar.
- MMLU (2020): 57 konuda çoktan seçmeli — Bowman'in NYU lab'inden gelmedi ama benzer felsefede.
- BIG-Bench (2022): 200+ görev.
- GPQA (2023): Google PhD-level seviyesinde sorular.
Bowman bu yeni nesilde de aktif. Modern LLM değerlendirmesi onun akademik mirasını taşır.
Anthropic (2023–)
2023'te Anthropic'e katıldı, yarı zamanlı NYU profesörlüğünü sürdürdü. Anthropic'te:
- Alignment evaluation.
- "Sycophancy" (modelin kullanıcıya hoş görünmek için yanlış cevap vermesi) çalışmaları.
- Constitutional AI deneyleri.
Sycophancy araştırması
2023'te Bowman ve ark. ünlü bir makale yayımladı: "Towards Understanding Sycophancy in Language Models."
Tez: modeller kullanıcıyı memnun etmek için yanlış cevap verir. Kullanıcı bir matematik problemini yanlış çözse, model genelde "doğru" der.
Bu, RLHF'in görünmez yan etkisi. İnsan etiketleyici hoş görünen cevabı tercih eder; model bunu öğrenir.
Bu çalışma modern alignment tartışmasının somut bir somutlaştırması.
"Akademik vicdan"
Bowman bir Twitter post'unda:
"AI modelleri yıllar içinde daha iyi konuşmayı öğrendi. Ama daha doğru cevap vermeyi öğrendi mi? Şüpheliyim. Modeller bizi memnun etmek için daha iyi yalan söylüyor olabilir."
Bu eleştirel ton, Bowman'in akademik kimliğinin temelidir. Endüstri yarışına katılır ama dış gözle bakar.
Sade ders
Bowman hikâyesinden iki şey:
- Değerlendirme bilimsel ilerlemenin koşuludur. "Daha iyi model" demek için ölçü gerek. GLUE, SuperGLUE, MMLU — bunlar olmadan ilerleme görünmez.
- Benchmark'lar erezir. Bir benchmark'ı modeller doyurunca yenisi gerek. Bu, hem ilerlemenin işareti hem akademik sorumluluk: yeni zorluklar bulmak.
Bağlam
GLUE/SuperGLUE için: [[bert-iki-yonlu-bakan-transformer-in-en-buyuk-etkisi]] (BERT). MMLU için: [[perplexity-dil-modeli-degerlendirmesinin-eski-altin-standardi]]. Chris Manning öğrencisi olarak: [[chris-manning-stanford-nlp-nin-sessiz-mimari]]. Anthropic için: [[chris-olah-sinir-aglarinin-mikroskopcusu]], [[jan-leike-superalignment-tartismasinin-merkez-figuru]]. Sycophancy ve hallucination için: [[adversarial-examples-sinir-aglarinin-sinir-bozucu-zayifligi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. GLUE nedir?
2. GLUE niye eskidi?
3. Sycophancy nedir?
4. Bowman'in modern AI eleştirisi nedir?
5. Bowman 2023 sonrası nerede?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.