Whisper: Konuşma Tanımada 50 Yıllık Bir Problemin Veri ile Çözümü
OpenAI'in 2022'de açıkladığı, 680.000 saat ses ile eğitilmiş, 99 dilde konuşma tanıma yapan açık model.

50 yıllık ASR problemi
Konuşma tanıma (ASR — Automatic Speech Recognition) klasik AI problemlerinden biridir. 1970'lerde IBM, BBN ve diğerleri başladı. Yıllar boyu HMM + Gaussian Mixture modelleri standartdı.
2010'larda derin öğrenme (LSTM + CTC) ASR'ı dönüştürdü. Google Voice, Siri, Alexa hep bu hatla.
Eylül 2022. OpenAI bir bomba düşürdü: Whisper. Açık kaynak. 99 dil. State-of-the-art performans.
Mimari
Whisper standart encoder-decoder transformer:
- Ses dosyası (30 saniye) mel-spektrogram'a dönüştürülür (88 × 3000 boyutlu görüntü).
- Encoder bu spektrogramı işler.
- Decoder metin üretir (token bytes).
Mimari sıradan. Veri özel.
680.000 saat ses
Whisper'in büyük inovasyonu: muazzam ölçek. 680.000 saat ses + transkripsiyon. Internet'ten toplandı:
- YouTube alt yazıları.
- Podcast transkripsiyonları.
- Sesli kitaplar.
Bu eğitim verisinin 100K saati çoklu dil. 96 dilde transkripsiyon, 16 dilde dil tespiti.
Bu multi-task öğrenme: transkripsiyon + çeviri + dil tespiti + segmentation hep birlikte.
Performans
Whisper-large (1.55B parametre):
- İngilizce konuşma tanıma: WER (Word Error Rate) ~%4-8.
- Türkçe: WER ~%10-15.
- Çince, Japonca, Arapça: WER %15-25.
- Aksanlı İngilizce, gürültülü ortam: Önceki SOTA'dan 30-60% iyi.
Bu, profesyonel hizmetler kalitesi. Otomatik altyazı sektörünü dönüştürdü.
Modeller — büyüklükler
Whisper aile:
- tiny: 39M parametre, %32 hata.
- base: 74M.
- small: 244M.
- medium: 769M.
- large: 1.55B.
- large-v3: 2024, daha iyi.
Tiny model cep telefonunda çalışır. Büyük model server gerektirir.
Çok dilli — neden kazanan?
Önceki ASR modelleri dil başına ayrı eğitim. Türkçe model = Türkçe verisi. Az veriden, az kalite.
Whisper tek model, çok dil. Sebep: model dil özellikleri arasında transfer yapıyor. Türkçe konuşmacılar tanıma kalitesi İngilizce/Almanca verisinin sayesinde de iyileşiyor.
Bu, modern AI'nın veri ölçeği felsefesinin somut başarısı.
Açık kaynak — etki
Whisper açık kaynak yayımlandı (MIT lisansı). Etki muazzam:
- Hugging Face Hub: Milyonlarca indirme.
- Whisper.cpp: Yerel cihazda çalışan C++ port.
- Faster Whisper: Optimize çıkarım kütüphanesi.
- WhisperX: Konuşmacı tespit + timestamp.
Modern konuşma tanıma ekosisteminin temeli. Profesyonel transkripsiyon (Otter, Descript), sağlık (tıbbi notlar), eğitim (otomatik altyazı) — hep Whisper.
"Bilim açık olmalı"
OpenAI Whisper'i tamamen açık yayımladı. Bu, OpenAI'in genelde kapalı modellerine karşı bir tutum.
Sebep tartışmalı:
- ASR ticari değer az.
- Akademik etki çok.
- "Açık kaynak da yapıyoruz" PR.
Yine de Whisper modern AI'da açık kaynak başarısı. Llama, Stable Diffusion ile birlikte.
Sınırlamalar
Whisper mükemmel değil:
- Halüsinasyon: Sessiz parçalarda model olmayan kelimeler üretir.
- Çok uzun ses: 30 saniyelik pencere; uzun konuşmada bağlam kaybı.
- Konuşmacı ayrımı yok: "A dedi, B cevapladı" formatı.
- Diller eşit değil: İngilizce çok iyi, az kaynaklı diller (Türkçe dahil) zayıf.
WhisperX bazılarını çözüyor. Yeni nesil model bekleniyor.
Sade ders
Whisper hikâyesinden iki şey:
- Veri ölçeği klasik problemleri çözer. ASR 50 yıl uğraşıldı. Whisper 680K saat ile büyük ölçüde çözdü. Veri çoğunlukla algoritmadan önemli.
- Açık kaynak ekosistem yaratır. Whisper açık olduğu için yüzlerce uygulama doğdu. Kapalı bir model bu kadar etki yaratamazdı.
Bağlam
Klasik ASR için: [[gizli-markov-modelleri-konusma-tanimadan-genetige-dijital-cagin-gizli-isletmecisi]]. Transformer için: [[transformer-attention-is-all-you-need]]. Açık kaynak modeller için: [[llama-mimarisi-modern-llm-tasarimi]] (varsa). Speech generation için: [[wavenet-deepmind-ses-uretim]] (varsa). Türkçe NLP için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Whisper'in temel inovasyonu nedir?
2. Kaç dilde çalışır?
3. Türkçe için WER ne kadar?
4. Whisper neden ekosistem yarattı?
5. Whisper'in en bilinen sorunu nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?