Tüm yazılar
Matematik11 Nisan 2025

Whisper: Konuşma Tanımada 50 Yıllık Bir Problemin Veri ile Çözümü

OpenAI'in 2022'de açıkladığı, 680.000 saat ses ile eğitilmiş, 99 dilde konuşma tanıma yapan açık model.

Matematik Karavanı 6 dk okuma 5 soru
Mikrofon ve kulaklık — Whisper'in ses işleme alanı

50 yıllık ASR problemi

Konuşma tanıma (ASR — Automatic Speech Recognition) klasik AI problemlerinden biridir. 1970'lerde IBM, BBN ve diğerleri başladı. Yıllar boyu HMM + Gaussian Mixture modelleri standartdı.

2010'larda derin öğrenme (LSTM + CTC) ASR'ı dönüştürdü. Google Voice, Siri, Alexa hep bu hatla.

Eylül 2022. OpenAI bir bomba düşürdü: Whisper. Açık kaynak. 99 dil. State-of-the-art performans.

Mimari

Whisper standart encoder-decoder transformer:

  1. Ses dosyası (30 saniye) mel-spektrogram'a dönüştürülür (88 × 3000 boyutlu görüntü).
  2. Encoder bu spektrogramı işler.
  3. Decoder metin üretir (token bytes).

Mimari sıradan. Veri özel.

680.000 saat ses

Whisper'in büyük inovasyonu: muazzam ölçek. 680.000 saat ses + transkripsiyon. Internet'ten toplandı:

  • YouTube alt yazıları.
  • Podcast transkripsiyonları.
  • Sesli kitaplar.

Bu eğitim verisinin 100K saati çoklu dil. 96 dilde transkripsiyon, 16 dilde dil tespiti.

Bu multi-task öğrenme: transkripsiyon + çeviri + dil tespiti + segmentation hep birlikte.

Performans

Whisper-large (1.55B parametre):

  • İngilizce konuşma tanıma: WER (Word Error Rate) ~%4-8.
  • Türkçe: WER ~%10-15.
  • Çince, Japonca, Arapça: WER %15-25.
  • Aksanlı İngilizce, gürültülü ortam: Önceki SOTA'dan 30-60% iyi.

Bu, profesyonel hizmetler kalitesi. Otomatik altyazı sektörünü dönüştürdü.

Modeller — büyüklükler

Whisper aile:

  • tiny: 39M parametre, %32 hata.
  • base: 74M.
  • small: 244M.
  • medium: 769M.
  • large: 1.55B.
  • large-v3: 2024, daha iyi.

Tiny model cep telefonunda çalışır. Büyük model server gerektirir.

Çok dilli — neden kazanan?

Önceki ASR modelleri dil başına ayrı eğitim. Türkçe model = Türkçe verisi. Az veriden, az kalite.

Whisper tek model, çok dil. Sebep: model dil özellikleri arasında transfer yapıyor. Türkçe konuşmacılar tanıma kalitesi İngilizce/Almanca verisinin sayesinde de iyileşiyor.

Bu, modern AI'nın veri ölçeği felsefesinin somut başarısı.

Açık kaynak — etki

Whisper açık kaynak yayımlandı (MIT lisansı). Etki muazzam:

  • Hugging Face Hub: Milyonlarca indirme.
  • Whisper.cpp: Yerel cihazda çalışan C++ port.
  • Faster Whisper: Optimize çıkarım kütüphanesi.
  • WhisperX: Konuşmacı tespit + timestamp.

Modern konuşma tanıma ekosisteminin temeli. Profesyonel transkripsiyon (Otter, Descript), sağlık (tıbbi notlar), eğitim (otomatik altyazı) — hep Whisper.

"Bilim açık olmalı"

OpenAI Whisper'i tamamen açık yayımladı. Bu, OpenAI'in genelde kapalı modellerine karşı bir tutum.

Sebep tartışmalı:

  • ASR ticari değer az.
  • Akademik etki çok.
  • "Açık kaynak da yapıyoruz" PR.

Yine de Whisper modern AI'da açık kaynak başarısı. Llama, Stable Diffusion ile birlikte.

Sınırlamalar

Whisper mükemmel değil:

  1. Halüsinasyon: Sessiz parçalarda model olmayan kelimeler üretir.
  2. Çok uzun ses: 30 saniyelik pencere; uzun konuşmada bağlam kaybı.
  3. Konuşmacı ayrımı yok: "A dedi, B cevapladı" formatı.
  4. Diller eşit değil: İngilizce çok iyi, az kaynaklı diller (Türkçe dahil) zayıf.

WhisperX bazılarını çözüyor. Yeni nesil model bekleniyor.

Sade ders

Whisper hikâyesinden iki şey:

  1. Veri ölçeği klasik problemleri çözer. ASR 50 yıl uğraşıldı. Whisper 680K saat ile büyük ölçüde çözdü. Veri çoğunlukla algoritmadan önemli.
  2. Açık kaynak ekosistem yaratır. Whisper açık olduğu için yüzlerce uygulama doğdu. Kapalı bir model bu kadar etki yaratamazdı.

Bağlam

Klasik ASR için: [[gizli-markov-modelleri-konusma-tanimadan-genetige-dijital-cagin-gizli-isletmecisi]]. Transformer için: [[transformer-attention-is-all-you-need]]. Açık kaynak modeller için: [[llama-mimarisi-modern-llm-tasarimi]] (varsa). Speech generation için: [[wavenet-deepmind-ses-uretim]] (varsa). Türkçe NLP için: [[bpe-byte-pair-encoding-llm-lerin-kelimelere-bakmasi]].

Etiketler

Whisperkonuşma tanımaASROpenAItransformer

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Whisper'in temel inovasyonu nedir?

2. Kaç dilde çalışır?

3. Türkçe için WER ne kadar?

4. Whisper neden ekosistem yarattı?

5. Whisper'in en bilinen sorunu nedir?