RNN klasik sinir ağından nasıl farklıdır?

Gizli durum ($h_t$) sayesinde önceki adımları hatırlar; sıralı veriler için

LSTM'i kim ne zaman tanıttı?

Sepp Hochreiter ve Jürgen Schmidhuber (1997)

LSTM'in üç kapısı nedir?

Forget, input, output gate — hücre durumunun selektif yönetimi

Transformer (2017) RNN'i nasıl yerine aldı?

Paralel çalışma + uzun bağımlılık doğrudan yakalama + daha iyi sonuç

Mamba, RWKV gibi state-space modelleri ne yapıyor?

RNN ailesinin modern dönüşü; Transformer'ın $O(n^2)$ yerine $O(n)$ uzun sekans verimi

RNN ve LSTM: Zamanın İçinde Öğrenen Sinir Ağları

"Bu cümlede bir sonraki kelime ne?"

"Kedi mutfağa girdi ve..."

İnsan bağlamı kullanarak tahmin eder: "su içti", "kovuldu", "yemek yedi". Bunun için önceki kelimeleri hatırlamalı.

Klasik forward sinir ağları sırayı bilmez. Her veri noktası bağımsız.

Sıralı veriler için: Rekürsif Sinir Ağı (Recurrent Neural Network, RNN).

RNN nedir?

Klasik sinir ağı: $y = f(x)$ .

RNN: $h_t = f(x_t, h_{t-1})$ .

$h_t$ = gizli durum (hafıza). Her adımda kendini güncelliyor.

Bu yapı sayesinde RNN sıraları işleyebilir.

Forward geçişi

h_0 = 0
for t in 1..T:
    h_t = tanh(W_h * h_{t-1} + W_x * x_t)
    y_t = W_y * h_t

Çıktı her zaman dilimindeki tahmin.

Eğitim — backpropagation through time (BPTT)

Klasik backprop'un zamansal versiyonu. Zinciri zaman boyunca açma.

Pratikte: çok uzun sıralarda gradyan kaybolması veya patlaması.

Sorun: uzun bağımlılıklar

"Kedimi 5 yıl önce kaybettim." 5 yıl bilgisini cümlenin sonuna kadar hatırlamak.

Klasik RNN bu uzun bağımlılığı zayıf yakalar. Gradyanlar kaybolur.

LSTM (1997)

Sepp Hochreiter, Jürgen Schmidhuber (1997): Long Short-Term Memory.

Çözüm: gizli durum + hücre durumu ayrımı. Hücre durumu uzun süreli bilgi, gizli durum kısa.

Üç kapı:

Forget gate ( $f_t$ ): hücre durumunun ne kadarı unutulacak.
Input gate ( $i_t$ ): yeni bilgi ne kadar eklenecek.
Output gate ( $o_t$ ): hücre durumunun ne kadarı çıkışa.

$f_t = \sigma(W_f \cdot [h_{t-1}, x_t])$
$i_t = \sigma(W_i \cdot [h_{t-1}, x_t])$
$\tilde C_t = \tanh(W_C \cdot [h_{t-1}, x_t])$
$C_t = f_t \odot C_{t-1} + i_t \odot \tilde C_t$
$o_t = \sigma(W_o \cdot [h_{t-1}, x_t])$
$h_t = o_t \odot \tanh(C_t)$

Karmaşık ama çok etkili.

GRU (2014)

Cho, Bengio'nun Gated Recurrent Unit: LSTM'in basitleştirilmiş versiyonu. 2 kapı.

Bazı uygulamalarda LSTM kadar iyi, daha hızlı.

Niçin öneml(ydi)?

2010-2017 arası RNN/LSTM modern derin öğrenmenin altın çağıydı:

1. Makine çevirisi

Google Translate (2016): LSTM tabanlı.

2. Konuşma tanıma

Apple Siri, Google Assistant — LSTM.

3. Müzik üretimi

WaveNet, MelodyRNN.

4. Metin üretimi

Karakter-seviyesi RNN, kelime-seviyesi RNN.

5. Finans

Zaman serisi tahmin.

6. Sağlık

EKG analizi, hasta verisi.

Transformer dönemi (2017+)

Attention Is All You Need (Vaswani et al. 2017): RNN'i tamamen attık. Sadece attention.

Transformer'lar:

Paralel çalışır (RNN seri).
Uzun bağımlılık doğrudan yakalar.
Daha iyi sonuç.

Sonuç: 2017-2020 arası RNN/LSTM'in çöküşü. GPT, BERT — hepsi Transformer.

Modern dönüş?

2023+ state-space modelleri (Mamba, RWKV) — RNN'in yeni nesli:

Transformer'ın $O(n^2)$ karmaşıklığına karşılık $O(n)$ .
Uzun sekanslar için verimli.
LSTM'in modern teorik versiyonu.

Belki RNN ailesi geri dönüş yapacak.

Sonuç

RNN ve LSTM:

Sıralı veri için klasik derin öğrenme yaklaşımı.
Hochreiter-Schmidhuber 1997 LSTM icadı.
2010'lar konuşma tanıma, çeviri altın çağı.
Transformer (2017) ile gerileme, ama state-space modelleri ile dönüş.

Modern AI tarihinin kritik ara dönemi. LSTM'siz geçmek mümkün değil; ama geleceği belirsiz.

"Bilgi zamana yayılır." Sıralı öğrenmenin paradigma cümlesi.