RoPE'nin temel fikri nedir?

Vektörleri pozisyona orantılı bir açıyla döndür; iç çarpım göreceli pozisyona bağlı olur

Klasik sinüs-kosinüs ekleme yöntemine göre avantajı nedir?

Göreceli pozisyon doğal, ekstra parametre yok, long-range ölçeklendirme kolay

Hangi modeller RoPE kullanır?

Llama (tüm sürümler), Mistral, Mixtral, Gemma, GPT-NeoX — modern LLM'lerin standardı

RoPE'nin uzun bağlam ölçeklendirmesi için akıllı bir varyant (Yet another RoPE extensioN)

RoPE'yi ilk yayımlayan ekip nereli?

Çin — Zhuiyi Technology (Jianlin Su ve ark., 2021)

RoPE: Transformer'ın Pozisyon Dilini Değiştiren Sade Fikir

Pozisyon problemi

Transformer attention'unun temel zayıflığı şu: sıra bilgisi yok. "Kedi köpeği gördü" ile "Köpek kediyi gördü" attention için aynı kelime kümesi. Pozisyon bilgisi dışarıdan eklenmeli.

Orijinal "Attention is All You Need" (2017) makalesi sinüs-kosinüs pozisyon kodlaması önerdi: her pozisyon için sabit bir vektör ekle. İşe yarıyor ama iki sorunu var:

Eğitim sırasında görmediği uzunluklara genelleme kötü. 2K token eğitilen model 8K'da başarısız.
Mutlak pozisyon, göreceli ilişkiyi temsil etmez. Modelin "iki kelime arasında 5 boşluk var" demesi, "konumlar 100 ve 105 idi" demekten zor.

RoPE — fikir

2021'de Jianlin Su ve ark. (Zhuiyi Technology) Rotary Position Embedding (RoPE) önerdi. Fikir muhteşem sade:

"Pozisyon bilgisini vektörlere eklemek yerine, vektörleri döndür."

Her token'ın query ve key vektörleri, pozisyona orantılı bir açıyla döndürülür. Pozisyon $m$ 'deki token'ın $Q$ vektörü $m\theta$ açısıyla rotasyona uğrar.

Matematik

Boyut çifti $(2i, 2i+1)$ için, $m$ . konumdaki vektör şöyle döndürülür:

\begin{pmatrix} q'_{2i} \\ q'_{2i+1} \end{pmatrix} = \begin{pmatrix} \cos(m\theta_i) & -\sin(m\theta_i) \\ \sin(m\theta_i) & \cos(m\theta_i) \end{pmatrix} \begin{pmatrix} q_{2i} \\ q_{2i+1} \end{pmatrix}

Burada $\theta_i = 10000^{-2i/d}$ — boyuta göre azalan frekans.

Aynı işlem $K$ 'ya da yapılır. Sonra attention skoru:

\langle Q'_m, K'_n \rangle = f(Q, K, m-n)

Yani iki vektörün iç çarpımı sadece $m-n$ farkına bağlı — pozisyon farkı, mutlak pozisyon değil. Bu göreceli pozisyon özelliği matematiksel olarak garanti edilir.

Neden güzel

Göreceli pozisyon doğal. "5 kelime önce" bilgisi mutlak konumdan değil, fark üzerinden taşınır.
Hesap ucuz. Sadece sinüs-kosinüs çarpımı; ekstra parametre yok.
Long-range için açık. Tüm frekanslar bir bant içinde; bir vektör hem küçük hem büyük ölçek bilgisini taşır.
Genelleştirilebilir. 1D dil için tasarlanmış ama 2D görüntü, ses, video için de uyarlanır (RoPE-2D, RoPE-3D).

Endüstri benimsemesi

RoPE 2021'de yayımlandı ama 2022 ortasına kadar görmezden gelindi. Sonra dramatik bir patlama:

GPT-NeoX-20B (EleutherAI, 2022): İlk büyük benimseme.
Llama 1, 2, 3 (Meta, 2023+): Tüm modellerde standart.
Mistral, Mixtral, Gemma: Hep RoPE.
GPT-4 ve sonrası: OpenAI doğrulamadı ama büyük olasılıkla RoPE türevi.

Bugün yeni eğitilen her büyük LLM RoPE kullanır. Sinüs-kosinüs ekleme yöntemi tamamen terk edildi.

Uzun bağlam genişletmesi — NTK ve YaRN

RoPE'nin esnekliği uzun bağlam dünyasında patladı. 4K token'da eğitilmiş bir modeli 32K'ya çıkarmak için RoPE'nin frekans çarpanını değiştirmek yeter:

NTK-aware scaling (2023): Yüksek frekansları az, düşük frekansları çok ölçeklendir.
YaRN (Yet another RoPE extensioN, 2023): Daha akıllı ölçekleme; en iyi sonuçlardan biri.
Position Interpolation (Meta, 2023): Pozisyonu lineer sıkıştır.

Bu yöntemler eğitim olmadan ya da çok küçük fine-tuning ile modelin bağlam uzunluğunu 4-8x artırır. Llama 2'nin 4K'dan 32K'ya çıkarılması bu hat sayesinde.

Klasik benzetme

İki saat ibresini düşün — biri pozisyon $m$ 'de, diğeri $n$ 'de. Saatler dönüyor, mutlak konumlar sürekli değişiyor. Ama aralarındaki açı — yani $m-n$ — sabit. Attention skoru bu açıya bağlıdır, mutlak konuma değil.

Eğitimde gördüğümüz "saat farkları" ile test zamanı "saat farkları" benzer olursa, model genelleştirir. RoPE bu açıyı koruyacak şekilde tasarlanmıştır.

Sade ders

RoPE hikâyesinden iki şey:

Sade matematiksel fikir, mühendislik dünyasında büyük sıçramaya dönüşür. Döndürmek vs. eklemek farkı küçük gibi ama tüm ekosistemi değiştirdi.
Çin AI ekosistemi underestimated. RoPE Zhuiyi Technology'den çıktı, Yu Yu lab ve EleutherAI tarafından Batı'ya tanıtıldı. 2022'den önce alanın çoğu bilmiyordu.

Bağlam

Transformer ve attention için: [[transformer-attention-is-all-you-need]]. Uzun bağlam yönetimi için: [[kv-cache-llm-belleginin-sessiz-darbogazi]], [[bagsiz-bilgi-uzun-baglam-modelleri-nasil-yapilir]]. Alternatif pozisyon kodlamaları: [[alibi-positional-encoding-ile-uzun-baglam]] (varsa). Çin AI ekosistemi için: [[deepseek-r1-cin-ai-i-acik-kaynak-ile]].

RoPE: Transformer'ın Pozisyon Dilini Değiştiren Sade Fikir

Pozisyon problemi

RoPE — fikir

Matematik

Neden güzel

Endüstri benimsemesi

Uzun bağlam genişletmesi — NTK ve YaRN

Klasik benzetme

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"

Pisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?

Fibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü