RoPE: Transformer'ın Pozisyon Dilini Değiştiren Sade Fikir
2021'de Çinli araştırmacıların önerdiği döndürmeli pozisyon kodlaması, bugün Llama, GPT-NeoX ve Mistral'in standart bileşeni.

Pozisyon problemi
Transformer attention'unun temel zayıflığı şu: sıra bilgisi yok. "Kedi köpeği gördü" ile "Köpek kediyi gördü" attention için aynı kelime kümesi. Pozisyon bilgisi dışarıdan eklenmeli.
Orijinal "Attention is All You Need" (2017) makalesi sinüs-kosinüs pozisyon kodlaması önerdi: her pozisyon için sabit bir vektör ekle. İşe yarıyor ama iki sorunu var:
- Eğitim sırasında görmediği uzunluklara genelleme kötü. 2K token eğitilen model 8K'da başarısız.
- Mutlak pozisyon, göreceli ilişkiyi temsil etmez. Modelin "iki kelime arasında 5 boşluk var" demesi, "konumlar 100 ve 105 idi" demekten zor.
RoPE — fikir
2021'de Jianlin Su ve ark. (Zhuiyi Technology) Rotary Position Embedding (RoPE) önerdi. Fikir muhteşem sade:
"Pozisyon bilgisini vektörlere eklemek yerine, vektörleri döndür."
Her token'ın query ve key vektörleri, pozisyona orantılı bir açıyla döndürülür. Pozisyon 'deki token'ın vektörü açısıyla rotasyona uğrar.
Matematik
Boyut çifti için, . konumdaki vektör şöyle döndürülür:
Burada — boyuta göre azalan frekans.
Aynı işlem 'ya da yapılır. Sonra attention skoru:
Yani iki vektörün iç çarpımı sadece farkına bağlı — pozisyon farkı, mutlak pozisyon değil. Bu göreceli pozisyon özelliği matematiksel olarak garanti edilir.
Neden güzel
- Göreceli pozisyon doğal. "5 kelime önce" bilgisi mutlak konumdan değil, fark üzerinden taşınır.
- Hesap ucuz. Sadece sinüs-kosinüs çarpımı; ekstra parametre yok.
- Long-range için açık. Tüm frekanslar bir bant içinde; bir vektör hem küçük hem büyük ölçek bilgisini taşır.
- Genelleştirilebilir. 1D dil için tasarlanmış ama 2D görüntü, ses, video için de uyarlanır (RoPE-2D, RoPE-3D).
Endüstri benimsemesi
RoPE 2021'de yayımlandı ama 2022 ortasına kadar görmezden gelindi. Sonra dramatik bir patlama:
- GPT-NeoX-20B (EleutherAI, 2022): İlk büyük benimseme.
- Llama 1, 2, 3 (Meta, 2023+): Tüm modellerde standart.
- Mistral, Mixtral, Gemma: Hep RoPE.
- GPT-4 ve sonrası: OpenAI doğrulamadı ama büyük olasılıkla RoPE türevi.
Bugün yeni eğitilen her büyük LLM RoPE kullanır. Sinüs-kosinüs ekleme yöntemi tamamen terk edildi.
Uzun bağlam genişletmesi — NTK ve YaRN
RoPE'nin esnekliği uzun bağlam dünyasında patladı. 4K token'da eğitilmiş bir modeli 32K'ya çıkarmak için RoPE'nin frekans çarpanını değiştirmek yeter:
- NTK-aware scaling (2023): Yüksek frekansları az, düşük frekansları çok ölçeklendir.
- YaRN (Yet another RoPE extensioN, 2023): Daha akıllı ölçekleme; en iyi sonuçlardan biri.
- Position Interpolation (Meta, 2023): Pozisyonu lineer sıkıştır.
Bu yöntemler eğitim olmadan ya da çok küçük fine-tuning ile modelin bağlam uzunluğunu 4-8x artırır. Llama 2'nin 4K'dan 32K'ya çıkarılması bu hat sayesinde.
Klasik benzetme
İki saat ibresini düşün — biri pozisyon 'de, diğeri 'de. Saatler dönüyor, mutlak konumlar sürekli değişiyor. Ama aralarındaki açı — yani — sabit. Attention skoru bu açıya bağlıdır, mutlak konuma değil.
Eğitimde gördüğümüz "saat farkları" ile test zamanı "saat farkları" benzer olursa, model genelleştirir. RoPE bu açıyı koruyacak şekilde tasarlanmıştır.
Sade ders
RoPE hikâyesinden iki şey:
- Sade matematiksel fikir, mühendislik dünyasında büyük sıçramaya dönüşür. Döndürmek vs. eklemek farkı küçük gibi ama tüm ekosistemi değiştirdi.
- Çin AI ekosistemi underestimated. RoPE Zhuiyi Technology'den çıktı, Yu Yu lab ve EleutherAI tarafından Batı'ya tanıtıldı. 2022'den önce alanın çoğu bilmiyordu.
Bağlam
Transformer ve attention için: [[transformer-attention-is-all-you-need]]. Uzun bağlam yönetimi için: [[kv-cache-llm-belleginin-sessiz-darbogazi]], [[bagsiz-bilgi-uzun-baglam-modelleri-nasil-yapilir]]. Alternatif pozisyon kodlamaları: [[alibi-positional-encoding-ile-uzun-baglam]] (varsa). Çin AI ekosistemi için: [[deepseek-r1-cin-ai-i-acik-kaynak-ile]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. RoPE'nin temel fikri nedir?
2. Klasik sinüs-kosinüs ekleme yöntemine göre avantajı nedir?
3. Hangi modeller RoPE kullanır?
4. YaRN nedir?
5. RoPE'yi ilk yayımlayan ekip nereli?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?