Pieter Abbeel: Robotik ve Pekiştirmeli Öğrenmenin Pratik Yüzü
Belçika'dan Stanford'a, Berkeley'e ve Covariant'a uzanan yol. Modern robotiğin AI ile sentezinin en aktif sesi.

Hava yastığı
Pieter Abbeel'in 2008'deki Stanford tezi şu konudaydı: pekiştirmeli öğrenme ile otonom helikopterler ters takla nasıl atar?
Andrew Ng'in danışmanlığında yürütülen bu çalışma, sıradan oyuncak helikopterlerin profesyonel pilotlardan daha temiz akrobatik manevralar yapmasıyla sonuçlandı. Yöntem: usta pilot helikopteri uçar, sistem davranışı kaydeder, ters pekiştirmeli öğrenme ile altta yatan ödül fonksiyonunu çıkarır, sonra optimum politikayı bulur.
Bu, modern imitation learning alanının temel makalelerinden biri oldu.
Antwerp → Stanford → Berkeley
1978 Belçika doğumlu. Leuven Üniversitesi'nde lisansı bitirdi. Stanford'da doktorayı tamamladı (2008, danışman: Andrew Ng). Berkeley'e profesör olarak katıldı. Halen Berkeley AI Research (BAIR) içindeki en aktif gruplardan birini yönetir.
Sim-to-real — simülasyondan gerçeğe
Robot eğitiminde temel sorun: gerçek robotta milyonlarca deneme fiziksel olarak imkansız. Robot kırılır, batarya biter, zaman alır.
Abbeel'in 2010'lardaki ana katkısı: simülasyonda eğit, gerçek robota transfer et. Çözüm fikirleri:
- Domain randomization: Simülasyon parametrelerini (sürtünme, ağırlık, ışık) rastgele varyans ile değiştir. Model her parametre kombinasyonunda iyi olmayı öğrenir.
- Sistem tanımlaması: Robot az sayıda gerçek deneyimle simülasyon parametrelerini öğrenir.
- Meta-RL: Birkaç görevde çalışacak hızlı uyarlanır politikalar.
OpenAI'nin Dactyl projesi (2018, Rubik küpü çözen robot el) Abbeel'in bu fikirlerini somut bir başarı olarak gösterdi.
OpenAI yılları (2016–2017)
2016'da OpenAI'ye katıldı (kurucu danışman ekibinin bir parçası). 2017'de Berkeley'e döndü. Bu kısa dönem onu OpenAI ekosistemine bağladı; John Schulman, Filip Wolski gibi Berkeley öğrencileri PPO, TRPO algoritmalarını orada geliştirdi.
PPO (Proximal Policy Optimization), bugünkü RLHF'nin temel algoritmasıdır. ChatGPT, Claude, Gemini eğitimlerinde kullanılır. Abbeel'in Berkeley laboratuvarı bu hattın doğrudan akademik temelidir.
Covariant (2017) — endüstri sıçraması
Berkeley'e dönerken aynı zamanda Tianhao Zhang, Peter Chen, Rocky Duan ile birlikte Covariant.AI'yi kurdu. Hedef: depolarda çok yönlü kavrama robotları. Klasik depo robotları sadece programlanmış nesneleri tutar; Covariant robotları hiç görmediği nesneyi öğrenip tutabilir.
2020'de Amazon, Knapp ve Otto gibi dev lojistik şirketlerine satıldı. 2024 değerlemesi 1+ milyar dolar.
Mart 2024'te Covariant'ın temel modeli RFM-1 açıklandı: robot için "ChatGPT" benzeri çok-modlu temel model. Görüntü, dil, eylem üzerinde önceden eğitilmiş. Robot dünyasının kendine özgü GPT-3 anı sayıldı.
"Robot Brains" — podcast
Abbeel akademinin görünür yüzlerinden. 2020'den beri The Robot Brains Podcast'i yönetir. Hinton, LeCun, Schmidhuber, Brooks, Hassabis dahil 200'ün üzerinde misafir. Akademik bir araştırmacının medya zekâsı: konuk seçimi keskin, mülakat sorularında matematik biliyor.
Pekiştirmeli öğrenme — Berkeley merkezi
Abbeel'in Berkeley'de yetiştirdiği isimler liste oluşturur:
- John Schulman: PPO, TRPO; OpenAI co-founder; ChatGPT mimarisinin ana taşı.
- Sergey Levine: Visuomotor learning, model-based RL.
- Chelsea Finn: Meta-learning, MAML algoritması; Stanford profesörü.
- Rocky Duan, Peter Chen, Tianhao Zhang: Covariant ortakları.
Bu hat 2015 sonrası pekiştirmeli öğrenmenin pratik tarafının ana ekseni oldu.
Hayalet kafiye: bedensel zekâ
Abbeel'in son dönem teması: bedensel zekâ (embodied intelligence). LLM'lerin dil dünyasında oturduğu yerde robotların fiziksel dünya anlayışını geliştirmek. Fei-Fei Li'nin "uzamsal zekâ" tezi ile yan yana durur.
Mart 2024 podcast'inde:
"Önümüzdeki 5-10 yıl LLM çağı değil, bedensel zekâ çağı olacak. Robotlar 1980'lerden beri programlanıyordu; ilk kez öğrenecekler."
Sade ders
Abbeel hikâyesinden iki şey:
- Akademiyle endüstri birlikte yürür. Berkeley dersleri, OpenAI'deki kısa dönem, Covariant kuruculuğu — üç dünya birbirini besledi.
- Simülasyon büyük bir gerçektir. Robotik öğrenmenin pratik tek yolu önce simülasyonda denemek. Bu yaklaşım otonom araç, drone, fabrika robotları için standartlaştı.
Bağlam
Pekiştirmeli öğrenme temeli için: [[pekistirmeli-ogrenme-q-learning-policy-gradient]], [[ppo-trpo-modern-rl-algoritmalari]]. Robotik için: [[robotik-otonom-sistemler]]. Embodied intelligence için: [[fei-fei-li-ai-in-anneannesi]] ve [[world-models-yann-lecun-jepa]]. Andrew Ng ile bağlantı: [[andrew-ng-ai-yi-herkese-acan-adam]].
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Pieter Abbeel'in doktora tezi neyle ilgilidir?
2. Sim-to-real ne demek?
3. Covariant ne yapar?
4. Abbeel'in Berkeley'de yetiştirdiği öne çıkan isimler kimlerdir?
5. Abbeel'in son dönem teması nedir?
İlgili Yazılar
Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi
628 yılında Brahmagupta, sıfırın aritmetiğini ve negatif sayıların kurallarını ilk kez sistematik biçimde yazdı. Borç-mülk metaforuyla negatif sayıları meşrulaştırdı, ikinci dereceden denklem formülünü genelleştirdi.
Bilim TarihiHypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu
M.S. 4. yüzyıl İskenderiye'sinde, dünyanın en büyük kütüphanesinin gölgesinde bir kadın geometri ve astronomi dersleri veriyordu. Hikâyesi, bir bilim insanının ötesinde, bir çağın bittiğini anlatır.
Bilim TarihiÉtienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci
Adı bugün her kriptografi dersinde geçen Bézout, hayatta sınava hazırlanan denizci adaylarına ders kitabı yazdı. Ünü, kendi bulmadığı bir teoremden geldi; kendi büyük teoremi ise nesiller boyunca anlaşılamadı.