Pieter Abbeel'in doktora tezi neyle ilgilidir?

Pekiştirmeli öğrenme ile otonom helikopter kontrolü — ters takla manevraları

Sim-to-real ne demek?

Simülasyonda eğit, gerçek robota transfer et — domain randomization gibi tekniklerle

Depolarda çok yönlü kavrama robotları; hiç görmediği nesneyi öğrenip tutabilir

Abbeel'in Berkeley'de yetiştirdiği öne çıkan isimler kimlerdir?

John Schulman (PPO), Sergey Levine, Chelsea Finn (MAML)

Abbeel'in son dönem teması nedir?

Bedensel zekâ (embodied intelligence) — robotların fiziksel dünya anlayışı

Pieter Abbeel: Robotik ve Pekiştirmeli Öğrenmenin Pratik Yüzü

Hava yastığı

Pieter Abbeel'in 2008'deki Stanford tezi şu konudaydı: pekiştirmeli öğrenme ile otonom helikopterler ters takla nasıl atar?

Andrew Ng'in danışmanlığında yürütülen bu çalışma, sıradan oyuncak helikopterlerin profesyonel pilotlardan daha temiz akrobatik manevralar yapmasıyla sonuçlandı. Yöntem: usta pilot helikopteri uçar, sistem davranışı kaydeder, ters pekiştirmeli öğrenme ile altta yatan ödül fonksiyonunu çıkarır, sonra optimum politikayı bulur.

Bu, modern imitation learning alanının temel makalelerinden biri oldu.

Antwerp → Stanford → Berkeley

1978 Belçika doğumlu. Leuven Üniversitesi'nde lisansı bitirdi. Stanford'da doktorayı tamamladı (2008, danışman: Andrew Ng). Berkeley'e profesör olarak katıldı. Halen Berkeley AI Research (BAIR) içindeki en aktif gruplardan birini yönetir.

Sim-to-real — simülasyondan gerçeğe

Robot eğitiminde temel sorun: gerçek robotta milyonlarca deneme fiziksel olarak imkansız. Robot kırılır, batarya biter, zaman alır.

Abbeel'in 2010'lardaki ana katkısı: simülasyonda eğit, gerçek robota transfer et. Çözüm fikirleri:

Domain randomization: Simülasyon parametrelerini (sürtünme, ağırlık, ışık) rastgele varyans ile değiştir. Model her parametre kombinasyonunda iyi olmayı öğrenir.
Sistem tanımlaması: Robot az sayıda gerçek deneyimle simülasyon parametrelerini öğrenir.
Meta-RL: Birkaç görevde çalışacak hızlı uyarlanır politikalar.

OpenAI'nin Dactyl projesi (2018, Rubik küpü çözen robot el) Abbeel'in bu fikirlerini somut bir başarı olarak gösterdi.

OpenAI yılları (2016–2017)

2016'da OpenAI'ye katıldı (kurucu danışman ekibinin bir parçası). 2017'de Berkeley'e döndü. Bu kısa dönem onu OpenAI ekosistemine bağladı; John Schulman, Filip Wolski gibi Berkeley öğrencileri PPO, TRPO algoritmalarını orada geliştirdi.

PPO (Proximal Policy Optimization), bugünkü RLHF'nin temel algoritmasıdır. ChatGPT, Claude, Gemini eğitimlerinde kullanılır. Abbeel'in Berkeley laboratuvarı bu hattın doğrudan akademik temelidir.

Covariant (2017) — endüstri sıçraması

Berkeley'e dönerken aynı zamanda Tianhao Zhang, Peter Chen, Rocky Duan ile birlikte Covariant.AI'yi kurdu. Hedef: depolarda çok yönlü kavrama robotları. Klasik depo robotları sadece programlanmış nesneleri tutar; Covariant robotları hiç görmediği nesneyi öğrenip tutabilir.

2020'de Amazon, Knapp ve Otto gibi dev lojistik şirketlerine satıldı. 2024 değerlemesi 1+ milyar dolar.

Mart 2024'te Covariant'ın temel modeli RFM-1 açıklandı: robot için "ChatGPT" benzeri çok-modlu temel model. Görüntü, dil, eylem üzerinde önceden eğitilmiş. Robot dünyasının kendine özgü GPT-3 anı sayıldı.

"Robot Brains" — podcast

Abbeel akademinin görünür yüzlerinden. 2020'den beri The Robot Brains Podcast'i yönetir. Hinton, LeCun, Schmidhuber, Brooks, Hassabis dahil 200'ün üzerinde misafir. Akademik bir araştırmacının medya zekâsı: konuk seçimi keskin, mülakat sorularında matematik biliyor.

Pekiştirmeli öğrenme — Berkeley merkezi

Abbeel'in Berkeley'de yetiştirdiği isimler liste oluşturur:

John Schulman: PPO, TRPO; OpenAI co-founder; ChatGPT mimarisinin ana taşı.
Sergey Levine: Visuomotor learning, model-based RL.
Chelsea Finn: Meta-learning, MAML algoritması; Stanford profesörü.
Rocky Duan, Peter Chen, Tianhao Zhang: Covariant ortakları.

Bu hat 2015 sonrası pekiştirmeli öğrenmenin pratik tarafının ana ekseni oldu.

Hayalet kafiye: bedensel zekâ

Abbeel'in son dönem teması: bedensel zekâ (embodied intelligence). LLM'lerin dil dünyasında oturduğu yerde robotların fiziksel dünya anlayışını geliştirmek. Fei-Fei Li'nin "uzamsal zekâ" tezi ile yan yana durur.

Mart 2024 podcast'inde:

"Önümüzdeki 5-10 yıl LLM çağı değil, bedensel zekâ çağı olacak. Robotlar 1980'lerden beri programlanıyordu; ilk kez öğrenecekler."

Sade ders

Abbeel hikâyesinden iki şey:

Akademiyle endüstri birlikte yürür. Berkeley dersleri, OpenAI'deki kısa dönem, Covariant kuruculuğu — üç dünya birbirini besledi.
Simülasyon büyük bir gerçektir. Robotik öğrenmenin pratik tek yolu önce simülasyonda denemek. Bu yaklaşım otonom araç, drone, fabrika robotları için standartlaştı.

Bağlam

Pekiştirmeli öğrenme temeli için: [[pekistirmeli-ogrenme-q-learning-policy-gradient]], [[ppo-trpo-modern-rl-algoritmalari]]. Robotik için: [[robotik-otonom-sistemler]]. Embodied intelligence için: [[fei-fei-li-ai-in-anneannesi]] ve [[world-models-yann-lecun-jepa]]. Andrew Ng ile bağlantı: [[andrew-ng-ai-yi-herkese-acan-adam]].

Pieter Abbeel: Robotik ve Pekiştirmeli Öğrenmenin Pratik Yüzü

Hava yastığı

Antwerp → Stanford → Berkeley

Sim-to-real — simülasyondan gerçeğe

OpenAI yılları (2016–2017)

Covariant (2017) — endüstri sıçraması

"Robot Brains" — podcast

Pekiştirmeli öğrenme — Berkeley merkezi

Hayalet kafiye: bedensel zekâ

Sade ders

Bağlam

Kendinizi Test Edin

İlgili Yazılar

Brahmagupta: Sıfıra Kurallar Koyan ve Negatif Sayıları Borç Olarak Tanımlayan 7. Yüzyıl Hintlisi

Hypatia: İskenderiye'nin Son Büyük Kadın Matematikçisi ve Bir Çağın Sonu

Étienne Bézout: Fransız Donanmasının Matematik Hocası ve Adı Yanlış Yere Yapışmış Cebirci