Tüm yazılar
Bilim Tarihi29 Haziran 2025

Pieter Abbeel: Robotik ve Pekiştirmeli Öğrenmenin Pratik Yüzü

Belçika'dan Stanford'a, Berkeley'e ve Covariant'a uzanan yol. Modern robotiğin AI ile sentezinin en aktif sesi.

Matematik Karavanı 6 dk okuma 5 soru
Endüstriyel robot kol — Abbeel'in Covariant çalışmaları

Hava yastığı

Pieter Abbeel'in 2008'deki Stanford tezi şu konudaydı: pekiştirmeli öğrenme ile otonom helikopterler ters takla nasıl atar?

Andrew Ng'in danışmanlığında yürütülen bu çalışma, sıradan oyuncak helikopterlerin profesyonel pilotlardan daha temiz akrobatik manevralar yapmasıyla sonuçlandı. Yöntem: usta pilot helikopteri uçar, sistem davranışı kaydeder, ters pekiştirmeli öğrenme ile altta yatan ödül fonksiyonunu çıkarır, sonra optimum politikayı bulur.

Bu, modern imitation learning alanının temel makalelerinden biri oldu.

Antwerp → Stanford → Berkeley

1978 Belçika doğumlu. Leuven Üniversitesi'nde lisansı bitirdi. Stanford'da doktorayı tamamladı (2008, danışman: Andrew Ng). Berkeley'e profesör olarak katıldı. Halen Berkeley AI Research (BAIR) içindeki en aktif gruplardan birini yönetir.

Sim-to-real — simülasyondan gerçeğe

Robot eğitiminde temel sorun: gerçek robotta milyonlarca deneme fiziksel olarak imkansız. Robot kırılır, batarya biter, zaman alır.

Abbeel'in 2010'lardaki ana katkısı: simülasyonda eğit, gerçek robota transfer et. Çözüm fikirleri:

  1. Domain randomization: Simülasyon parametrelerini (sürtünme, ağırlık, ışık) rastgele varyans ile değiştir. Model her parametre kombinasyonunda iyi olmayı öğrenir.
  2. Sistem tanımlaması: Robot az sayıda gerçek deneyimle simülasyon parametrelerini öğrenir.
  3. Meta-RL: Birkaç görevde çalışacak hızlı uyarlanır politikalar.

OpenAI'nin Dactyl projesi (2018, Rubik küpü çözen robot el) Abbeel'in bu fikirlerini somut bir başarı olarak gösterdi.

OpenAI yılları (2016–2017)

2016'da OpenAI'ye katıldı (kurucu danışman ekibinin bir parçası). 2017'de Berkeley'e döndü. Bu kısa dönem onu OpenAI ekosistemine bağladı; John Schulman, Filip Wolski gibi Berkeley öğrencileri PPO, TRPO algoritmalarını orada geliştirdi.

PPO (Proximal Policy Optimization), bugünkü RLHF'nin temel algoritmasıdır. ChatGPT, Claude, Gemini eğitimlerinde kullanılır. Abbeel'in Berkeley laboratuvarı bu hattın doğrudan akademik temelidir.

Covariant (2017) — endüstri sıçraması

Berkeley'e dönerken aynı zamanda Tianhao Zhang, Peter Chen, Rocky Duan ile birlikte Covariant.AI'yi kurdu. Hedef: depolarda çok yönlü kavrama robotları. Klasik depo robotları sadece programlanmış nesneleri tutar; Covariant robotları hiç görmediği nesneyi öğrenip tutabilir.

2020'de Amazon, Knapp ve Otto gibi dev lojistik şirketlerine satıldı. 2024 değerlemesi 1+ milyar dolar.

Mart 2024'te Covariant'ın temel modeli RFM-1 açıklandı: robot için "ChatGPT" benzeri çok-modlu temel model. Görüntü, dil, eylem üzerinde önceden eğitilmiş. Robot dünyasının kendine özgü GPT-3 anı sayıldı.

"Robot Brains" — podcast

Abbeel akademinin görünür yüzlerinden. 2020'den beri The Robot Brains Podcast'i yönetir. Hinton, LeCun, Schmidhuber, Brooks, Hassabis dahil 200'ün üzerinde misafir. Akademik bir araştırmacının medya zekâsı: konuk seçimi keskin, mülakat sorularında matematik biliyor.

Pekiştirmeli öğrenme — Berkeley merkezi

Abbeel'in Berkeley'de yetiştirdiği isimler liste oluşturur:

  • John Schulman: PPO, TRPO; OpenAI co-founder; ChatGPT mimarisinin ana taşı.
  • Sergey Levine: Visuomotor learning, model-based RL.
  • Chelsea Finn: Meta-learning, MAML algoritması; Stanford profesörü.
  • Rocky Duan, Peter Chen, Tianhao Zhang: Covariant ortakları.

Bu hat 2015 sonrası pekiştirmeli öğrenmenin pratik tarafının ana ekseni oldu.

Hayalet kafiye: bedensel zekâ

Abbeel'in son dönem teması: bedensel zekâ (embodied intelligence). LLM'lerin dil dünyasında oturduğu yerde robotların fiziksel dünya anlayışını geliştirmek. Fei-Fei Li'nin "uzamsal zekâ" tezi ile yan yana durur.

Mart 2024 podcast'inde:

"Önümüzdeki 5-10 yıl LLM çağı değil, bedensel zekâ çağı olacak. Robotlar 1980'lerden beri programlanıyordu; ilk kez öğrenecekler."

Sade ders

Abbeel hikâyesinden iki şey:

  1. Akademiyle endüstri birlikte yürür. Berkeley dersleri, OpenAI'deki kısa dönem, Covariant kuruculuğu — üç dünya birbirini besledi.
  2. Simülasyon büyük bir gerçektir. Robotik öğrenmenin pratik tek yolu önce simülasyonda denemek. Bu yaklaşım otonom araç, drone, fabrika robotları için standartlaştı.

Bağlam

Pekiştirmeli öğrenme temeli için: [[pekistirmeli-ogrenme-q-learning-policy-gradient]], [[ppo-trpo-modern-rl-algoritmalari]]. Robotik için: [[robotik-otonom-sistemler]]. Embodied intelligence için: [[fei-fei-li-ai-in-anneannesi]] ve [[world-models-yann-lecun-jepa]]. Andrew Ng ile bağlantı: [[andrew-ng-ai-yi-herkese-acan-adam]].

Etiketler

Pieter Abbeelpekiştirmeli öğrenmerobotikCovariantsim-to-real

Kendinizi Test Edin

Cevaplarınız profilinizde istatistik olarak saklanır.

1. Pieter Abbeel'in doktora tezi neyle ilgilidir?

2. Sim-to-real ne demek?

3. Covariant ne yapar?

4. Abbeel'in Berkeley'de yetiştirdiği öne çıkan isimler kimlerdir?

5. Abbeel'in son dönem teması nedir?