Google menguraikan metode baru untuk melatih robot dengan video dan model bahasa yang besar

A light, positive scene depicting an animated, small, cute robot assistant against a background of a room lit up by the ethereal glow of a night sky visible through a window. In one claw-like hand, the robot holds a smartphone with a screen displaying lines of code representing neural networks. Around the robot, floating holographic images coming from the smartphone show different tasks it could accomplish. In a corner of the room, a computer screen shows a video with an overlay of a robotic arm in action. The scene is subtly tinged with the warm golden tones of dusk creeping in.

Para peneliti DeepMind Robotics dari Google sedang mengeksplorasi potensi AI generatif dan model dasar yang besar dalam robotika. Mereka bertujuan untuk memberikan pemahaman yang lebih baik kepada robot tentang keinginan manusia. Secara tradisional, robot terbatas pada tugas-tugas tunggal, tetapi sistem AutoRT yang baru saja diumumkan memanfaatkan model dasar yang besar untuk memperluas kemampuan mereka. AutoRT menggunakan Visual Language Model (VLM) untuk kesadaran situasional dan mengelola armada robot yang dilengkapi dengan kamera. Model bahasa yang besar menyarankan tugas yang dapat diselesaikan oleh robot. Sistem ini telah diuji coba dengan hingga 20 robot dan 52 perangkat yang berbeda, mengumpulkan lebih dari 77.000 percobaan. Pengembangan lainnya adalah RT-Trajectory, yang menggunakan input video dan melapisi sketsa lengan yang sedang beraksi untuk melatih robot. Metode ini telah menunjukkan tingkat keberhasilan dua kali lipat dibandingkan dengan metode pelatihan sebelumnya. RT-Trajectory juga memanfaatkan kumpulan data robot yang ada untuk membuka pengetahuan dan meningkatkan kebijakan kontrol robot. Secara keseluruhan, kemajuan ini bertujuan untuk memungkinkan robot bergerak secara akurat dan efisien dalam situasi yang baru.

Artikel lengkap

Tinggalkan Balasan