Google stellt neue Methoden für das Training von Robotern mit Videos und großen Sprachmodellen vor

A light, positive scene depicting an animated, small, cute robot assistant against a background of a room lit up by the ethereal glow of a night sky visible through a window. In one claw-like hand, the robot holds a smartphone with a screen displaying lines of code representing neural networks. Around the robot, floating holographic images coming from the smartphone show different tasks it could accomplish. In a corner of the room, a computer screen shows a video with an overlay of a robotic arm in action. The scene is subtly tinged with the warm golden tones of dusk creeping in.

Google’s DeepMind Robotics Forscher erforschen das Potenzial generativer KI und großer Grundmodelle in der Robotik. Ihr Ziel ist es, Robotern ein besseres Verständnis der menschlichen Wünsche zu vermitteln. Bisher waren Roboter auf einzelne Aufgaben beschränkt, doch das neu angekündigte AutoRT-System nutzt große Grundmodelle, um ihre Fähigkeiten zu erweitern. AutoRT verwendet ein visuelles Sprachmodell (Visual Language Model, VLM) für das Situationsbewusstsein und verwaltet eine Flotte von mit Kameras ausgestatteten Robotern. Ein großes Sprachmodell schlägt Aufgaben vor, die von den Robotern ausgeführt werden können. Das System wurde mit bis zu 20 Robotern und 52 verschiedenen Geräten getestet, wobei über 77.000 Versuche gesammelt wurden. Eine weitere Entwicklung ist RT-Trajectory, das Videoeingaben verwendet und eine Skizze des Arms in Aktion einblendet, um Roboter zu trainieren. Diese Methode hat im Vergleich zu früheren Trainingsmethoden eine doppelt so hohe Erfolgsquote gezeigt. RT-Trajectory nutzt auch vorhandene Roboterdaten, um Wissen zu erschließen und die Robotersteuerungsstrategien zu verbessern. Insgesamt zielen diese Fortschritte darauf ab, Roboter in die Lage zu versetzen, sich in neuartigen Situationen genau und effizient zu bewegen.

Ganzer Artikel

Einen Kommentar hinterlassen