Google’s DeepMind Robotics Forscher erforschen das Potenzial generativer KI und großer Grundmodelle in der Robotik. Ihr Ziel ist es, Robotern ein besseres Verständnis der menschlichen Wünsche zu vermitteln. Bisher waren Roboter auf einzelne Aufgaben beschränkt, doch das neu angekündigte AutoRT-System nutzt große Grundmodelle, um ihre Fähigkeiten zu erweitern. AutoRT verwendet ein visuelles Sprachmodell (Visual Language Model, VLM) für das Situationsbewusstsein und verwaltet eine Flotte von mit Kameras ausgestatteten Robotern. Ein großes Sprachmodell schlägt Aufgaben vor, die von den Robotern ausgeführt werden können. Das System wurde mit bis zu 20 Robotern und 52 verschiedenen Geräten getestet, wobei über 77.000 Versuche gesammelt wurden. Eine weitere Entwicklung ist RT-Trajectory, das Videoeingaben verwendet und eine Skizze des Arms in Aktion einblendet, um Roboter zu trainieren. Diese Methode hat im Vergleich zu früheren Trainingsmethoden eine doppelt so hohe Erfolgsquote gezeigt. RT-Trajectory nutzt auch vorhandene Roboterdaten, um Wissen zu erschließen und die Robotersteuerungsstrategien zu verbessern. Insgesamt zielen diese Fortschritte darauf ab, Roboter in die Lage zu versetzen, sich in neuartigen Situationen genau und effizient zu bewegen.
