Elon Musk’s xAI hat das Grok 1.5 Vision AI Modell vorgestellt, eine verbesserte Version des Grok 1.5 Modells mit zusätzlichen Computer Vision Fähigkeiten. Damit kann das Modell Bilder verarbeiten und Fragen dazu beantworten. Die Ankündigung erfolgte über den offiziellen xAI-Account, der Benchmark-Ergebnisse und Details über das neue Modell mitteilte. Die Grok 1.5 Vision wurde in verschiedenen Benchmarks getestet und übertraf OpenAI’s GPT-4 with Vision in RealWorldQA, schnitt aber in MMMU und ChartQA schlechter ab. Computer Vision befähigt KI-Modelle, Objekte in der realen Welt anhand von Bildern und Videos zu identifizieren und zu verstehen, ähnlich wie die menschliche Sehverarbeitung. Diese Technologie hat ein breites Anwendungsspektrum, das von der Kalorienverfolgung und dem Ernährungsfeedback bis hin zum potenziellen Einsatz in der Krankheitsdiagnose und bei selbstfahrenden Autos reicht. Das Aufkommen multimodaler KI-Modelle hat dazu geführt, dass sich verschiedene Unternehmen verstärkt auf Modelle konzentrieren, die auf das Sehen ausgerichtet sind, wie z. B. Google Gemini 1.5 Pro und OpenAI GPT-4 with Vision.
