In den letzten Monaten sind von der Community erstellte Rankings von KI-Modellen populär geworden, die in Echtzeit Einblicke in den Wettbewerb zwischen großen Technologieunternehmen um die Vorherrschaft der KI bieten. In diesen Rankings werden die fortschrittlichsten KI-Modelle auf der Grundlage ihrer Fähigkeit, bestimmte Aufgaben zu erfüllen, bewertet. Während neuere Marktteilnehmer wie Google’s Gemini und Mistral-Medium von Mistral AI an Aufmerksamkeit gewonnen haben, dominiert OpenAI’s GPT-4 weiterhin. Die Rankings basieren auf Tests oder Benchmarks, die die KI-Leistung in Bereichen wie der Spracherkennung messen. Diese Benchmarks sind jedoch nicht perfekt, und die Forscher arbeiten ständig daran, sie zu verbessern. Die Ranglisten geben auch Aufschluss über die Anzahl der KI-Modelle in der Entwicklung, wobei Tausende von Modellen bewertet und eingestuft werden. Einige Modelle haben die menschliche Leistung bei bestimmten Tests bereits übertroffen, was auf eine Sättigung und die Notwendigkeit neuer Benchmarks hinweist. Die Forscher erforschen kreative Wege zur Bewertung von Sprachmodellen, einschließlich menschlicher Eingaben und ganzheitlicher Beurteilungen. Chatbot Arena, eine Rangliste, die menschliche Bewertungen verwendet, hat an Popularität gewonnen und ermöglicht es Besuchern, Fragen zu stellen und über die beste Chatbot-Antwort abzustimmen. Auch wenn Benchmarks ihre Grenzen haben, treiben sie doch die Innovation unter den KI-Entwicklern voran, die sich bemühen, ihre Modelle zu verbessern und in diesem Bereich an der Spitze zu bleiben.
