V posledných mesiacoch sa stali populárne komunitné rebríčky modelov umelej inteligencie, ktoré v reálnom čase poskytujú prehľad o konkurencii medzi veľkými technologickými spoločnosťami v boji o prvenstvo v oblasti umelej inteligencie. Tieto rebríčky sledujú najpokročilejšie modely AI na základe ich schopnosti plniť konkrétne úlohy. Hoci si pozornosť získali novšie modely, ako napríklad Google’s Gemini a Mistral-Medium od spoločnosti Mistral AI, OpenAI’s GPT-4 naďalej dominuje. Rebríček je založený na testoch alebo benchmarkoch, ktoré merajú výkonnosť AI v oblastiach, ako je napríklad rozpoznávanie reči. Tieto benchmarky však nie sú dokonalé a výskumníci neustále pracujú na ich zlepšovaní. Rebríčky odhaľujú aj počet vyvíjaných modelov AI, pričom sa hodnotia a zaraďujú tisíce modelov. Niektoré modely už v niektorých testoch prekonali výkonnosť človeka, čo naznačuje nasýtenie a potrebu nových referenčných kritérií. Výskumníci skúmajú kreatívne spôsoby hodnotenia jazykových modelov vrátane ľudského vstupu a holistických posudkov. Chatbot Arena, rebríček, ktorý využíva ľudské hodnotenie, si získal popularitu a umožňuje návštevníkom klásť otázky a hlasovať o najlepšej odpovedi chatbota. Hoci majú referenčné kritériá svoje obmedzenia, stále sú hnacím motorom inovácií medzi vývojármi umelej inteligencie, ktorí sa snažia zlepšovať svoje modely a udržať si náskok v tejto oblasti.
