Topluluk tarafından oluşturulan YZ modelleri sıralamaları son aylarda popüler hale geldi ve YZ üstünlüğü için büyük teknoloji şirketleri arasındaki rekabet hakkında gerçek zamanlı bilgiler sağladı. Bu sıralamalar, belirli görevleri tamamlama yeteneklerine göre en gelişmiş yapay zeka modellerini takip ediyor. Google’ın Gemini ve Mistral AI’dan Mistral-Medium gibi yeni katılımcılar dikkat çekerken, OpenAI’nin GPT-4’ü hakimiyetini sürdürüyor. Sıralamalar, konuşma tanıma gibi alanlarda yapay zeka performansını ölçen testlere veya kıyaslamalara dayanmaktadır. Ancak, bu ölçütler mükemmel değildir ve araştırmacılar sürekli olarak bunları geliştirmek için çalışmaktadır. Liderlik tabloları, binlerce modelin değerlendirildiği ve sıralandığı, geliştirilmekte olan YZ modellerinin sayısını da ortaya koyuyor. Bazı modellerin belirli testlerde insan performansını çoktan aşmış olması, doygunluğa ve yeni ölçütlere ihtiyaç duyulduğuna işaret ediyor. Araştırmacılar, dil modellerini değerlendirmek için insan girdisi ve bütünsel yargılar da dahil olmak üzere yaratıcı yollar keşfediyor. İnsan değerlendirmesini kullanan bir liderlik tablosu olan Chatbot Arena popülerlik kazandı ve ziyaretçilerin soru sormasına ve en iyi chatbot yanıtını oylamasına olanak tanıyor. Karşılaştırma ölçütlerinin sınırlamaları olsa da, modellerini geliştirmek ve bu alanda bir adım önde olmak için çabalayan yapay zeka geliştiricileri arasında hala yenilikçiliği teşvik ediyorlar.
